Chương 7: Ước lượng điểm (Point Estimation)
Sau khi đã nắm vững các nguyên tắc cơ bản của suy luận, bây giờ là lúc chúng ta đi vào nhiệm vụ cụ thể đầu tiên: Ước lượng điểm (Point Estimation). Mục tiêu của chúng ta là từ một mẫu dữ liệu, đưa ra một con số duy nhất được xem là "phỏng đoán tốt nhất" cho một tham số chưa biết của tổng thể. Chương này sẽ giới thiệu các phương pháp để tìm ra phỏng đoán đó và các tiêu chí để đánh giá xem một phỏng đoán tốt đến mức nào.
Khái niệm 1: Phương pháp Hợp lý Tối đa (Maximum Likelihood Estimation - MLE)
1. Động lực / Vấn đề cần giải quyết:
Giả sử chúng ta có một mẫu dữ liệu và một mô hình xác suất cho dữ liệu đó (ví dụ: dữ liệu tuân theo phân phối chuẩn với và chưa biết). Có vô số giá trị và khả dĩ. Vậy, đâu là cặp giá trị hợp lý nhất? Chúng ta cần một nguyên tắc, một phương pháp có hệ thống để chọn ra giá trị tham số mà làm cho dữ liệu ta đã quan sát được có vẻ "dễ xảy ra nhất".
2. Khái niệm, Cách hiểu đơn giản:
Nguyên tắc Hợp lý Tối đa (MLE) hoạt động như một thám tử. Vị thám tử nhìn vào bằng chứng (dữ liệu) và đặt câu hỏi: "Trong số tất cả các nghi phạm (các giá trị tham số), ai là người có khả năng tạo ra bằng chứng này cao nhất?". MLE chọn giá trị tham số để tối đa hóa xác suất (hoặc mật độ xác suất) của việc quan sát được chính mẫu dữ liệu mà chúng ta đang có trong tay. Nó tìm kiếm lời giải thích hợp lý nhất cho dữ liệu.
3. Định nghĩa toán học:
Cho một mẫu ngẫu nhiên i.i.d. từ một phân phối có PMF hoặc PDF là . Hàm hợp lý (likelihood function) được định nghĩa là:
.
Lưu ý: Đây là một hàm của , với dữ liệu được coi là cố định.
Ước lượng hợp lý tối đa (Maximum Likelihood Estimator - MLE), ký hiệu là , là giá trị của làm tối đa hóa .
Trên thực tế, ta thường tối đa hóa hàm log-hợp lý (log-likelihood) vì nó dễ tính toán hơn và cho ra cùng kết quả.
4. Ví dụ và Phản ví dụ:
- Ví dụ: Tung một đồng xu (có thể không cân bằng) lần, thu được mặt sấp. Gọi là xác suất ra mặt sấp.
- Phân phối của một lần tung là Bernoulli().
- Hàm hợp lý: .
- Để tối đa hóa , ta lấy đạo hàm theo và cho bằng 0. Kết quả thu được là . Đây chính là tỷ lệ mẫu, một kết quả rất trực quan.
- Phản ví dụ: MLE có thể cho ra kết quả vô nghĩa trong một số trường hợp. Ví dụ, nếu ta có một mẫu từ phân phối đều , hàm hợp lý sẽ bằng nếu tất cả và bằng 0 nếu ngược lại. Để tối đa hóa hàm này, ta phải chọn nhỏ nhất có thể mà vẫn lớn hơn tất cả các . Do đó, . Ước lượng này luôn luôn nhỏ hơn hoặc bằng giá trị thật của , tức là nó bị chệch (
biased).
5. Ý nghĩa hình học, hoặc ý nghĩa nào đó:
Hãy tưởng tượng hàm hợp lý là một ngọn đồi, với trục hoành là các giá trị khả dĩ của tham số . MLE chính là việc đi tìm đỉnh của ngọn đồi đó. Tọa độ của đỉnh đồi chính là giá trị ước lượng .
6. Ứng dụng trong Machine Learning, Deep Learning, hoặc AI:
MLE là nguyên tắc nền tảng cho việc huấn luyện hầu hết các mô hình học máy có giám sát. Ví dụ, trong hồi quy tuyến tính với giả định nhiễu Gauss, việc tối thiểu hóa tổng bình phương sai số (Least Squares) hoàn toàn tương đương với việc tối đa hóa hàm hợp lý. Tương tự, trong hồi quy logistic, việc tối thiểu hóa hàm mất mát cross-entropy cũng chính là việc thực hiện MLE. Nói cách khác, khi bạn huấn luyện một mạng nơ-ron, rất có thể bạn đang thực hiện một dạng của MLE.
Khái niệm 2: Các tiêu chí đánh giá một ước lượng
1. Động lực / Vấn đề cần giải quyết:
Chúng ta có thể có nhiều phương pháp khác nhau để đưa ra một ước lượng điểm (ví dụ: MLE, Phương pháp Moment). Vậy làm sao để biết ước lượng nào "tốt" hơn? Chúng ta cần một bộ tiêu chí khách quan để đo lường chất lượng của một công cụ ước lượng, giống như việc chúng ta có các chỉ số để đánh giá hiệu suất của một chiếc xe hơi.
2. Khái niệm, Cách hiểu đơn giản:
Có bốn tiêu chí chính:
- Không chệch (
Unbiasedness): Một ước lượng được gọi là không chệch nếu "trung bình" của nó (giá trị kỳ vọng của phân phối lấy mẫu) bằng đúng giá trị tham số thật. Nó giống như một người bắn súng không bị lệch tâm; các phát bắn có thể phân tán nhưng trung tâm của chúng là đúng mục tiêu. - Hiệu quả (
Efficiency): Giữa hai ước lượng không chệch, ước lượng nào có phương sai nhỏ hơn thì được gọi là hiệu quả hơn. Nó giống như một người bắn súng không chỉ bắn trúng tâm mà còn bắn rất chụm. - Nhất quán (
Consistency): Một ước lượng là nhất quán nếu khi kích thước mẫu tăng lên vô hạn, nó hội tụ về giá trị tham số thật. Điều này đảm bảo rằng việc thu thập thêm dữ liệu sẽ giúp ước lượng của bạn tốt hơn. - Tính đầy đủ (
Sufficiency): Một thống kê được gọi là đủ nếu nó chứa đựng tất cả thông tin về tham số có trong mẫu. Một khi bạn đã tính toán thống kê này, việc xem lại dữ liệu gốc không cung cấp thêm bất kỳ thông tin nào về .
3. Định nghĩa toán học:
Cho là một ước lượng của .
- Không chệch: với mọi . Độ chệch (
bias) là . - Hiệu quả: Nếu và đều không chệch, hiệu quả hơn nếu . Ước lượng không chệch tốt nhất với phương sai nhỏ nhất (UMVUE) là ước lượng đánh bại tất cả các ước lượng không chệch khác về phương sai.
- Nhất quán: là nhất quán nếu khi .
4. Ví dụ và Phản ví dụ:
- Ví dụ: Với mẫu từ tổng thể có trung bình và phương sai :
- Trung bình mẫu là một ước lượng không chệch cho vì .
- Phương sai mẫu là một ước lượng không chệch cho .
- Phản ví dụ (về không chệch): Nếu chúng ta định nghĩa phương sai mẫu là (chia cho thay vì ), thì đây sẽ là một ước lượng bị chệch. Cụ thể, , luôn nhỏ hơn giá trị thật. Đây cũng chính là ước lượng MLE cho phương sai của phân phối chuẩn, cho thấy MLE không phải lúc nào cũng không chệch.
5. Ý nghĩa hình học, hoặc ý nghĩa nào đó:
Hãy xem phân phối lấy mẫu của các ước lượng khác nhau.
- Không chệch: Đỉnh của phân phối lấy mẫu nằm ngay tại giá trị thật.
- Hiệu quả: Phân phối lấy mẫu của nó hẹp và cao hơn so với các ước lượng khác.
- Nhất quán: Khi tăng, phân phối lấy mẫu này sẽ co lại thành một đường thẳng đứng tại .
6. Ứng dụng trong Machine Learning, Deep Learning, hoặc AI:
Sự đánh đổi Giữa Độ chệch và Phương sai (Bias-Variance Tradeoff) là một khái niệm trung tâm trong học máy.
- Mô hình có độ chệch cao (ví dụ: hồi quy tuyến tính cho dữ liệu phi tuyến) là mô hình quá đơn giản, ước lượng "lệch" xa so với hàm mục tiêu thực, gây ra lỗi underfitting.
- Mô hình có phương sai cao (ví dụ: một cây quyết định rất sâu) là mô hình quá phức tạp, rất nhạy cảm với dữ liệu huấn luyện cụ thể. Ước lượng thay đổi rất nhiều nếu ta thay đổi tập huấn luyện, gây ra lỗi overfitting.
Mục tiêu của việc lựa chọn và tinh chỉnh mô hình là tìm ra điểm cân bằng tối ưu giữa hai loại lỗi này để có sai số tổng quát hóa (
generalization error) thấp nhất.