Likelihood probability là gì

Sơ lược về Maximum Likelihood Estimation

  • Báo cáo

Bài đăng này đã không được cập nhật trong 2 năm

1. Statistical Machine Learning

Đối với một bài toán Machine Learning tổng quát, việc giải quyết bài toán thường gồm 3 bước chính:

  • Modeling: Đi tìm mô hình có thể mô tả tốt nhất bài toán
  • Learning: Tối ưu tham số cho mô hình dựa vào dữ liệu có sẵn
  • Inference: Sử dụng mô hình đã tối ưu để dự đoán kết quả với đầu vào chưa biết

Trong Statistical Machine Learning [Học máy Thống kê], mô hình bài toán thường là sự kết hợp của các phân phối xác suất đơn giản [Bernoulli, Gaussian, ]. Ở bước Learning, có hai phương pháp được sử dụng phổ biến để tối ưu bộ tham số, đó là Maximum Likelihood Estimation và Maximum A Posteriori Estimation.

Trong bài viết này, chúng ta cùng tìm hiểu phương pháp Maximum Likelihood Estimation thông qua ví dụ đơn giản. Phương pháp Maximum A Posteriori Estimation sẽ được giới thiệu trong phần tiếp theo.

2. Maximum Likelihood Estimation [MLE]

MLE là phương pháp dự đoán tham số của một mô hình thống kê dựa trên những quan sát có sẵn, bằng cách tìm bộ tham số sao cho có thể tối đa hoá khả năng mà mô hình với bộ tham số đó sinh ra các quan sát có sẵn.

Giả sử mô hình được mô tả bởi bộ tham số θ, các quan sát [hay điểm dữ liệu] là x1, x2, , xN. Khi đó chúng ta cần tìm:

θ = argmax{ p[x1,x2,,xN|θ] } [1]

, trong đó: p[x1,x2,,xN|θ] là xác suất để các sự kiện x1, x2, , xN xảy ra đồng thời, được gọi là likelihood. Chính vì vậy mà phương pháp này được gọi là Maximum Likelihood.

Tuy nhiên, việc giải trực tiếp bài toán [1] thường là khó khăn. Chúng ta có thể đơn giản hoá bài toán bằng việc giả sử các điểm dữ liệu xảy ra độc lập với nhau. Khi đó, [1] trở thành:

θ = argmax{ \prod p[xn|θ] } [2]

Chúng ta có thể khiến việc tính toán dễ dàng hơn bằng cách biến đổi về bài toán Maximum Log-likelihood:

θ = argmax{ \sum log[p[xn|θ]] } [3]

3. Ví dụ

Để hiểu rõ hơn về MLE, chúng ta cùng làm một ví dụ đơn giản.

Giả sử bài toán là có 5 học sinh làm bài kiểm tra được số điểm lần lượt là: 3, 6, 5, 9, 8. Để mô hình hoá điểm của các học sinh này, ta giả thiết các điểm dữ liệu được phân bố theo phân phối Gaussian:

Để dự đoán bộ tham số của phân phối chuẩn, ta sử dụng phương pháp MLE:

Để tìm μ và σ sao cho biểu thức trong ngoặc vuông đạt giá trị cực đại, chúng ta đạo hàm biểu thức theo từng biến và giải phương trình khi giá trị đó bằng 0.

Từ đó ta có:

Thay các điểm dữ liệu vào công thức trên, ta tìm được μ = 6.2 và σ = 2.14.

4. Kết luận

Hy vọng qua bài viết này, các bạn đã hiểu rõ hơn về phương pháp Maximum Likelihood Estimation. Trong phần tiếp theo, chúng ta sẽ tìm hiểu về phương pháp tổng quát hơn là Maximum A Posteriori Estimation.

5. Tài liệu tham khảo và Nguồn hình ảnh

  • //machinelearningcoban.com/2017/07/17/mlemap/
  • //towardsdatascience.com/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1

Sơ lược về LL, MLE

Log-Likelihood

Likelihood function hay đơn giản gọi là likelihood là một hàm tham số trong thống kê.
Bình thường cách dùng của từ khả năng likelihood [đôi khi còn được dịch khả dĩ?] có nghĩa gần giống từ xác xuất probability. Tuy nhiên khi sử dụng trong thống kê học, cách dùng phụ thuộc vào vai trò của kết quả hay thông số.

Xác xuất probability được sử dụng khi mô tả một hàm của kết quả đầu ra [outcome] với một tham số xác định [fixed parameter value] \[P\left[ {x|\theta } \right]\]. Giả sử có một biến ngẫu nhiên X tuân theo phân phối tham số [parameterized distribution] \[f\left[ {x;\theta } \right]\] [ví dụ phân với chuẩn \[f[x;\mu ,\sigma ]\] thì \[\theta \]\[\mu ,\sigma \]] với \[\theta \] là tham số của phân phối f.

Khi đó xác xuất X = x sẽ là \[P\left[ {X = x} \right] = f\left[ {x;{\rm{ }}\theta } \right]\] với \[\theta \] đã biết. Nói cách khác cho giá trị cụ thể \[\theta \], \[P\left[ {x|\theta } \right]\] là xác xuất sẽ quan sát thấy kết quả outcome đại diện bởi x [x mô tả outcome].

Ví dụ: tung đồng xu 10 lần, đồng xu cân đối [công bằng], xác xuất xuất hiện mặt ngửa x lần là bao nhiêu?

Ví dụ biết xác xuất xuất hiện một mặt của đồng xu cân đối tuân theo phân phối nhị thức với p = 0.5. Xác xuất xuất hiện mặt ngửa 7 lần x = 7
\[P\left[ {X = x} \right] = f\left[ {x;n,\;p} \right] = B\left[ {n,p} \right] = \left[ {\begin{array}{*{20}{c}}n\\x\end{array}} \right]{p^x}{\left[ {1 - p} \right]^{n - x}} = \left[ {\begin{array}{*{20}{c}}n\\x\end{array}} \right]{0.5^x}{\left[ {1 - 0.5} \right]^{n - x}}\]
với x = 7, n = 10, p = 0.5 thì \[\;f\left[ {x;n,\;p} \right] = 0.117\]

Trong khi đó likelihood được sử dụng khi mô tả một hàm của tham số [parameter] cho ra một kết quả outcome [outcome đã biết].

Ví dụ tung đồng xu 10 lần và ngửa 7 lần vậy đồng xu có cân đối? Trong thực tế đây là trường hợp thường xảy ra khi mô hình hóa một quá trình ngẫu nhiên [real life stochastic process] khi không biết \[\theta \] mà chỉ có thể quan sát x. Do đó cần ước tính \[\theta \] để giá trị này phù hợp với giá trị quan sát x.

Trong trường hợp ngược lại này giá trị của p là chưa xác định likelihood function sẽ viết như sau:
\[L\left[ {x;n,\;p} \right] = \left[ {\begin{array}{*{20}{c}}n\\x\end{array}} \right]{p^x}{\left[ {1 - p} \right]^{n - x}}\]

Likelihood sẽ là tập hợp của các parameter thỏa mãn các kết quả đầu ra quan sát được và bằng đúng xác xuất xảy ra của những quan sát này. Theo đó hàm likelihood được viết gần như hàm xác xuất với lưu ý là \[\theta \] chưa biết và X = x đã biết.
\[L\left[ {\theta |x} \right] = P[x|\theta ]\]

Likelihood-ratio test là một kiểm định thống kê dùng kiểm tra goodness of fit [GoF] của hai mô hình trong đó một mô hình là null-model [trường hợp đặc biệt] còn được viết tắt là -2LL [-2 log-likelihood]. Kiểm định này sử dụng tỷ số likelihood [likelihood ratio].

Null-hypothesis \[{H_0}:\rho = {\rm{ }}0.50\]
Alternate hypothesis \[{H_a}:\rho \ne {\rm{ }}0.50\]

Likelihood-ratio test dựa trên tỷ số likelihood [likelihood rate] được bởi ký tự capital lambda
\[{\rm{ }}\Lambda {\rm{ }}\left[ x \right] = \frac{{L[{\theta _0}|x]}}{{L[{\theta _a}|x]}} = \frac{{f\left[ {x|{\theta _0}} \right]}}{{f[x|{\theta _a}]}}\]
Likelihood-ratio test trả lời câu hỏi liệu dữ liệu [data] có ý nghĩa thống kê cho thấy ít có khả năng xảy ra giả thuyết null hơn giả thuyết đối bằng cách tính log-likelihood giữa giả thuyết null và giả thuyết đối và xem xét độ khác nhau giữa hai giá trị này [note \[\log \frac{a}{b} = \log a - \log b\]]:
\[D{\rm{ }} = {\rm{ }}2{\rm{ }}\left[ {L{L_a} - {\rm{ }}L{L_0}} \right]\]

Việc nhân giá trị \[L{L_a} - {\rm{ }}L{L_0}\] với 2 là một kỹ thuật thống kê với mục đích làm cho giá trị D có phân phối \[{\chi ^2}\].

Ví dụ log-likelihood function của một phân phối chuẩn có dạng như sau:
\[l\left[ {\mu ,\sigma } \right] = - n\log \left[ {2\pi {\sigma ^2}} \right] - \frac{{\mathop \sum \nolimits_i {{\left[ {{X_i} - \mu } \right]}^2}}}{{2{\sigma ^2}}}\]

Maximum-Likelihood Estimation

Ước lượng hợp lý cực đại hay còn dịch là ước lượng khả năng cực đại Maximum-Likelihood Estimation [MLE] là một kỹ thuật trong thống kê dùng để ước lượng giá trị tham số của một mô hình xác suất dựa trên những dữ liệu có được. Phương pháp này được nhà toán học R. A. Fisher phát triển vào khoảng 1912-1922.

MLE dựa trên giả thiết rằng các mẫu dữ liệu\[\;D = \left\{ {{X_{1,}} \ldots ,{X_N}} \right\}\] có được đềuđộc lập và có cùng phân bố[i.i.dindependent and identically distributed], với hàm phân bố thuộc một lớp cụ thể [ví dụ như Gaussian hoặc luỹ thừa] với tham số\[\theta \]chưa biết. Mục tiêu của MLE là đi tìm giá trị của tham số để tối ưu hoá hàm thiệt hại [loss function].

Trong trường hợp của MLE, hàm thiệt hại được định nghĩa là hàm logarithm của hàm khả năng [likelihood function] \[\ln [P[D|\theta ]]\]

Theo giả thiết các mẫu dữ liệu là i.i.d ta có hàm khả năng
\[P\left[ {D{\rm{|}}\theta } \right] = P\left[ {{X_1}, \ldots ,{X_N}{\rm{|}}\theta } \right] = \mathop \prod \limits_{i = 1}^N P[{X_i}|\theta ]\]
do đó khi lấy logarithm loss function có giá trị
\[\ln [P[D|\theta ]] = \mathop \sum \limits_{i = 1}^N \ln [P[{X_i}|\theta ]]\]

Tham số của mô hình dựa sẽ được ước lượng bằng các cách gán với các giá trị sao cho hàm số trên giá trị đạt cực đại:

\[\left\{ {{{\hat \theta }_{mle}}} \right\} \subseteq \left\{ {{\rm{argma}}{{\rm{x}}_{\theta \in {\rm{\Theta }}}}{\rm{ln}}[P[D|\theta ]]} \right\}\]

Video liên quan

Chủ Đề