Xác suất có điều kiện bayes python
Trong hướng dẫn trước, bạn đã được giới thiệu về xác suất cơ bản và các quy tắc xử lý nó. Bây giờ chúng ta được trang bị khả năng tính toán xác suất của các sự kiện khi chúng không phụ thuộc vào bất kỳ sự kiện nào khác xung quanh chúng. Nhưng điều này chắc chắn tạo ra một hạn chế thực tế vì nhiều sự kiện phụ thuộc vào nhau trong thực tế. Hướng dẫn xử lý xác suất có điều kiện và định lý bayes sẽ giải đáp những hạn chế này Show
xác suất có điều kiện Nếu X và Y là các biến cố độc lập thì sao? Nếu X và Y loại trừ lẫn nhau thì sao? Quy tắc nhân \begin{equation} P(X \cap Y) = P(X. Y)*P(Y) \end{phương trình} Vì vậy, xác suất chung mà cả X và Y sẽ xảy ra bằng tích của hai số hạng Xác suất để biến cố Y xảy ra Từ quy tắc sản phẩm, có thể suy ra như sau: $$X \subseteq Y$$ ngụ ý $$P(X. Y) = P(X)/P(Y)$$ Ghi chú. Các định luật phân phối, kết hợp và De Morgans cũng hợp lệ để tính xác suất. Những điều sau đây có thể được suy ra bằng cách sử dụng các luật này, quy tắc dây chuyền \begin{equation} P(\bigcap_{i=1,. ,n}E_{i}) = P(E_{n}. \bigcap_{i=1,. ,n-1}E_{i})*P(\bigcap_{i=1,. ,n-1}E_{i}) \end{equation} Hiểu biết về xác suất là điều bắt buộc đối với một chuyên gia khoa học dữ liệu. Các giải pháp cho nhiều vấn đề khoa học dữ liệu thường mang tính xác suất. Do đó, hiểu rõ hơn về xác suất sẽ giúp bạn hiểu & triển khai các thuật toán này hiệu quả hơn Trong bài viết này, tôi sẽ tập trung vào xác suất có điều kiện. Đối với người mới bắt đầu xác suất, tôi thực sự khuyên bạn nên xem qua bài viết này trước khi tiếp tục Một mô hình dự đoán có thể dễ dàng được hiểu là một tuyên bố về xác suất có điều kiện. Ví dụ: xác suất khách hàng từ phân khúc A mua sản phẩm loại Z trong 10 ngày tới là 0. 80. Nói cách khác, xác suất khách hàng mua sản phẩm từ Danh mục Z, với điều kiện là khách hàng từ Phân khúc A là 0. 80 Trong bài viết này, tôi sẽ hướng dẫn bạn xác suất có điều kiện một cách chi tiết. Tôi sẽ sử dụng các ví dụ và tình huống thực tế để giúp bạn nâng cao hiểu biết của mình Bạn cũng có thể xem bài viết mới của chúng tôi về Định lý Bayes tại đây. Nó chứa rất nhiều ví dụ và ứng dụng trong thế giới thực – điều mà mọi chuyên gia khoa học dữ liệu phải biết Mục lục
1. Sự kiện – Sự kiện liên minh, giao lộ và rời rạcTrước khi khám phá xác suất có điều kiện, chúng ta hãy xác định một số thuật ngữ phổ biến cơ bản 1. 1 SỰ KIỆNMột sự kiện chỉ đơn giản là kết quả của một thử nghiệm ngẫu nhiên. Bắt đầu khi chúng ta tung đồng xu là một sự kiện. Nhận được điểm 6 khi tung xúc xắc công bằng là một sự kiện. Chúng tôi liên kết xác suất với các sự kiện này bằng cách xác định sự kiện và không gian mẫu Không gian mẫu không là gì ngoài tập hợp tất cả các kết quả có thể xảy ra của một phép thử. Điều này có nghĩa là nếu chúng ta thực hiện đi thực hiện lại một tác vụ cụ thể, thì tất cả các kết quả có thể có của tác vụ đó được liệt kê trong không gian mẫu Ví dụ. Không gian mẫu cho một lần ném súc sắc sẽ là {1,2,3,4,5,6}. Một trong số này chắc chắn sẽ xảy ra nếu chúng ta ném một con súc sắc. Không gian mẫu làm tiêu hết các khả năng có thể xảy ra khi thực hiện thí nghiệm đó Một sự kiện cũng có thể là sự kết hợp của nhiều sự kiện khác nhau 1. 2 Liên minh sự kiệnChúng ta có thể xác định một sự kiện (C) nhận được 4 hoặc 6 khi chúng ta gieo xúc xắc công bằng. Ở đây biến cố C là hợp của hai biến cố Sự kiện A = Nhận được 4 Sự kiện B = Nhận được 6 P(C) = P(A ꓴ B) Nói một cách đơn giản, chúng ta có thể nói rằng chúng ta nên xem xét xác suất của (A ꓴ B) khi chúng ta quan tâm đến xác suất kết hợp của hai (hoặc nhiều) sự kiện 1. 3. Giao điểm của sự kiệnHãy xem một ví dụ khác Gọi C là biến cố nhận được bội số của 2 và 3 khi bạn tung một con xúc xắc công bằng Sự kiện A = Nhận được bội số của 2 khi bạn tung xúc xắc công bằng Sự kiện B = Nhận được bội số của 3 khi bạn tung xúc xắc công bằng Sự kiện C = Nhận bội số của 2 và 3 Biến cố C là giao của biến cố A & B Xác suất sau đó được xác định như sau P(C) = P(A ꓵ B) Bây giờ chúng ta có thể nói rằng vùng bóng mờ là xác suất của cả hai sự kiện A và B xảy ra cùng nhau 1. 4 sự kiện rời rạcĐiều gì sẽ xảy ra nếu bạn gặp trường hợp hai sự kiện cụ thể bất kỳ không thể xảy ra đồng thời Ví dụ. Giả sử bạn có một con xúc xắc công bằng và bạn chỉ có một lần ném Sự kiện A = Nhận được bội số của 3 Sự kiện B = Nhận được bội số của 5 Bạn muốn cả hai sự kiện A & B xảy ra cùng nhau Hãy cùng tìm không gian con cho Sự kiện A và B Biến cố A = {3,6} Sự kiện B = {5} Không gian mẫu = {1,2,3,4,5,6} Như bạn có thể thấy, không có trường hợp nào để sự kiện A và B có thể xảy ra cùng nhau. Những sự kiện như vậy được gọi là sự kiện rời rạc. Để biểu diễn điều này bằng sơ đồ Venn 2. Sự kiện độc lập, phụ thuộc và độc quyềnGiả sử chúng ta có hai sự kiện - sự kiện A và sự kiện B Nếu sự xuất hiện của biến cố A không ảnh hưởng đến sự xuất hiện của biến cố B thì các biến cố này được gọi là biến cố độc lập Hãy xem một số ví dụ về các sự kiện độc lập
Trong mỗi trường hợp này, xác suất kết quả của sự kiện thứ hai hoàn toàn không bị ảnh hưởng bởi kết quả của sự kiện đầu tiên Xác suất của các sự kiện độc lậpTrong trường hợp này, xác suất của P (A ꓵ B) = P (A) * P (B) Hãy lấy một ví dụ ở đây. Giả sử chúng ta thắng trò chơi nếu chọn được một viên bi đỏ từ lọ chứa 4 viên bi đỏ và 3 viên bi đen và chúng ta được ngửa khi tung đồng xu. Xác suất chiến thắng là gì? Hãy xác định biến cố A là lấy viên bi đỏ từ lọ Biến cố B là tung đồng xu Chúng ta cần tìm xác suất để cả hai nhận được viên bi đỏ và mặt ngửa khi tung đồng xu P(A) = 4/7 P(B) = 1/2 Ta biết rằng màu sắc của viên bi không ảnh hưởng đến kết quả tung đồng xu. P (A ꓵ B) = P (A) * P (B) P (A ꓵ B) = (4/7) * (1/2) = (2/7) Bây giờ, đã đến lúc thực hiện các thử nghiệm độc lập trong RChúng ta hãy xem xét ví dụ sau Thí dụ đầu ra prob_table1 y1 y2 x1 0.2555 0.244 x2 0.2515 0.249 prob_table2 y1 y2 x1 0.2550247 0.2504752 x2 0.2494752 0.2450247 Chúng ta thấy rằng prob_table1 và prob_table2 có giá trị gần giống nhau, cho biết việc tung hai quân bài có thể là độc lập Xác suất của các sự kiện phụ thuộcTiếp theo, bạn có thể nghĩ ra các ví dụ về các sự kiện phụ thuộc không? Trong ví dụ trên, hãy xác định sự kiện A là lấy một viên bi đỏ từ lọ. Sau đó chúng tôi giữ viên bi ra ngoài và sau đó lấy một viên bi khác từ bình Xác suất trong trường hợp thứ hai có giống như trong trường hợp thứ nhất không? Hãy xem nào. Vậy lần thứ nhất có 4/7 cơ hội lấy được viên bi đỏ. Giả sử bạn có một viên bi màu đỏ trong lần thử đầu tiên. Bây giờ, để có cơ hội thứ hai, để có được viên bi đỏ, chúng ta có 3/6 cơ hội Nếu chúng ta không nhận được một viên bi đỏ trong lần thử đầu tiên mà thay vào đó là một viên bi trắng. Khi đó có 4/6 cơ hội lấy được viên bi đỏ lần thứ hai. Do đó, xác suất trong trường hợp thứ hai phụ thuộc vào những gì đã xảy ra trong lần đầu tiên Câu đố 1. Nếu bạn có một quân Jack và lá bài tiếp theo của bạn được chia bằng một bộ bài mới thì xác suất để bạn lại có được một quân jack là? Các sự kiện loại trừ lẫn nhau và toàn diệnSự kiện loại trừ lẫn nhau là những sự kiện mà hai sự kiện không thể xảy ra cùng nhau Ví dụ dễ hiểu nhất về điều này là tung đồng xu. Bắt sấp và ngửa là loại trừ lẫn nhau vì chúng ta có thể được ngửa hoặc sấp nhưng không bao giờ có cả hai cùng lúc trong một lần tung đồng xu Một tập hợp các sự kiện được coi là đầy đủ khi tập hợp đó phải chứa tất cả các kết quả có thể xảy ra của thử nghiệm. Một trong những sự kiện từ danh sách phải chắc chắn xảy ra khi thử nghiệm được thực hiện Ví dụ: trong trò ném xúc xắc, {1,2,3,4,5,6} là một tập hợp đầy đủ bởi vì, nó bao gồm toàn bộ phạm vi các kết quả có thể xảy ra Xem xét các kết quả “chẵn” (2,4 hoặc 6) và “không-6” (1,2,3,4 hoặc 5) trong một lần ném xúc xắc công bằng. Chúng toàn diện chung nhưng không loại trừ lẫn nhau Câu đố 2. Kiểm tra xem các sự kiện dưới đây có loại trừ lẫn nhau không
3. xác suất có điều kiệnXác suất có điều kiện phát sinh một cách tự nhiên trong quá trình điều tra các thí nghiệm trong đó kết quả của một thử nghiệm có thể ảnh hưởng đến kết quả của các thử nghiệm tiếp theo Chúng tôi cố gắng tính xác suất của sự kiện thứ hai (sự kiện B) khi sự kiện đầu tiên (sự kiện A) đã xảy ra. Nếu xác suất của sự kiện thay đổi khi chúng ta xem xét sự kiện đầu tiên, chúng ta có thể nói một cách an toàn rằng xác suất của sự kiện B phụ thuộc vào sự xuất hiện của sự kiện A Hãy nghĩ về những trường hợp điều này xảy ra
Và như thế… Ở đây chúng ta có thể xác định, 2 sự kiện
Chúng ta có thể viết xác suất có điều kiện là Hãy chơi một trò chơi bài đơn giản để bạn hiểu điều này. Giả sử bạn rút hai lá bài từ một bộ bài và bạn thắng nếu bạn nhận được một quân jack theo sau là một quân át (không thay thế). Xác suất chiến thắng là bao nhiêu, nếu chúng ta biết rằng bạn đã trúng jack trong lượt đầu tiên? Giả sử biến cố A được một quân cờ trong lượt đầu tiên Giả sử biến cố B được quân át ở lượt thứ hai Chung ta cân tim P(A) = 4/52 P(B) = 4/51 {không thay thế} P(A và B) = 4/52*4/51= 0. 006 Ở đây chúng tôi đang xác định xác suất khi chúng tôi biết một số điều kiện thay vì tính xác suất ngẫu nhiên. Tại đây, chúng tôi biết rằng anh ấy đã ăn jack trong lượt đầu tiên Hãy lấy một ví dụ khác Giả sử bạn có một cái lọ chứa 6 viên bi – 3 đen và 3 trắng. Xác suất lấy được quân đen là bao nhiêu nếu quân đầu tiên cũng đen P(A) = lấy bi đen trong lượt đầu tiên P(B) = lấy bi đen ở lượt thứ hai P(A) = 3/6 P(B) = 2/5 P (A và B) = ½*2/5 = 1/5 Bây giờ chúng ta hãy xem xét một ví dụ mới và triển khai trong R Thí dụ Bây giờ ở đây phương trình của chúng ta trở thành P(Tai nạn. Một người tuân theo Luật giao thông) = P(Tai nạn và tuân theo Luật giao thông) / P(Tuân thủ luật giao thông) Giải pháp đầu ra Conditional_Probability 0.02439024 3. 1 Đảo ngược điều kiệnThí dụ. Bữa sáng yêu thích của Rahul là bánh mì tròn và bữa trưa yêu thích của anh ấy là pizza. Xác suất để Rahul có bánh mì tròn cho bữa sáng là 0. 6. Xác suất để anh ấy ăn pizza vào bữa trưa là 0. 5. Xác suất để anh ta ăn một chiếc bánh mì tròn vào bữa sáng trong khi anh ta ăn một chiếc bánh pizza vào bữa trưa là 0. 7 Hãy xác định sự kiện A là Rahul ăn bánh mì vào bữa sáng, Sự kiện B là Rahul ăn pizza vào bữa trưa P(A) = 0. 6 P(B) = 0. 5 Nếu chúng ta nhìn vào các con số, xác suất để có một chiếc bánh mì tròn khác với xác suất để có một chiếc bánh mì tròn nếu anh ta có một chiếc bánh pizza cho bữa trưa. Điều này có nghĩa là xác suất ăn bánh mì tròn phụ thuộc vào việc ăn bánh pizza vào bữa trưa Bây giờ điều gì sẽ xảy ra nếu chúng ta cần biết xác suất để có một chiếc bánh pizza nếu bạn ăn một chiếc bánh mì tròn vào bữa sáng. tôi. e. chúng ta cần biết 4. Định lý BayesĐịnh lý Bayes mô tả xác suất của một sự kiện dựa trên kiến thức trước đó về các điều kiện có thể liên quan đến sự kiện đó. Nếu biết xác suất có điều kiện Làm thế nào chúng ta có thể làm điều đó? Tuyên bố trên là biểu diễn chung của quy tắc Bayes Đối với ví dụ trước - nếu bây giờ chúng ta muốn tính xác suất ăn một chiếc bánh pizza cho bữa trưa với điều kiện bạn có một chiếc bánh mì tròn cho bữa sáng sẽ là = 0. 7 * 0. 5/0. 6 Chúng ta có thể khái quát hóa công thức hơn nữa Nếu nhiều sự kiện Ai tạo thành một tập hợp đầy đủ với một sự kiện B khác Chúng ta có thể viết phương trình như Bây giờ, thực hiện ví dụ trong R đầu ra Bayes_Theorem 0.1211449 5. Ví dụ về Định lý Bayes và cây xác suấtHãy lấy ví dụ về bệnh nhân ung thư vú. Các bệnh nhân đã được kiểm tra ba lần trước khi bác sĩ ung thư kết luận rằng họ bị ung thư. Niềm tin chung là 1. 48 trong số 1000 người bị ung thư vú ở Hoa Kỳ vào thời điểm cụ thể khi thử nghiệm này được tiến hành. Các bệnh nhân được kiểm tra qua nhiều xét nghiệm. Ba bộ xét nghiệm đã được thực hiện và bệnh nhân chỉ được chẩn đoán mắc bệnh ung thư nếu cô ấy có kết quả dương tính ở cả ba xét nghiệm Hãy kiểm tra bài kiểm tra một cách chi tiết Độ nhạy của xét nghiệm (93%) – Tỷ lệ dương tính thực sự Độ đặc hiệu của xét nghiệm (99%) – tỷ lệ âm tính thật Trước tiên hãy tính xác suất mắc bệnh ung thư khi bệnh nhân có kết quả dương tính trong lần xét nghiệm đầu tiên P (bị ung thư. bài kiểm tra đầu tiên +) P (ung thư) = 0. 00148 Độ nhạy có thể được ký hiệu là P (+. ung thư) = 0. 93 Độ đặc hiệu có thể được ký hiệu là P (-. không bị ung thư) Vì chúng tôi không có bất kỳ thông tin nào khác, chúng tôi tin rằng bệnh nhân là một cá nhân được lấy mẫu ngẫu nhiên. Do đó niềm tin trước đây của chúng tôi là có 0. 148% khả năng bệnh nhân bị ung thư Phần bù là có 100 – 0. 148% khả năng bệnh nhân không bị UNG THƯ. Tương tự, chúng ta có thể vẽ cây dưới đây để biểu thị xác suất Bây giờ chúng ta hãy thử tính xác suất mắc bệnh ung thư nếu anh ấy có kết quả dương tính trong lần xét nghiệm đầu tiên. e. P (ung thư. +) P (ung thư và +) = P (ung thư) * P (+) = 0. 00148*0. 93 P (không ung thư và +) = P (không ung thư) * P(+) = 0. 99852*0. 01 Để tính xác suất xét nghiệm dương tính, người đó có thể bị ung thư và xét nghiệm dương tính hoặc người đó có thể không bị ung thư và vẫn cho kết quả dương tính Điều này có nghĩa là có 12% khả năng bệnh nhân bị ung thư nếu anh ta có kết quả dương tính trong lần xét nghiệm đầu tiên. Điều này được gọi là xác suất sau 5. 1 Bayes Đang cập nhậtBây giờ chúng ta hãy thử tính xác suất mắc bệnh ung thư khi bệnh nhân cũng được xét nghiệm dương tính trong lần xét nghiệm thứ hai Bây giờ hãy nhớ rằng chúng tôi sẽ chỉ thực hiện xét nghiệm thứ hai nếu cô ấy có kết quả dương tính trong lần đầu tiên. Do đó, bây giờ người đó không còn là một người được lấy mẫu ngẫu nhiên mà là một trường hợp cụ thể. Chúng tôi biết điều gì đó về cô ấy. Do đó, các xác suất trước sẽ thay đổi. Chúng tôi cập nhật xác suất trước với xác suất sau từ thử nghiệm trước Sẽ không có gì thay đổi về độ nhạy và độ đặc hiệu của xét nghiệm vì chúng tôi đang thực hiện lại xét nghiệm tương tự. Nhìn vào cây xác suất dưới đây Hãy tính lại xác suất bị ung thư khi cô ấy có kết quả dương tính trong lần xét nghiệm thứ hai P (ung thư và +) = P (ung thư) * P(+) = 0. 12 * 0. 93 P (không ung thư và +) = P (không ung thư) * P (+) = 0. 88 * 0. 01 Để tính xác suất xét nghiệm dương tính, người đó có thể bị ung thư và xét nghiệm dương tính hoặc cô ấy có thể không bị ung thư và vẫn cho kết quả dương tính Bây giờ chúng ta thấy rằng một bệnh nhân có kết quả dương tính trong xét nghiệm hai lần, có 93% khả năng mắc bệnh ung thư 6. Định nghĩa thường xuyên vs Bayesian về xác suấtMột người theo chủ nghĩa thường xuyên định nghĩa xác suất là tần suất xuất hiện dự kiến trên một số lượng lớn các thử nghiệm P(sự kiện) = n/N, trong đó n là số lần sự kiện A xảy ra trong N cơ hội Quan điểm Bayes về xác suất có liên quan đến mức độ tin tưởng. Nó là thước đo tính hợp lý của một sự kiện với kiến thức không đầy đủ Người thường xuyên tin rằng trung bình dân số là có thật nhưng không thể biết được và chỉ có thể được ước tính từ dữ liệu. Anh ta biết phân phối của giá trị trung bình mẫu và xây dựng một khoảng tin cậy tập trung vào giá trị trung bình của mẫu. Vì vậy, trung bình dân số thực tế nằm trong khoảng tin cậy hoặc không nằm trong khoảng tin cậy đó Điều này là do anh ấy tin rằng giá trị trung bình thực sự là một giá trị cố định duy nhất và không có phân phối. Vì vậy, người thường xuyên nói rằng 95% các khoảng thời gian tương tự sẽ chứa giá trị trung bình thực, nếu mỗi khoảng thời gian được tạo từ một mẫu ngẫu nhiên khác nhau Định nghĩa Bayesian có quan điểm hoàn toàn khác. Họ sử dụng niềm tin của họ để xây dựng xác suất. Họ tin rằng một số giá trị nhất định đáng tin cậy hơn những giá trị khác dựa trên dữ liệu và kiến thức trước đây của chúng tôi Bayesian xây dựng một khoảng đáng tin cậy tập trung gần giá trị trung bình mẫu và hoàn toàn bị ảnh hưởng bởi niềm tin trước đó về giá trị trung bình. Do đó, Bayesian có thể đưa ra tuyên bố về ý nghĩa dân số bằng cách sử dụng xác suất 7. Thử thách mở
Ghi chú kết thúcCuộc tranh luận giữa phương pháp tiếp cận Bayesian và thường xuyên đã diễn ra trong một thời gian dài. Chúng tôi có một bài báo tuyệt vời đã đi sâu vào cả hai cách tiếp cận này. Nó đã giải thích chi tiết hai cách tiếp cận và Suy luận Bayesian Mục đích của bài viết này là giới thiệu cho bạn về xác suất có điều kiện và định lý Bayes. Định lý Bayes tạo thành xương sống của một trong những thuật toán phân loại được sử dụng rất thường xuyên trong khoa học dữ liệu – Naive Bayes Khi các khái niệm trên đã rõ ràng, bạn có thể quan tâm đến việc mở cánh cửa của thuật toán Bayes ngây thơ và bị choáng ngợp bởi các ứng dụng rộng lớn của định lý Bayes trong đó Vui lòng gửi câu trả lời của bạn cho những thách thức mở trong phần bình luận. Và thoải mái đặt câu hỏi hoặc nghi ngờ. Hy vọng bạn thích đọc |