programming python

Hướng dẫn probability calculation using python - tính xác suất bằng python

July 18, 2018

Nội dung chính Show

Prerequisites:
What is probability?
From statistics to probability
The data and the distribution
Revisiting the normal
Central Limit Theorem
Three Sigma Rule
Further Reading
Get Free Data Science Resources
How do you solve for probability in Python?
Is there a probability function in Python?
How do you find the probability?

When studying statistics for data science, you will inevitably have to learn about probability. It is easy lose yourself in the formulas and theory behind probability, but it has essential uses in both working and daily life. We’ve previously discussed some basic concepts in descriptive statistics; now we’ll explore how statistics relates to probability.

Prerequisites:

Similar to the previous post, this article assumes no prior knowledge of statistics, but does require at least a general knowledge of Python and general data science worflows. If you are uncomfortable with for loops and lists, I recommend covering them briefly in our introductory Python course before progressing.

What is probability?

At the most basic level, probability seeks to answer the question, “What is the chance of an event happening?” An event is some outcome of interest. To calculate the chance of an event happening, we also need to consider all the other events that can occur. The quintessential representation of probability is the humble coin toss. In a coin toss the only events that can happen are:

Flipping a heads
Flipping a tails

These two events form the sample space, the set of all possible events that can happen. To calculate the probability of an event occurring, we count how many times are event of interest can occur [say flipping heads] and dividing it by the sample space. Thus, probability will tell us that an ideal coin will have a 1-in-2 chance of being heads or tails. By looking at the events that can occur, probability gives us a framework for making predictions about how often events will happen. However, even though it seems obvious, if we actually try to toss some coins, we’re likely to get an abnormally high or low counts of heads every once in a while. If we don’t want to make the assumption that the coin is fair, what can we do? We can gather data! We can use statistics to calculate probabilities based on observations from the real world and check how it compares to the ideal.

From statistics to probability

Our data will be generated by flipping a coin 10 times and counting how many times we get heads. We will call a set of 10 coin tosses a trial. Our data point will be the number of heads we observe. We may not get the “ideal” 5 heads, but we won’t worry too much since one trial is only one data point. If we perform many, many trials, we expect the average number of heads over all of our trials to approach the 50%. The code below simulates 10, 100, 1000, and 1000000 trials, and then calculates the average proportion of heads observed. Our process is summarized in the image below as well.


import random
def coin_trial[]:
heads = 0
for i in range[100]:
    if random.random[] >> 5.4
simulate[100]
>>> 4.83
simulate[1000]
>>> 5.055
simulate[1000000]
>>> 4.999781

The coin_trial function is what represents a simulation of 10 coin tosses. It uses the random[] function to generate a float between 0 and 1, and increments our heads count if it’s within half of that range. Then, simulate repeats these trials depending on how many times you’d like, returning the average number of heads across all of the trials. The coin toss simulations give us some interesting results.

First, the data confirm that our average number of heads does approach what probability suggests it should be. Furthermore, this average improves with more trials. In 10 trials, there’s some slight error, but this error almost disappears entirely with 1,000,000 trials. As we get more trials, the deviation away from the average decreases. Sound familiar? Sure, we could have flipped the coin ourselves, but Python saves us a lot of time by allowing us to model this process in code. As we get more and more data, the real-world starts to resemble the ideal.

Thus, given enough data, statistics enables us to calculate probabilities using real-world observations. Probability provides the theory, while statistics provides the tools to test that theory using data. The descriptive statistics, specifically mean and standard deviation, become the proxies for the theoretical. You may ask, “Why would I need a proxy if I can just calculate the theoretical probability itself?” Coin tosses are a simple toy example, but the more interesting probabilities are not so easily calculated.

What is the chance of someone developing a disease over time? What is the probability that a critical car component will fail when you are driving? There are no easy ways to calculate probabilities, so we must fall back on using data and statistics to calculate them. Given more and more data, we can become more confident that what we calculate represents the true probability of these important events happening. That being said, remember from our previous statistics post that you are a sommelier-in-training. You need to figure out which wines are better than others before you start purchasing them. You have a lot of data on hand, so we’ll use our statistics to guide our decision.

Dữ liệu và phân phối

Trước khi chúng ta có thể giải quyết câu hỏi về loại rượu nào tốt hơn mức trung bình, thì chúng ta phải quan tâm đến bản chất của dữ liệu. Theo trực giác, chúng tôi muốn sử dụng điểm số của các loại rượu để so sánh các nhóm, nhưng có một vấn đề: điểm số thường rơi vào phạm vi. Làm thế nào để chúng ta so sánh các nhóm điểm giữa các loại rượu vang và biết với một mức độ chắc chắn nào đó rằng cái này tốt hơn loại kia? Nhập phân phối bình thường. Phân phối bình thường đề cập đến một hiện tượng đặc biệt quan trọng trong lĩnh vực xác suất và thống kê. Phân phối bình thường trông như thế này:normal distribution. The normal distribution refers to a particularly important phenomenon in the realm of probability and statistics. The normal distribution looks like this:

Những phẩm chất quan trọng nhất cần chú ý về phân phối bình thường là sự đối xứng và hình dạng của nó. Chúng tôi đã gọi nó là một bản phân phối, nhưng chính xác thì điều gì đang được phân phối? Nó phụ thuộc vào ngữ cảnh. Trong xác suất, phân phối bình thường là một phân phối cụ thể của xác suất trên tất cả các sự kiện. Trục X đảm nhận các giá trị của các sự kiện mà chúng tôi muốn biết xác suất. Trục Y là xác suất liên quan đến mỗi sự kiện, từ 0 đến 1.symmetry and its shape. We’ve been calling it a distribution, but what exactly is being distributed? It depends on the context. In probability, the normal distribution is a particular distribution of the probability across all of the events. The x-axis takes on the values of events we want to know the probability of. The y-axis is the probability associated with each event, from 0 to 1.

Chúng tôi đã thảo luận về phân phối xác suất chuyên sâu ở đây, nhưng biết rằng phân phối bình thường là một loại phân phối xác suất đặc biệt quan trọng. Trong thống kê, đó là các giá trị của dữ liệu của chúng tôi đang được phân phối. Ở đây, trục X là giá trị của dữ liệu của chúng tôi và trục y là số lượng của từng giá trị này. Ở đây, cùng một bức tranh về phân phối bình thường, nhưng được dán nhãn theo xác suất và bối cảnh thống kê:

Trong bối cảnh xác suất, điểm cao trong phân phối bình thường thể hiện sự kiện với xác suất cao nhất xảy ra. Khi bạn rời xa sự kiện này ở hai bên, xác suất giảm nhanh chóng, tạo thành hình chuông quen thuộc đó. Điểm cao trong bối cảnh thống kê thực sự đại diện cho giá trị trung bình. Như trong xác suất, khi bạn đi xa hơn mức trung bình, bạn nhanh chóng giảm tần số. Điều đó có nghĩa là, độ lệch cực kỳ cao và thấp so với giá trị trung bình có mặt nhưng cực kỳ hiếm.

Nếu bạn nghi ngờ có một mối quan hệ khác giữa xác suất và số liệu thống kê thông qua phân phối bình thường, thì bạn đã đúng khi nghĩ như vậy! Chúng tôi sẽ khám phá mối quan hệ quan trọng này sau này trong bài viết, vì vậy hãy giữ chặt. Vì chúng tôi sẽ sử dụng phân phối điểm số để so sánh các loại rượu khác nhau, chúng tôi sẽ thực hiện một số thiết lập để thu được một số loại rượu mà chúng tôi quan tâm. Chúng tôi sẽ mang dữ liệu rượu và sau đó tách ra các điểm của một số loại rượu vang quan tâm đến chúng tôi. Để mang lại dữ liệu, chúng tôi cần mã sau:

import csv
with open["wine-data.csv", "r", encoding="latin-1"] as f:
    wines = list[csv.reader[f]]

Dữ liệu được hiển thị dưới đây ở dạng bảng. Chúng tôi cần cột points, vì vậy chúng tôi sẽ trích xuất điều này vào danh sách của riêng mình. Chúng tôi đã nghe từ một chuyên gia rượu vang rằng rượu vang Tokaji Hungary rất tuyệt vời, trong khi một người bạn đã gợi ý rằng chúng tôi bắt đầu với Lambrusco của Ý. Chúng tôi có dữ liệu để so sánh các loại rượu này! Nếu bạn không nhớ dữ liệu trông như thế nào, thì đây là một bảng nhanh để tham khảo và được làm quen.

mục lụcquốc giasự mô tảchỉ địnhđiểmgiá bánđịa bàn tỉnhregion_1region_2đa dạngrượu vang

0	CHÚNG TA	Đây là 100%này	Vươn nho của Martha	96	235	California	thung lũng Napa	Napa	Cabernet Sauvignon	Heitz
1	Tây ban nha	Mùi hương thơm của hình Fig	Carodorum selecci đặc biệt	96	110	Phía bắc Tây Ban Nha	Toro		Tinta de Toro	Bodega Carmen Rodriguez
2	CHÚNG TA	Đây là 100%này	Vươn nho của Martha	96	90	California	thung lũng Napa	Napa	Cabernet Sauvignon	Heitz
3	CHÚNG TA	Đây là 100%này	Vươn nho của Martha	96	65	California	thung lũng Napa	thung lũng Napa	Napa	Cabernet Sauvignon
4	Heitz	Tây ban nha	Mùi hương thơm của hình Fig	95	66	Carodorum selecci đặc biệt	Phía bắc Tây Ban Nha		Toro	Tinta de Toro


# Extract the Tokaji scores
tokaji = []
non_tokaji = []
for wine in wines:
    if points != '':
        points = wine[4]
    if wine[9] == "Tokaji":
    tokaji.append[float[points]]
    else:
        non_tokaji.append[points]
# Extract the Lambrusco scores
lambrusco = []
non_lambrusco = []
for wine in wines:
    if points != '':
        points = wine[4]
    if wine[9] == "Lambrusco":
        lambrusco.append[float[points]]
    else:
        non_lambrusco.append[float[points]]

Bodega Carmen Rodriguez

Mac Mac Watson Danh dự

Xem lại bình thường

Phân phối bình thường có ý nghĩa đối với xác suất và số liệu thống kê nhờ hai yếu tố: định lý giới hạn trung tâm và quy tắc ba sigma.the Central Limit Theorem and the Three Sigma Rule.

Định lý giới hạn trung tâm

Trong phần trước, chúng tôi đã chứng minh rằng nếu chúng tôi lặp lại các thử nghiệm 10 lượt của chúng tôi, nhiều lần, số người đứng đầu trung bình của tất cả các thử nghiệm này sẽ tiếp cận 50% chúng tôi mong đợi từ một đồng tiền lý tưởng. Với nhiều thử nghiệm, mức trung bình của các thử nghiệm này càng gần với xác suất thực sự, ngay cả khi bản thân các thử nghiệm riêng lẻ không hoàn hảo. Ý tưởng này là một nguyên lý quan trọng của định lý giới hạn trung tâm. Trong ví dụ về việc ném tiền xu của chúng tôi, một thử nghiệm duy nhất gồm 10 lần ném tạo ra một ước tính duy nhất về xác suất nào cho thấy sẽ xảy ra [5 đầu]. Chúng tôi gọi nó là một ước tính bởi vì chúng tôi biết rằng nó đã giành được sự hoàn hảo [tức là chúng tôi đã giành được 5 đầu mỗi lần].

Nếu chúng ta đưa ra nhiều ước tính, định lý giới hạn trung tâm chỉ ra rằng việc phân phối các ước tính này sẽ trông giống như một phân phối bình thường. Zenith của phân phối này sẽ phù hợp với giá trị thực mà các ước tính sẽ tiếp nhận. Trong các số liệu thống kê, đỉnh của các đường phân phối bình thường với giá trị trung bình, và đó chính xác là những gì chúng tôi quan sát được. Do đó, được đưa ra nhiều thử nghiệm trên mạng vì dữ liệu của chúng tôi, định lý giới hạn trung tâm cho thấy rằng chúng ta có thể tham gia vào lý tưởng lý thuyết được đưa ra bởi xác suất, ngay cả khi chúng ta không biết xác suất thực sự. Định lý giới hạn trung tâm cho phép chúng tôi biết rằng trung bình của nhiều thử nghiệm có nghĩa là sẽ tiếp cận trung bình thực sự, ba quy tắc Sigma sẽ cho chúng tôi biết dữ liệu sẽ được trải ra bao nhiêu xung quanh nghĩa này.distribution of these estimates will look like a normal distribution. The zenith of this distribution will line up with the true value that the estimates should take on. In statistics, the peak of the normal distribution lines up with the mean, and that’s exactly what we observed. Thus, given multiple “trials” as our data, the Central Limit Theorem suggests that we can hone in on the theoretical ideal given by probability, even when we don’t know the true probability. Central Limit Theorem lets us know that the average of many trials means will approach the true mean, the Three Sigma Rule will tell us how much the data will be spread out around this mean.

Ba quy tắc Sigma

Ba quy tắc Sigma, còn được gọi là quy tắc thực nghiệm hoặc quy tắc 68-95-99.7, là một biểu hiện của bao nhiêu quan sát của chúng tôi nằm trong một khoảng cách nhất định của giá trị trung bình. Hãy nhớ rằng độ lệch chuẩn [a.k.a. Hồi Sigma,] là khoảng cách trung bình mà một quan sát trong tập dữ liệu là từ giá trị trung bình. Ba quy tắc Sigma chỉ ra rằng việc phân phối bình thường, 68% các quan sát của bạn sẽ nằm giữa một độ lệch chuẩn của giá trị trung bình. 95% sẽ giảm trong vòng hai và 99,7% sẽ giảm trong vòng ba. Rất nhiều toán học phức tạp đi vào đạo hàm của các giá trị này, và như vậy, nằm ngoài phạm vi của bài viết này. Điểm quan trọng là để biết rằng ba quy tắc Sigma cho phép chúng ta biết bao nhiêu dữ liệu được chứa trong các khoảng thời gian khác nhau của phân phối bình thường. Bức ảnh dưới đây là một bản tóm tắt tuyệt vời về những gì quy tắc ba Sigma đại diện.given a normal distribution, 68% of your observations will fall between one standard deviation of the mean. 95% will fall within two, and 99.7% will fall within three. A lot of complicated math goes into the derivation of these values, and as such, is out of the scope of this article. The key takeaway is to know that the Three Sigma Rule enables us to know how much data is contained under different intervals of a normal distribution. The picture below is a great summary of what the Three Sigma Rule represents.

Chúng tôi sẽ kết nối các khái niệm này trở lại dữ liệu rượu vang của chúng tôi. Là một người sommelier, chúng tôi muốn biết với sự tự tin cao rằng Chardonnay và Pinot Noir phổ biến hơn rượu vang trung bình. Chúng tôi có hàng ngàn đánh giá về rượu vang, vì vậy, theo định lý giới hạn trung tâm, điểm trung bình của các đánh giá này nên xếp hàng với một đại diện được gọi là đúng về chất lượng rượu vang của rượu vang [theo đánh giá của người đánh giá]. Mặc dù quy tắc ba Sigma là một tuyên bố về số lượng dữ liệu của bạn nằm trong các giá trị đã biết, nhưng nó cũng là một tuyên bố về sự hiếm có của các giá trị cực đoan. Bất kỳ giá trị nào là nhiều hơn ba độ lệch chuẩn so với giá trị trung bình nên được xử lý một cách thận trọng hoặc chăm sóc. Bằng cách tận dụng quy tắc ba Sigma và điểm Z, cuối cùng chúng tôi sẽ có thể quy định một giá trị để có khả năng Chardonnay và Pinot Noir khác với rượu trung bình như thế nào.rarity of extreme values. Any value that is more than three standard deviations away from the mean should be treated with caution or care. By taking advantage of the Three Sigma Rule and the Z-score, we’ll finally be able to prescribe a value to how likely Chardonnay and Pinot Noir are different from the average wine.

Z-score

Điểm Z là một tính toán đơn giản trả lời câu hỏi, đưa ra một điểm dữ liệu, có bao nhiêu độ lệch chuẩn là cách xa trung bình? Phương trình dưới đây là phương trình điểm z.

Chính nó, điểm Z không cung cấp nhiều thông tin cho bạn. Nó đạt được giá trị cao nhất khi so sánh với bảng Z, điều này lập bảng xác suất tích lũy của phân phối bình thường tiêu chuẩn cho đến khi điểm Z nhất định. Một tiêu chuẩn bình thường là một phân phối bình thường với giá trị trung bình là 0 và độ lệch chuẩn là 1. Điểm Z cho phép chúng tôi tham khảo bảng Z này ngay cả khi phân phối bình thường của chúng tôi không phải là tiêu chuẩn. Xác suất tích lũy là tổng của xác suất của tất cả các giá trị xảy ra, cho đến một điểm nhất định.Z-table, which tabulates the cumulative probability of a standard normal distribution up until a given Z-score. A standard normal is a normal distribution with a mean of 0 and a standard deviation of 1. The Z-score lets us reference this the Z-table even if our normal distribution is not standard. The cumulative probability is the sum of the probabilities of all values occurring, up until a given point.

Một ví dụ dễ dàng là chính nó. Giá trị trung bình là giữa chính xác của phân phối bình thường, vì vậy chúng tôi biết rằng tổng của tất cả các xác suất nhận các giá trị từ phía bên trái trở lên cho đến khi trung bình là 50%. Các giá trị từ quy tắc ba Sigma thực sự xuất hiện nếu bạn cố gắng tính xác suất tích lũy giữa các độ lệch chuẩn. Hình ảnh dưới đây cung cấp một hình ảnh về xác suất tích lũy.

Chúng tôi biết rằng tổng của tất cả các xác suất phải bằng 100%, vì vậy chúng tôi có thể sử dụng bảng Z để tính xác suất ở cả hai phía của điểm Z trong phân phối bình thường.

Tính toán xác suất này đã qua một điểm Z nhất định là hữu ích cho chúng tôi. Nó cho phép chúng tôi hỏi đi từ một giá trị từ giá trị trung bình đến mức nào đến mức độ có khả năng là một giá trị này xa so với giá trị trung bình của cùng một nhóm quan sát? Do đó, xác suất xuất phát từ bảng Z và bảng Z sẽ trả lời các câu hỏi dựa trên rượu vang của chúng tôi .________ 3

Điều này không có vẻ tốt cho lời giới thiệu của bạn bè của chúng tôi! Với mục đích của bài viết này, chúng tôi sẽ đối xử với cả điểm Tokaji và Lambrusco như được phân phối bình thường. Do đó, điểm trung bình của mỗi loại rượu sẽ đại diện cho điểm số thực sự của họ về chất lượng. Chúng tôi sẽ tính toán điểm Z và xem mức trung bình của Tokaji cách Lambrusco bao xa.


z = [tokaji_avg - lambrusco_avg] / lambrusco_std
>>> 4.0113309781438229
# We'll bring in scipy to do the calculation of probability from the Z-table
import scipy.stats as st
st.norm.cdf[z]
>>> 0.99996981130231266
# We need the probability from the right side, so we'll flip it!
1 - st.norm.cdf[z]
>>> 3.0188697687338895e-05

Câu trả lời khá nhỏ, nhưng chính xác thì nó có nghĩa là gì? Sự nhỏ bé vô hạn của xác suất này đòi hỏi một số cách giải thích cẩn thận. Hãy để nói rằng chúng tôi tin rằng không có sự khác biệt giữa người bạn của chúng tôi, Lam Lambrusco và chuyên gia rượu vang Tekaji. Điều đó có nghĩa là, chúng tôi tin rằng chất lượng của Lambrusco và Tokaji giống nhau. Tương tự như vậy, do sự khác biệt cá nhân giữa các loại rượu vang, sẽ có một số sự lây lan của điểm số của các loại rượu này. Điều này sẽ tạo ra điểm số phân phối bình thường nếu chúng ta tạo ra một biểu đồ của rượu vang Tokaji và Lambrusco, nhờ định lý giới hạn trung tâm.there was no difference between our friend’s Lambrusco and the wine expert’s Tokaji. That is to say, we believe that the quality of the Lambrusco and the Tokaji to be about the same. Likewise, due to individual differences between wines, there will be some spread of the scores of these wines. This will produce normally distributed scores if we make a histogram of the Tokaji and Lambrusco wines, thanks to Central Limit Theorem.

Bây giờ, chúng tôi có một số dữ liệu cho phép chúng tôi tính toán độ lệch trung bình và độ lệch chuẩn của cả hai loại rượu vang được đề cập. Những giá trị này cho phép chúng tôi thực sự kiểm tra niềm tin của chúng tôi rằng Lambrusco và Tokaji có chất lượng tương tự. Chúng tôi đã sử dụng điểm số rượu Lambrusco làm cơ sở và so sánh mức trung bình của tokaji, nhưng chúng tôi có thể dễ dàng thực hiện nó theo cách khác. Sự khác biệt duy nhất sẽ là điểm Z tiêu cực. Điểm Z là 4.01! Hãy nhớ rằng ba quy tắc Sigma cho chúng ta biết rằng 99,7% dữ liệu sẽ nằm trong 3 độ lệch chuẩn, giả sử rằng Tokaji và Lambrusco là tương tự nhau.99.7% of the data should fall within 3 standard deviations, assuming that Tokaji and Lambrusco were similar.

Xác suất của điểm trung bình điểm cực kỳ như Tokaji, trong một thế giới nơi rượu vang Lambrusco và Tokaji được coi là giống nhau là rất, rất nhỏ. Nhỏ đến mức chúng tôi buộc phải xem xét các loại rượu vang ngược: Tokaji khác với rượu vang Lambrusco và sẽ tạo ra một bản phân phối điểm khác. Chúng tôi đã chọn cách diễn đạt của chúng tôi ở đây một cách cẩn thận: Tôi đã cẩn thận không nói, rượu vang Tokaji tốt hơn Lambrusco. Họ rất có thể xảy ra. Điều này là do chúng tôi tính toán xác suất, mặc dù nhỏ bằng kính hiển vi, không phải là không. Để chính xác, chúng ta có thể nói rằng rượu vang Lambrusco và Tokaji chắc chắn không phải từ cùng một bản phân phối điểm, nhưng chúng ta không thể nói rằng cái này tốt hơn hoặc tệ hơn so với loại khác.

Loại lý luận này nằm trong lĩnh vực thống kê suy luận và bài viết này chỉ tìm cách cung cấp cho bạn một giới thiệu ngắn gọn về lý do đằng sau nó. Chúng tôi đã trình bày rất nhiều khái niệm trong bài viết này, vì vậy nếu bạn thấy mình bị lạc, hãy quay lại và làm cho nó chậm. Có khuôn khổ tư duy này là vô cùng mạnh mẽ, nhưng dễ sử dụng và hiểu lầm.inferential statistics, and this article only seeks to give you a brief introduction into the rationale behind it. We covered a lot of concepts in this article, so if you found yourself getting lost, go back and take it slow. Having this framework of thinking is immensely powerful, but easy to misuse and misunderstand.

Sự kết luận

Chúng tôi bắt đầu với số liệu thống kê mô tả và sau đó kết nối chúng với xác suất. Từ xác suất, chúng tôi đã phát triển một cách để hiển thị định lượng nếu hai nhóm đến từ cùng một phân phối. Trong trường hợp này, chúng tôi đã so sánh hai khuyến nghị rượu vang và thấy rằng rất có thể chúng không đến từ cùng một phân phối điểm. Nói cách khác, một loại rượu vang rất có thể tốt hơn loại khác. Thống kê không phải là một lĩnh vực được chuyển sang các nhà thống kê. Là một nhà khoa học dữ liệu, có một sự hiểu biết trực quan về các biện pháp thống kê phổ biến đại diện cho bạn sẽ mang lại cho bạn lợi thế trong việc phát triển các lý thuyết của riêng bạn và khả năng sau đó kiểm tra các lý thuyết này. Chúng tôi hầu như không làm trầy xước bề mặt của các số liệu thống kê suy luận ở đây, nhưng những ý tưởng chung tương tự ở đây sẽ giúp hướng dẫn trực giác của bạn trong hành trình thống kê của bạn. Bài viết của chúng tôi đã thảo luận về những lợi thế của phân phối bình thường, nhưng các nhà thống kê cũng đã phát triển các kỹ thuật để điều chỉnh các phân phối mà không phải là bình thường.

Đọc thêm

Bài viết này tập trung vào phân phối bình thường và kết nối của nó với thống kê và xác suất. Nếu bạn quan tâm đến việc đọc về các phân phối liên quan khác hoặc tìm hiểu thêm về số liệu thống kê suy luận, vui lòng tham khảo các tài nguyên dưới đây.

Học sinh T-phân phối: Khi chúng ta chỉ có một vài điểm dữ liệu
Một cuộc đi sâu hơn về kiểm tra giả thuyết và thống kê suy luận
Một chuyến đi sâu vào số liệu thống kê với Python

Nhận tài nguyên khoa học dữ liệu miễn phí

Đăng ký miễn phí để nhận bản tin hàng tuần của chúng tôi với các liên kết tài nguyên dữ liệu, Python, R và SQL. Thêm vào đó, bạn có quyền truy cập vào nội dung khóa học trực tuyến tương tác miễn phí của chúng tôi!Python, R, and SQL resource links. Plus, you get access to our free, interactive online course content!

ĐĂNG KÝ

Làm thế nào để bạn giải quyết xác suất trong Python?

Nếu bạn muốn biết xác suất nhận 2 từ danh sách thứ hai để vẽ 3 chẳng hạn, bạn sẽ thêm xác suất của n_taken = [1, 2, 0] và n_taken = [0, 2, 1] cùng nhau, kết hợp 0.13186813186813187 +0,08791208791208792 = 0.21978021978021978.add the probabilities of n_taken = [1, 2, 0] and n_taken = [0, 2, 1] together, which gives 0.13186813186813187 + 0.08791208791208792 = 0.21978021978021978 .

Có một chức năng xác suất trong Python?

Phân phối Python Bernoulli là một trường hợp phân phối nhị thức trong đó chúng tôi tiến hành một thí nghiệm duy nhất.Đây là phân phối xác suất riêng biệt với xác suất p cho giá trị 1 và xác suất q = 1-p cho giá trị 0. P có thể thành công, có, đúng hoặc một.Tương tự, q = 1-P có thể là cho thất bại, không, sai hoặc bằng không.. This is a discrete probability distribution with probability p for value 1 and probability q=1-p for value 0. p can be for success, yes, true, or one. Similarly, q=1-p can be for failure, no, false, or zero.

Làm thế nào để bạn tìm thấy xác suất?

Xác suất của một sự kiện có thể được tính bằng công thức xác suất bằng cách chia số lượng kết quả thuận lợi cho tổng số kết quả có thể xảy ra.dividing the favorable number of outcomes by the total number of possible outcomes.