programming python

Kiểm tra AB giá trị p Python

Phân tích thống kê là công cụ tốt nhất của chúng tôi để dự đoán kết quả mà chúng tôi không biết, sử dụng thông tin chúng tôi biết

Hình dung kịch bản này – Gần đây bạn đã thực hiện một số thay đổi đối với trang web của mình. Thật không may, bạn không có cách nào biết chính xác 100.000 người tiếp theo truy cập trang web của bạn sẽ hành xử như thế nào. Đó là thông tin chúng ta không thể biết ngày hôm nay, và nếu chúng ta đợi đến khi 100.000 người đó truy cập trang web của chúng ta thì sẽ quá muộn để tối ưu hóa trải nghiệm của họ

Đây có vẻ là một tình huống Catch-22 cổ điển

Đây là nơi một nhà khoa học dữ liệu có thể kiểm soát. Một nhà khoa học dữ liệu thu thập và nghiên cứu dữ liệu có sẵn để giúp tối ưu hóa trang web nhằm mang lại trải nghiệm tốt hơn cho người tiêu dùng. Và để làm được điều này, bắt buộc phải biết cách sử dụng các công cụ thống kê khác nhau, đặc biệt là khái niệm Thử nghiệm A/B

Thử nghiệm A/B là một khái niệm được sử dụng rộng rãi trong hầu hết các ngành hiện nay và các nhà khoa học dữ liệu đang đi đầu trong việc triển khai nó. Trong bài viết này, tôi sẽ giải thích sâu về thử nghiệm A/B và cách một nhà khoa học dữ liệu có thể tận dụng nó để đề xuất các thay đổi trong sản phẩm

Mục lục

Thử nghiệm A/B là gì?
Thử nghiệm A/B hoạt động như thế nào?
Ý nghĩa thống kê của bài kiểm tra
Những sai lầm chúng ta phải tránh khi tiến hành thử nghiệm A/B
Khi nào nên sử dụng thử nghiệm A/B

Thử nghiệm A/B là gì?

Thử nghiệm A/B là một thử nghiệm kiểm soát ngẫu nhiên cơ bản. Đó là một cách để so sánh hai phiên bản của một biến để tìm ra phiên bản nào hoạt động tốt hơn trong môi trường được kiểm soát

Chẳng hạn, giả sử bạn sở hữu một công ty và muốn tăng doanh số bán sản phẩm của mình. Ở đây, bạn có thể sử dụng các thí nghiệm ngẫu nhiên hoặc bạn có thể áp dụng các phương pháp khoa học và thống kê. Thử nghiệm A/B là một trong những công cụ thống kê nổi bật và được sử dụng rộng rãi nhất

Trong trường hợp trên, bạn có thể chia sản phẩm thành hai phần – A và B. Ở đây A sẽ không thay đổi trong khi bạn thực hiện những thay đổi đáng kể trong bao bì của B. Bây giờ, trên cơ sở phản hồi từ các nhóm khách hàng đã sử dụng A và B tương ứng, bạn cố gắng quyết định cái nào hoạt động tốt hơn

Nguồn

Đây là một phương pháp thử nghiệm giả thuyết để đưa ra quyết định ước tính các tham số dân số dựa trên số liệu thống kê mẫu. Dân số đề cập đến tất cả khách hàng mua sản phẩm của bạn, trong khi mẫu đề cập đến số lượng khách hàng đã tham gia thử nghiệm

Thử nghiệm A/B hoạt động như thế nào?

câu hỏi lớn

Trong phần này, chúng ta hãy tìm hiểu qua một ví dụ về logic và phương pháp đằng sau khái niệm thử nghiệm A/B

Giả sử có một công ty thương mại điện tử XYZ. Nó muốn thực hiện một số thay đổi trong định dạng bản tin để tăng lưu lượng truy cập trên trang web của mình. Nó lấy bản tin gốc và đánh dấu nó là A và thực hiện một số thay đổi trong ngôn ngữ của A và gọi nó là B. Cả hai bản tin đều giống nhau về màu sắc, tiêu đề và định dạng

khách quan

Mục tiêu của chúng tôi ở đây là kiểm tra bản tin nào mang lại lưu lượng truy cập cao hơn trên trang web tôi. từ tỷ lệ chuyển đổi. Chúng tôi sẽ sử dụng thử nghiệm A/B và thu thập dữ liệu để phân tích bản tin nào hoạt động tốt hơn

1. Đưa ra một giả thuyết

Trước khi đặt giả thuyết, trước tiên hãy hiểu thế nào là giả thuyết

Một giả thuyết là một cái nhìn sâu sắc tạm thời về thế giới tự nhiên;

Đó là một phỏng đoán có học thức về một cái gì đó trong thế giới xung quanh bạn. Nó phải có thể kiểm tra được, bằng thực nghiệm hoặc quan sát. Trong ví dụ của chúng tôi, giả thuyết có thể là "Bằng cách thay đổi ngôn ngữ của bản tin, chúng tôi có thể nhận được nhiều lưu lượng truy cập hơn trên trang web"

Trong thử nghiệm giả thuyết, chúng ta phải đưa ra hai giả thuyết i. e Giả thuyết không và giả thuyết thay thế. Chúng ta hãy xem xét cả hai

Giả thuyết không hoặc H0
Giả thuyết khống là giả thuyết cho rằng các quan sát mẫu hoàn toàn là do ngẫu nhiên. Từ góc độ thử nghiệm A/B, giả thuyết khống nói rằng không có sự khác biệt giữa nhóm đối chứng và nhóm biến thể. Nó cho biết vị trí mặc định sẽ được kiểm tra hoặc tình hình như bây giờ, tôi. e. hiện trạng. Ở đây H0 của chúng tôi là "không có sự khác biệt về tỷ lệ chuyển đổi ở những khách hàng nhận được bản tin A và B"
Giả thuyết thay thế hoặc H0

Giả thuyết thay thế thách thức giả thuyết không và về cơ bản là một giả thuyết mà nhà nghiên cứu tin là đúng. Giả thuyết thay thế là những gì bạn có thể hy vọng rằng thử nghiệm A/B của mình sẽ chứng minh là đúng

Trong ví dụ của chúng tôi, Ha là- "tỷ lệ chuyển đổi của bản tin B cao hơn so với những người nhận được bản tin A"

Bây giờ, chúng tôi phải thu thập đủ bằng chứng thông qua các thử nghiệm của mình để bác bỏ giả thuyết không

2. Tạo Nhóm kiểm soát và Nhóm kiểm tra

Khi chúng tôi đã sẵn sàng với giả thuyết không và thay thế của mình, bước tiếp theo là quyết định nhóm khách hàng sẽ tham gia thử nghiệm. Ở đây chúng tôi có hai nhóm – Nhóm kiểm soát và nhóm Kiểm tra [biến thể]

Nhóm Đối chứng là nhóm sẽ nhận bản tin A và Nhóm Kiểm tra là nhóm sẽ nhận bản tin B

Đối với thử nghiệm này, chúng tôi chọn ngẫu nhiên 1000 khách hàng – 500 khách hàng mỗi nhóm cho nhóm Kiểm soát và nhóm Thử nghiệm của chúng tôi

Chọn mẫu ngẫu nhiên từ tổng thể gọi là chọn mẫu ngẫu nhiên. Đó là một kỹ thuật trong đó mỗi mẫu trong tổng thể đều có cơ hội được chọn như nhau. Lấy mẫu ngẫu nhiên rất quan trọng trong thử nghiệm giả thuyết vì nó loại bỏ sai lệch lấy mẫu và điều quan trọng là phải loại bỏ sai lệch vì bạn muốn kết quả thử nghiệm A/B của mình đại diện cho toàn bộ dân số chứ không phải chính mẫu

Một khía cạnh quan trọng khác mà chúng ta phải quan tâm là cỡ mẫu. Chúng tôi bắt buộc phải xác định kích thước mẫu tối thiểu cho thử nghiệm A/B của mình trước khi tiến hành thử nghiệm để có thể loại bỏ thành kiến dưới phạm vi bảo hiểm. Đó là sai lệch do lấy mẫu quá ít quan sát

3. Tiến hành thử nghiệm A/B và thu thập dữ liệu

Một cách để thực hiện kiểm tra là tính tỷ lệ chuyển đổi hàng ngày cho cả nhóm can thiệp và nhóm kiểm soát. Vì tỷ lệ chuyển đổi trong một nhóm vào một ngày nhất định đại diện cho một điểm dữ liệu, kích thước mẫu thực tế là số ngày. Do đó, chúng tôi sẽ kiểm tra sự khác biệt giữa giá trị trung bình của tỷ lệ chuyển đổi hàng ngày trong từng nhóm trong suốt thời gian thử nghiệm

Khi chúng tôi chạy thử nghiệm trong một tháng, chúng tôi nhận thấy rằng tỷ lệ chuyển đổi trung bình cho nhóm Kiểm soát là 16% trong khi đó cho Nhóm thử nghiệm là 19%

Ý nghĩa thống kê của bài kiểm tra

Bây giờ, câu hỏi chính là – Từ đây chúng ta có thể kết luận rằng nhóm Thử nghiệm đang hoạt động tốt hơn nhóm kiểm soát không?

Câu trả lời cho điều này đơn giản là Không. Để bác bỏ giả thuyết khống của chúng tôi, chúng tôi phải chứng minh ý nghĩa thống kê của thử nghiệm của chúng tôi

Có hai loại lỗi có thể xảy ra trong thử nghiệm giả thuyết của chúng tôi

Lỗi loại I. Chúng tôi bác bỏ giả thuyết không khi nó đúng. Đó là chúng tôi chấp nhận biến thể B khi nó không hoạt động tốt hơn A
lỗi loại II. Chúng tôi đã thất bại trong việc bác bỏ giả thuyết không khi nó sai. Điều đó có nghĩa là chúng tôi kết luận rằng biến thể B không tốt khi nó hoạt động tốt hơn A

Để tránh những lỗi này, chúng tôi phải tính toán ý nghĩa thống kê của bài kiểm tra của chúng tôi

Một thử nghiệm được coi là có ý nghĩa thống kê khi chúng ta có đủ bằng chứng để chứng minh rằng kết quả chúng ta thấy trong mẫu cũng tồn tại trong dân số

Điều đó có nghĩa là sự khác biệt giữa phiên bản kiểm soát của bạn và phiên bản thử nghiệm không phải do một số lỗi hoặc cơ hội ngẫu nhiên. Để chứng minh ý nghĩa thống kê của thí nghiệm của chúng tôi, chúng tôi có thể sử dụng thử nghiệm T hai mẫu

Thử nghiệm t hai mẫu là một trong những thử nghiệm giả thuyết được sử dụng phổ biến nhất. Nó được áp dụng để so sánh xem sự khác biệt trung bình giữa hai nhóm

Nguồn

Để hiểu điều này, chúng ta phải làm quen với một số thuật ngữ

Mức ý nghĩa [alpha]. Mức ý nghĩa, còn được ký hiệu là alpha hoặc α, là xác suất bác bỏ giả thuyết không khi nó đúng. Nói chung, chúng tôi sử dụng giá trị ý nghĩa của 0. 05
Giá trị P. Đó là xác suất mà sự khác biệt giữa hai giá trị chỉ là do ngẫu nhiên. Giá trị P rõ ràng chống lại giả thuyết khống. Giá trị p càng nhỏ thì khả năng bác bỏ H0 càng cao. Đối với mức ý nghĩa của 0. 05, nếu giá trị p nhỏ hơn thì chúng ta có thể bác bỏ giả thuyết khống
Mức độ tin cậy. Khoảng tin cậy là một phạm vi được quan sát trong đó một tỷ lệ phần trăm nhất định của kết quả kiểm tra giảm. Chúng tôi chọn thủ công mức độ tin cậy mong muốn khi bắt đầu thử nghiệm. Nói chung, chúng tôi lấy khoảng tin cậy 95%

Tiếp theo, chúng ta có thể tính toán số liệu thống kê t của mình bằng công thức bên dưới

Hãy thực hiện bài kiểm tra ý nghĩa trong Python

Hãy xem triển khai python của bài kiểm tra ý nghĩa. Ở đây, chúng tôi có một dữ liệu giả có kết quả thử nghiệm của thử nghiệm A/B trong 30 ngày. Bây giờ chúng tôi sẽ chạy thử nghiệm t hai mẫu trên dữ liệu bằng Python để đảm bảo ý nghĩa thống kê của dữ liệu. Bạn có thể tải dữ liệu mẫu tại đây

Mã Python

sns.distplot[data.Conversion_B]

Cuối cùng, chúng tôi sẽ thực hiện bài kiểm tra t

t_stat, p_val= ss.ttest_ind[data.Conversion_B,data.Conversion_A]
t_stat , p_val

[3.78736793091929, 0.000363796012828762]

Ví dụ của chúng tôi, giá trị quan sát i. e giá trị trung bình của nhóm kiểm tra là 0. 19. Giá trị giả định [Giá trị trung bình của nhóm đối chứng] là 0. 16. Khi tính điểm t, chúng tôi nhận được điểm t là. 3787. và giá trị p là 0. 00036

VẬY tất cả những điều này có ý nghĩa gì đối với Thử nghiệm A/B của chúng tôi?

Ở đây, giá trị p của chúng tôi nhỏ hơn mức ý nghĩa i. từ 0. 05. Do đó, chúng ta có thể bác bỏ giả thuyết không. Điều này có nghĩa là trong thử nghiệm A/B của chúng tôi, bản tin B hoạt động tốt hơn bản tin A. Vì vậy, đề xuất của chúng tôi là thay thế bản tin hiện tại của chúng tôi bằng B để mang lại nhiều lưu lượng truy cập hơn trên trang web của chúng tôi

Chúng ta nên tránh những sai lầm nào khi tiến hành thử nghiệm A/B?

Có một vài sai lầm chính mà tôi đã thấy các chuyên gia khoa học dữ liệu mắc phải. Hãy để tôi làm rõ chúng cho bạn ở đây

Một giả thuyết không hợp lệ. Toàn bộ thí nghiệm phụ thuộc vào một điều tôi. từ giả thuyết. Những gì nên được thay đổi?
Thử nghiệm quá nhiều yếu tố cùng nhau. Các chuyên gia trong ngành cảnh báo về việc chạy quá nhiều thử nghiệm cùng một lúc. Thử nghiệm quá nhiều yếu tố cùng nhau gây khó khăn cho việc xác định yếu tố nào ảnh hưởng đến thành công hay thất bại. Do đó, ưu tiên thử nghiệm là điều không thể thiếu để thử nghiệm A/B thành công
Bỏ qua ý nghĩa thống kê. Không quan trọng bạn cảm thấy thế nào về bài kiểm tra. Bất kể mọi thứ, cho dù thử nghiệm thành công hay thất bại, hãy cho phép nó chạy qua toàn bộ khóa học để nó đạt được ý nghĩa thống kê
Không xét đến yếu tố bên ngoài. Các thử nghiệm nên được chạy trong các khoảng thời gian có thể so sánh được để tạo ra kết quả có ý nghĩa. Ví dụ: thật không công bằng khi so sánh lưu lượng truy cập trang web vào những ngày có lưu lượng truy cập cao nhất với những ngày có lưu lượng truy cập thấp nhất vì các yếu tố bên ngoài như giảm giá hoặc ngày lễ

Khi nào chúng ta nên sử dụng thử nghiệm A/B?

Thử nghiệm A/B hoạt động tốt nhất khi thử nghiệm các thay đổi gia tăng, chẳng hạn như thay đổi UX, tính năng mới, xếp hạng và thời gian tải trang. Tại đây, bạn có thể so sánh kết quả trước và sau khi sửa đổi để quyết định xem các thay đổi có hoạt động như mong muốn hay không

Thử nghiệm A/B không hoạt động tốt khi thử nghiệm những thay đổi lớn, chẳng hạn như sản phẩm mới, thương hiệu mới hoặc trải nghiệm người dùng hoàn toàn mới. Trong những trường hợp này, có thể có những hiệu ứng thúc đẩy mức độ tương tác cao hơn bình thường hoặc phản ứng cảm xúc có thể khiến người dùng hành xử theo cách khác

Ghi chú kết thúc

Tóm lại, thử nghiệm A/B là một phương pháp thống kê ít nhất 100 năm tuổi nhưng ở dạng hiện tại, nó xuất hiện từ những năm 1990. Bây giờ nó đã trở nên nổi bật hơn với môi trường trực tuyến và tính sẵn có của dữ liệu lớn. Các công ty sẽ dễ dàng tiến hành thử nghiệm hơn và sử dụng các kết quả để mang lại hiệu suất và trải nghiệm người dùng tốt hơn

Có nhiều công cụ có sẵn để tiến hành thử nghiệm A/B nhưng là một nhà khoa học dữ liệu, bạn phải hiểu các yếu tố đằng sau nó. Ngoài ra, bạn phải biết các số liệu thống kê để xác thực bài kiểm tra và chứng minh ý nghĩa thống kê của nó

p là gì

Giá trị P trong thử nghiệm A/B là gì? . Do đó, giá trị p là một công cụ toán học để kiểm tra tính hợp lệ của giả thuyết khống. the probability of observing an outcome as extreme or more extreme than the one observed, assuming that the null hypothesis is true. Hence, the p-value is a mathematical device to check the validity of the null hypothesis.

Kiểm định AB có ý nghĩa thống kê không?

Lý tưởng nhất là tất cả các thử nghiệm A/B đều đạt mức ý nghĩa thống kê 95% hoặc ít nhất là 90% . Đạt trên 90% đảm bảo rằng thay đổi sẽ tác động tiêu cực hoặc tích cực đến hiệu suất của trang web. Cách tốt nhất để đạt được ý nghĩa thống kê là kiểm tra các trang có lưu lượng truy cập cao hoặc tỷ lệ chuyển đổi cao.

Thử nghiệm AB có thể định tính không?

Ví dụ: thử nghiệm A/B trên các trang web cung cấp cho bạn dữ liệu định lượng mà bạn cần để đưa ra quyết định xem đâu là biến thể hoạt động tốt nhất, tuy nhiên, đó là dữ liệu định tính giúp bạn cải thiện những người chiến thắng trong bài kiểm tra này.