Phân tích dữ liệu trong nghiên cứu trường hợp Python

Trong bài đăng này, tôi sẽ thực hiện một hướng dẫn ngắn gọn về Python để phân tích dữ liệu. Phân tích dữ liệu có thể là một công việc thú vị, được trả lương cao. Ước tính thang lương cho thấy các vị trí cấp đầu vào có mức lương trung bình trên 60.000 đô la Mỹ. Tuy nhiên, có những yêu cầu về kỹ năng cứng mà bạn phải đáp ứng, chẳng hạn như kiến ​​thức về SQL hoặc ngôn ngữ lập trình phân tích dữ liệu như Python hoặc R.  

Để minh họa việc sử dụng Python để phân tích dữ liệu, chúng ta sẽ nghiên cứu về sự không chung thủy trong hôn nhân, đây sẽ là một dự án thú vị. Bắt đầu nào

Cách bắt đầu một dự án phân tích dữ liệu bằng Python

Đầu tiên, chúng ta cần một phần mềm gọi là môi trường phát triển tích hợp (IDE) để thực hiện phân tích với Python. Lựa chọn của tôi là Google Colaboratory, nơi mà tôi cảm thấy mang lại trải nghiệm mượt mà nhất. Bạn có thể sử dụng nó trực tiếp từ Google Drive của mình. Trong video dưới đây, tôi hướng dẫn bạn cách thiết lập Google Colab và cũng hướng dẫn bạn qua hướng dẫn

Bây giờ chúng tôi đã thiết lập, chúng tôi cần các công cụ. Trong Python, chúng được gọi là thư viện. Ở đây, chúng tôi sẽ thêm Pandas và Seaborn, mà Python sẽ sử dụng để thao tác, phân tích và trực quan hóa dữ liệu.  

  • Pandas là một thư viện mã nguồn mở hỗ trợ Python thao tác và phân tích dữ liệu
  • Seaborn là một thư viện mà Python sử dụng để tạo trực quan hóa dữ liệu có ý nghĩa

Khai thác dữ liệu để phân tích dữ liệu và phân tích dữ liệu kinh doanh bằng Python

Cập nhật lần cuối vào tháng 1 năm 2023

Người bán hàng giỏi nhất

  • 138 bài giảng
  • Tất cả các cấp

4. 7 (114)

Python cho Phân tích dữ liệu & Trí tuệ nhân tạo có thể giải thích. Khai thác dữ liệu để phân tích dữ liệu kinh doanh & thông minh. . Diogo Alves de Resende

Khám phá khóa học

Chúng tôi muốn cho Python biết rằng chúng tôi sẽ sử dụng các thư viện phân tích dữ liệu này. Để chuẩn bị dữ liệu cho phân tích, đây là những gì chúng tôi làm

#import libraries
import pandas as pd
import seaborn as sns

Trong Python, thông thường bạn sẽ thêm “as something” khi nhập thư viện. Điều này làm cho mã ít dài hơn khi bạn gọi các thư viện

Tiếp theo, chúng ta cần dữ liệu. Đối với hướng dẫn này, tôi đã cung cấp dữ liệu trực tuyến, bạn có thể lấy dữ liệu này bằng cách chạy đoạn mã sau.  

#load data
data = pd.read_csv("https://bit.ly/udemy_dataset")

Ngoài ra, chúng tôi luôn muốn xem dữ liệu và chúng tôi có thể xem 5 hàng đầu tiên bằng cách thực hiện một lệnh rất đơn giản. Dưới đây là một đoạn trích của tập dữ liệu

#Looking at the data
data.head()

Phân tích dữ liệu trong nghiên cứu trường hợp Python

Chúng tôi có rất nhiều thông tin ở đây và một số thông tin ban đầu không rõ ràng. Chẳng hạn, tại sao nghề nghiệp được xếp hạng từ 1 đến 7? . Tuy nhiên, vai trò của nhà phân tích dữ liệu là làm chủ dữ liệu. Dưới đây là tổng quan về các biến.  

  • công việc. Tần suất những người được hỏi ngoại tình trong năm qua. 0 = không, 1 = một lần, 2 = hai lần, 3 = ba lần, 7 = 4 – 10 lần, 12 = hàng tháng trở lên
  • Giới tính. Giới tính của người đó
  • Tuổi. người đó bao nhiêu tuổi
  • năm kết hôn. Người đã kết hôn bao nhiêu năm
  • Những đứa trẻ. Người đó có con hay không
  • tôn giáo. Mức độ sùng đạo của người đó, trên thang điểm từ 1 đến 5, với 5 là rất sùng đạo
  • Giáo dục. Cấp độ giáo dục. 9 = cấp lớp;
  • Nghề nghiệp. công việc của người đó. 7 = Bác sĩ hoặc Giám đốc điều hành của công ty lớn;
  • Xếp hạng. Người đó đánh giá mức độ hài lòng của họ trong hôn nhân trên thang điểm từ 1 đến 5, với 5 là rất hài lòng

Các khóa học hàng đầu về Phân tích dữ liệu

Microsoft Excel – Hàm & Công thức Excel Nâng cao

Phân tích Maven, Chris Dutton

4. 6 (74,908)

Người bán hàng giỏi nhất

Hoàn thành xử lý và phân tích tín hiệu thần kinh. Không để anh hùng

Mike X Cohen

4. 8 (1,218)

Người bán hàng giỏi nhất

Khóa học phân tích dữ liệu. Hoàn thành phân tích dữ liệu Bootcamp 2023

365 việc làm

4. 5 (6,834)

Người bán hàng giỏi nhất

Python và Tableau. Bootcamp phân tích dữ liệu hoàn chỉnh

Dee Naidoo

4. 6 (177)

Kiến thức dữ liệu thực tế cho các nhà lãnh đạo

George thông minh

4. 5 (57)

Phân tích dữ liệu với Pandas và Python

Boris Paskhaver

4. 6 (18.700)

Người bán hàng giỏi nhất

>

Thêm khóa học phân tích dữ liệu

Bây giờ chúng tôi phân tích dữ liệu bằng các thư viện của Python

Một trong những lệnh phân tích dữ liệu phổ biến nhất là xem xét thống kê tóm tắt của các biến số. May mắn thay, điều này rất đơn giản.  

#Summary Statistics
data.describe()

Phân tích dữ liệu trong nghiên cứu trường hợp Python

Đây là vô số số liệu thống kê và thông tin. Chúng tôi có số lượng quan sát trên mỗi biến (đếm), giá trị trung bình (mean), độ lệch chuẩn (std), mức tối thiểu (min), mức tối đa (max) và các giá trị cho các phần tư (25%, 50% và . Phần tư 50% cũng sẽ được gọi là trung bình. Dưới đây là một số ví dụ về những gì chúng ta thấy

  • Chúng tôi có 601 quan sát.  
  • Trung bình mỗi người đã có 1. 5 công việc, là 32. 5 tuổi, đã kết hôn được 8 năm, xếp hạng 3 về tôn giáo, học 16 năm và xếp hạng cuộc hôn nhân của mình là 3. 9 trên 5. Tôi đã bỏ qua nghề nghiệp vì không có ý nghĩa gì khi nhìn vào mức trung bình
  • Cụ thể đối với các vấn đề ngoại tình, chúng tôi thấy rằng ngay cả ở mức 75%, giá trị là 0, có nghĩa là chỉ một tỷ lệ nhỏ mẫu thừa nhận lừa dối vợ/chồng của họ. Điều này cho tôi một ý tưởng mới để phân tích

Trực quan hóa dữ liệu bằng biểu đồ

Nếu bạn muốn xem sự phân bố các công việc trong mẫu, cách đơn giản nhất là thực hiện biểu đồ bằng thư viện Seaborn. Biểu đồ là một biểu đồ hữu ích tổ chức dữ liệu thành các nhóm hoặc phạm vi, do người tạo chỉ định nếu cần

#Histogram
sns.histplot(data = data.affairs)

Phân tích dữ liệu trong nghiên cứu trường hợp Python

Do dữ liệu của chúng tôi đã nhóm một số trường hợp nên thông tin chi tiết mà chúng tôi nhận được không rộng rãi. Chúng tôi xác nhận rằng hầu hết mọi người không ngoại tình, nhưng chúng tôi thực sự không thể nhìn thấy khuôn mẫu ở những người không chung thủy. Vì vậy, đã đến lúc phải tiếp tục

Kinh tế lượng và thống kê cho doanh nghiệp trong R & Python

Diogo Alves de Resende

4. 7 (414)

Người bán hàng giỏi nhất

XGBoost cho doanh nghiệp. Khóa học máy học bằng Python & R

Diogo Alves de Resende

4. 3 (165)

Phân tích hồi quy cho người quản lý doanh nghiệp bằng Python và R

Diogo Alves de Resende

4. 8 (42)

Xếp hạng cao nhất

Mô hình dự báo & Phân tích chuỗi thời gian cho doanh nghiệp trong R

Diogo Alves de Resende

4. 3 (224)

Người bán hàng giỏi nhất

Khai thác dữ liệu để phân tích dữ liệu và phân tích dữ liệu kinh doanh bằng Python

Diogo Alves de Resende

4. 7 (114)

Người bán hàng giỏi nhất

Mô hình dự báo và chuỗi thời gian cho doanh nghiệp bằng Python

Diogo Alves de Resende

4. 5 (340)

Phân tích dữ liệu kinh doanh & thông minh với Python 2023

Andrei Neagoie, Diogo Alves de Resende, Zero To Mastery

4. 7 (101)

Xếp hạng cao nhất

Kiến thức về dữ liệu và thống kê cho phân tích dữ liệu kinh doanh

Diogo Alves de Resende

4. 4 (248)

>

Các khóa học của Diogo Alves de Resende

Điều gì tương quan với các vấn đề?

Mối tương quan đo lường độ mạnh của mối quan hệ giữa 2 biến. Giá trị của chỉ số tương quan thay đổi trong khoảng từ -1 đến 1. Nếu giá trị là 1, mối quan hệ tích cực mạnh mẽ. Khi giá trị của biến này tăng lên thì giá trị của biến kia cũng tăng theo. Nếu là -1, điều này cho thấy rằng khi giá trị của một biến tăng lên, giá trị của biến kia sẽ giảm xuống.  

Một ví dụ về mối quan hệ tích cực mạnh mẽ là mọi người sử dụng ô khi trời mưa. Một ví dụ về mối quan hệ tiêu cực mạnh mẽ là mọi người sử dụng ô vào một ngày nắng. Nếu tương quan bằng không, thì có nghĩa là không có mối quan hệ. Một ví dụ về sự tương quan bằng không sẽ là ăn sô cô la và bơi trong hồ bơi. Không có mối liên hệ nào giữa cả hai — mặc dù ý tưởng này có vẻ không tệ chút nào

Để thực hiện một mối tương quan tốt, nên chọn các biến trước, sau đó thực hiện phân tích. Ở đây tôi sẽ chọn công việc, tuổi tác, tôn giáo và xếp hạng vì tôi là người thích thống kê đơn giản

Vì tôi muốn hình dung mối tương quan bằng cách sử dụng bản đồ nhiệt, nên chúng ta sẽ học cách thực hiện một. Bản đồ nhiệt đặc biệt hữu ích cho những người hình dung bằng màu sắc vì màu sắc thay đổi theo giá trị

#Picking variables
data_correlation = data[["affairs", "age", "religiousness", "rating"]]

#Correlation heatmap - the command for a correlation is corr()
sns.heatmap(data = data_correlation.corr(),
            annot = True,
            fmt = '.2g',
            center = 0,
            cmap = 'coolwarm',
            linewidths = 1,
            linecolor = 'black')

Phân tích dữ liệu trong nghiên cứu trường hợp Python

Có khá nhiều thông tin ở đây. Các vấn đề tương quan tiêu cực với đánh giá. Điều này có nghĩa là những cuộc hôn nhân hạnh phúc hơn dẫn đến ít ngoại tình hơn, điều này có ý nghĩa với tôi. Điều thú vị là tính tôn giáo cũng có mối tương quan tiêu cực với các vấn đề. Cuối cùng, tuổi tác và xếp hạng cũng có mối tương quan nghịch, điều này cho thấy tình yêu không tăng theo tuổi tác.  

Python làm cho việc phân tích dữ liệu trở nên thú vị

Khả năng là vô tận. Chúng tôi có thể kiểm tra xem liệu có sự khác biệt đáng kể về mặt thống kê trong việc ngoại tình giữa các giới tính hay không. Ngoài ra, chúng tôi cũng có thể xem liệu việc có con có cản trở hay làm tăng khả năng mọi người lừa dối bạn đời của họ hay không. Tuy nhiên, tôi sẽ dừng lại ở đây. Sử dụng Python để phân tích dữ liệu rất thú vị và dễ dàng, nhưng bạn cần phải thực hành. Tôi hy vọng bạn bắt đầu với cái này và xây dựng từ đó. Nếu bạn nghiêm túc về việc trở thành nhà phân tích dữ liệu, tôi thực sự khuyên bạn nên đăng bài này về cách trở thành nhà phân tích dữ liệu từ đầu

Trang được cập nhật lần cuối. Tháng 2 năm 2022

Phân tích dữ liệu trong nghiên cứu trường hợp Python

Diogo Alves de Resende

Người hướng dẫn Udemy

Hồ sơ Udemy của Diogo Alves de Resende

Diogo làm việc cho một trong những công ty thương mại điện tử lớn nhất, tập trung vào phân tích kinh doanh và đó là phương pháp mà anh ấy đã sử dụng trong công việc của mình mà anh ấy muốn dạy

Trước đây, anh ấy đã làm phát thanh viên với tư cách là người dẫn chương trình ở quê hương của mình, đây có lẽ là trải nghiệm đại học yêu thích của anh ấy. Anh ấy cũng đã làm việc với Liên hợp quốc về chủ đề Tiền di động ở Lesotho