programming python

Tôi có thể thực hành Python Pandas ở đâu?

Hướng dẫn thực hành trình bày cách sử dụng gói Pandas để dọn dẹp, thao tác và phân tích dữ liệu

Hình ảnh lấy từ Unsplash1. Giới thiệu

Bạn đã bao giờ phải vật lộn để phân tích các tập dữ liệu lớn trong Excel chưa, thì bạn nên xem xét Pandas, hộp công cụ phân tích dữ liệu và lập trình mạnh mẽ cho phép bạn thao tác với hàng triệu điểm dữ liệu trong một phần nghìn giây với sức mạnh xử lý và năng suất người dùng cao. Trên thực tế, Pandas là một thư viện python mã nguồn mở, được giới thiệu bởi nhà phát triển phần mềm Wes McKinney vào năm 2008, bao gồm các cấu trúc dữ liệu cấp cao và công cụ lập trình để thực hiện phân tích và thao tác dữ liệu trên các loại dữ liệu khác nhau cho dù là số, văn bản hay ngày tháng, v.v. Hướng dẫn này cung cấp những kiến thức cần thiết để bạn bắt đầu áp dụng Pandas trong các dự án của mình

2. Khách quan

Giả sử bạn vừa tham gia một công ty khởi nghiệp với tư cách là nhà phân tích dữ liệu và bạn đã được chỉ định hỗ trợ nhóm để thúc đẩy thông tin chi tiết về cơ sở khách hàng. Người quản lý của bạn đã chia sẻ tập dữ liệu và đây là cơ hội để bạn thể hiện các kỹ năng về python của mình và sử dụng gói Pandas để thực hiện phân tích

Hướng dẫn này sẽ giúp bạn phát triển và sử dụng kiến thức về Pandas để

1- nhập và đọc tệp CSV

2- tạo ra sự hiểu biết cơ bản về một dữ liệu nhất định

3- chọn lọc dữ liệu theo điều kiện

4- áp dụng các công cụ thao tác dữ liệu khác nhau như tạo biến mới hoặc thay đổi kiểu dữ liệu

5- thực hiện tổng hợp dữ liệu bằng phương pháp nhóm theo và bảng tổng hợp

6- biến những hiểu biết phân tích thành các đề xuất kinh doanh

#load the needed packages and modules 
import pandas as pd
import numpy as np
from datetime import date
import datetime as dt

3. Phân tích dữ liệu

3. 1 Nạp dữ liệu

Bước đầu tiên là tải dữ liệu bằng cách sử dụng pd_read_csv để đọc dữ liệu của tệp CSV, tải và trả về nội dung trong khung dữ liệu. Bạn có thể tự hỏi, khung dữ liệu là gì? . Để biết thêm thông tin về pd. read_csv, truy cập liên kết

Tập dữ liệu sẽ được sử dụng trong hướng dẫn này là tập dữ liệu giả được tạo cho bài viết này. Nó có sẵn trong liên kết này và nó bao gồm dữ liệu thú vị về khách hàng có thể được sử dụng trong chiến dịch tiếp thị được nhắm mục tiêu

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

3. 2 Hiểu biết cơ bản

Sau khi chúng tôi tải dữ liệu, chúng tôi có thể sử dụng các phương pháp khác nhau để xem và hiểu các biến. Ví dụ, dữ liệu. head[] cho phép chúng tôi xem 5 hàng đầu tiên của khung dữ liệu trong khi dữ liệu. tail[] trả về 5 hàng cuối cùng. Nếu bạn muốn lấy 10 hàng đầu tiên, bạn cần chỉ định nó trong phương thức dưới dạng dữ liệu. cái đầu[10]

#first 5 rows
data.head[]

#last 5 rows 
data.tail[]

Một phương pháp thú vị khác là dữ liệu. info[] cung cấp cho chúng tôi số điểm dữ liệu và biến của tập dữ liệu. Nó cũng hiển thị các kiểu dữ liệu. Chúng tôi có thể thấy rằng bộ dữ liệu của chúng tôi có 499 điểm dữ liệu và 12 biến khác nhau, từ thông tin cá nhân của khách hàng đến mua hàng, cuộc gọi, liên lạc nội bộ và khiếu nại

#check the basic information of the data
data.info[]

Chúng ta có thể kiểm tra hình dạng của tập dữ liệu bằng cách sử dụng dữ liệu. hình dạng;

#extract the shape of the data
data.shape

Chúng ta hãy xem xét rằng chúng ta muốn biết các giá trị duy nhất của trường tình trạng hôn nhân, sau đó chúng ta nên chọn cột và áp dụng phương pháp duy nhất. Như được hiển thị bên dưới, tình trạng hôn nhân có thể thay đổi có 5 danh mục duy nhất. Tuy nhiên, chúng tôi nhận thấy rằng góa phụ và góa bụa là hai cách đặt tên khác nhau cho cùng một danh mục, vì vậy chúng tôi có thể làm cho nó nhất quán thông qua việc sử dụng phương thức thay thế trên các giá trị cột như được hiển thị bên dưới

data['marital_status'].unique[]

data[‘marital_status’] = data[‘marital_status’].replace[‘Widow’, ‘Widowed’]

Một cách thú vị khác để biết các giá trị duy nhất nhưng với số lượng tương ứng của chúng là áp dụng phương thức value_count trên cột. Chẳng hạn, thuộc tính giáo dục có 5 hạng mục, trong đó Tốt nghiệp và Tiến sĩ chiếm tỷ trọng lớn nhất

________số 8

Chúng tôi có thể kiểm tra các giá trị trùng lặp và null trong toàn bộ tập dữ liệu bằng cách sử dụng. trùng lặp và. phương pháp vô hiệu. Hơn nữa, chúng ta có thể chọn một biến quan tâm trong tập dữ liệu để phát hiện các giá trị bị thiếu hoặc trùng lặp của nó như được hiển thị bên dưới

data.isnull[]
data.duplicated[].sum[]
data['educational_level'].isnull[].sum[] #specifying Education as a variable where we should look for the sum of missing values

3. 3 Chọn và lọc dữ liệu. loc và iloc

Chúng ta có thể chỉ cần chọn một tập hợp con các điểm dữ liệu từ khung dữ liệu. Giả sử chúng ta muốn chọn Ngày sinh, Trình độ học vấn và Thu nhập của mọi khách hàng;

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

Chúng tôi có thể chọn một danh mục giáo dục duy nhất bằng cách chỉ định rằng chỉ có Master Master mới được trả về từ khung dữ liệu

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

Hai phương pháp phổ biến khác để chọn dữ liệu từ khung dữ liệu là. loc và iloc. Sự khác biệt chính giữa hai phương pháp này là. loc dựa trên nhãn, có nghĩa là chúng tôi phải chỉ định hàng và cột dựa trên tiêu đề. Tuy nhiên, iloc dựa trên vị trí số nguyên, vì vậy chúng ta phải chọn các hàng và cột theo giá trị vị trí của chúng dưới dạng số nguyên i. e. 0,1,2. Để đọc thêm về cách chọn dữ liệu bằng các phương pháp này, hãy truy cập liên kết này

Như chúng tôi nhận thấy bên dưới, chúng tôi đang chọn bảy điểm dữ liệu đầu tiên bằng cách sử dụng phương pháp loc, nhưng đối với các biến 'educational_level' và 'recency'. Chúng ta cũng có thể đạt được kết quả tương tự với iloc nhưng chỉ định các hàng và cột là giá trị số nguyên

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

Một công cụ mạnh mẽ khác là lọc dữ liệu bằng các phương thức loc và isin[] theo đó chúng tôi chọn biến quan tâm và chúng tôi chọn các danh mục chúng tôi muốn. Ví dụ: bên dưới, chúng tôi đang chọn tất cả các khách hàng có Tình trạng hôn nhân được mô tả là Chỉ độc thân hoặc Đã ly hôn

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

Ta có thể kết hợp iloc với toán tử python để chọn dữ liệu thỏa mãn 2 điều kiện như chọn khách hàng có thu nhập trên 75.000 và có bằng thạc sĩ

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

3. 4 Áp dụng các thao tác dữ liệu. chỉ mục, biến mới, kiểu dữ liệu và hơn thế nữa

Chúng tôi có thể áp dụng các thao tác khác nhau trên tập dữ liệu bằng Pandas, chẳng hạn như nhưng không giới hạn đối với.
- thiết lập một chỉ mục mới với biến quan tâm của chúng tôi bằng cách sử dụng. phương thức set_index[]
- sắp xếp khung dữ liệu theo một trong các biến bằng cách sử dụng. sort_values[] với thứ tự tăng dần hoặc giảm dần; . phương pháp cắt[]; . cut[], truy cập liên kết
- creating a new variable which could be the result of a mathematical operation such as sum of other variables
- building categories of a variable using pd.cut[] method; For more information about the pd.cut[], visit the link
- thay đổi kiểu dữ liệu của biến thành kiểu ngày giờ hoặc số nguyên
- xác định tuổi dựa trên năm sinh
- creating the week date [calendar week and year] from the purchase date
and many more; this is just a glimpse of what we can achieve with pandas!

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

#load the data and make sure to change the path for your local
directory 
data = pd.read_csv['C:/Users/Smart PC/Desktop/project_data.csv']

#first 5 rows
data.head[]

#first 5 rows
data.head[]

3. 5 Thực hiện tổng hợp dữ liệu. nhóm và pivot_table

Sau khi chúng tôi tạo các biến mới, chúng tôi có thể tổng hợp thêm để tạo thông tin chi tiết thú vị từ các danh mục. Hai phương pháp chính mà mọi nhà khoa học dữ liệu sử dụng để phân tích dữ liệu theo nhóm

theo nhóm []. một phương pháp liên quan đến việc tách các danh mục, áp dụng một hàm và kết hợp các kết quả, theo đó nó có thể được sử dụng với một phép toán như giá trị trung bình, tổng hoặc số đếm với chế độ xem tổng hợp theo nhóm. Để biết thêm thông tin về hoạt động này, hãy truy cập liên kết này

2. pivot_table[]. một kỹ thuật rất hữu ích để tạo bảng tổng hợp kiểu bảng tính dưới dạng Khung dữ liệu và nó cũng cho phép các nhà phân tích áp dụng phép toán trên các biến được chọn cho mỗi nhóm. Để biết thêm thông tin về pivot_table này, hãy truy cập liên kết này

#first 5 rows
data.head[]

#first 5 rows
data.head[]

4. khuyến nghị

Bây giờ, sau khi chúng tôi hoàn thành quá trình làm sạch dữ liệu và thực hiện các hoạt động cũng như tổng hợp trên tập dữ liệu của mình, chúng tôi có thể kết luận bằng một số thông tin chi tiết thú vị về cơ sở khách hàng của mình

Người tiến sĩ có thu nhập, số lần mua hàng trực tuyến và tại cửa hàng cao nhất;
Những người cơ bản chiếm số lượng mua hàng trên web và cửa hàng thấp nhất
Những người đã kết hôn với cấp độ Tốt nghiệp có tổng số lần mua hàng cao nhất

Do đó, các khuyến nghị kinh doanh cho bất kỳ chiến dịch tiếp thị tiềm năng nào nên tập trung vào việc thu hút và giữ chân những người có bằng Tiến sĩ và các cặp vợ chồng có trình độ Tốt nghiệp, đồng thời cung cấp nhiều sản phẩm hơn để đáp ứng nhu cầu và sở thích của các nhóm khác, chẳng hạn như Người cơ bản có mức mua thấp nhất như

Ngoài ra, công việc tiếp theo nên được tiến hành để hiểu hành vi và sở thích của khách hàng, ví dụ: thực hiện phân tích RFM hoặc mô hình hồi quy sẽ có ích để nghiên cứu tác động của các biến đối với số lần mua hàng theo nhóm tình trạng giáo dục hoặc hôn nhân

Cách tốt nhất để học gấu trúc cho Python là gì?

5 Khóa học và hướng dẫn về Pandas miễn phí tốt nhất cho người mới bắt đầu năm 2022 .

Python Pandas cho ông của bạn [Khóa học và hướng dẫn miễn phí].

Giới thiệu về Khoa học dữ liệu trong Python [Khóa học Coursera miễn phí].

Tìm hiểu Core Python, Numpy và Pandas [Khóa học Udemy miễn phí].

Pandas với Python [Khóa học miễn phí Udemy]

Python pandas có khó học không?

pandas là một gói được xây dựng cho Python, vì vậy bạn cần nắm vững cú pháp Python cơ bản trước khi bắt đầu với pandas. Rất dễ bị sa lầy khi học cú pháp, vì các khóa học cơ bản thường khiến việc học trở nên nhàm chán bằng cách tập trung hoàn toàn vào cú pháp Python

Giấy phép gấu trúc có miễn phí không?

pandas là thư viện phần mềm được viết cho ngôn ngữ lập trình Python để thao tác và phân tích dữ liệu. Cụ thể, nó cung cấp các cấu trúc dữ liệu và hoạt động để thao tác với các bảng số và chuỗi thời gian. Đây là phần mềm miễn phí được phát hành theo giấy phép BSD ba điều khoản .

Python pandas có tốt hơn Excel không?

Bởi vì nó được xây dựng trên NumPy [Numerical Python], Pandas tự hào có một số lợi thế so với Excel . Khả năng mở rộng - Pandas chỉ bị giới hạn bởi phần cứng và có thể thao tác với lượng dữ liệu lớn hơn. Tốc độ - Pandas nhanh hơn nhiều so với Excel, điều này đặc biệt đáng chú ý khi làm việc với lượng dữ liệu lớn hơn.