Thao tác và phân tích dữ liệu với các loại dữ liệu không chính xác có thể dẫn đến phân tích bị xâm phạm khi bạn thực hiện quy trình khoa học dữ liệu
Khi làm việc với dữ liệu mới, chúng ta có thể sử dụng thuộc tính
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
3 hoặc phương thức # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
4. Thông thường, bạn sẽ gặp phải các cột cần được chuyển đổi thành các loại dữ liệu khác nhau trước khi bắt đầu bất kỳ phân tích nàoĐể mô tả dữ liệu và kiểm tra các loại dữ liệu
Dữ liệu chia sẻ đi xe đạp ở San Francisco,
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5, chứa thông tin về trạm bắt đầu và điểm kết thúc, thời lượng chuyến đi và một số thông tin người dùng cho dịch vụ chia sẻ xe đạpThuế tiêu thụ đặc biệt sẽ
- In thông tin của
5. Sử dụng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
7 để in số liệu thống kê tóm tắt của cột# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
8 từ# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
5# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Print the information of ride_sharing
print[ride_sharing.info[]]
# Print summary statistics of user_type column
print[ride_sharing['user_type'].describe[]]
Tổng hợp chuỗi và nối số
Một vấn đề về kiểu dữ liệu phổ biến khác là nhập các giá trị số dưới dạng chuỗi, vì các phép toán như tổng và nhân dẫn đến nối chuỗi chứ không phải đầu ra số
Bài tập này sẽ chuyển đổi cột chuỗi
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
0 thành kiểu import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
1. Đầu tiên, tách import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
2 khỏi cột để đảm bảo rằng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đọc nó dưới dạng số. Kiện hàng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5- Sử dụng phương pháp
6 để loại bỏimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
0 củaimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
2 và lưu nó vào cộtimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
9import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- Chuyển đổi
9 thànhimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
1 và lưu trữ trongimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
02# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Viết một câu lệnh
03 để kiểm tra xem kiểu dữ liệu của# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
04 hiện có phải là một# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
1 hay khôngimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- In thời gian đi xe trung bình
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
4Ràng buộc phạm vi dữ liệu
Đôi khi có thể hiển thị các giá trị nằm ngoài phạm vi dữ liệu. Ví dụ: thời gian trong tương lai được bao gồm trong điểm thời gian;
Cách để đối phó với nó
- Giảm giá trị bằng cách sử dụng bộ lọc.
06# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Giảm giá trị bằng cách sử dụng.
07.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
08# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- khẳng định kết quả.
09# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
Hạn chế về kích thước lốp
Kích thước lốp xe đạp có thể là 26″, 27″ hoặc 29″ và ở đây được lưu trữ chính xác dưới dạng giá trị phân loại. Trong nỗ lực cắt giảm chi phí bảo trì, nhà cung cấp dịch vụ chia sẻ chuyến đi đã quyết định đặt cỡ lốp tối đa là 27″
Trong bài tập này, cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
90 có phạm vi chính xác bằng cách chuyển đổi nó thành một số nguyên trước tiên, sau đó thiết lập và kiểm tra giới hạn trên mới là 27″ cho kích thước lốp xe- Chuyển đổi cột
90 từ danh mục thành# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
92# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Sử dụng
93 để đặt tất cả các giá trị của tire_sizes trên 27 thành 27# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Chuyển ngược lại
90 thành# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
95’ từ# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
1import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- In mô tả của
90# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
Quay lại tương lai
Một bản cập nhật mới cho đường dẫn dữ liệu cung cấp vào Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 đã được cập nhật để đăng ký ngày của mỗi chuyến đi. Thông tin này được lưu trữ trong cột # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
99 thuộc loại # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
00, đại diện cho các chuỗi trong import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3Một lỗi đã được phát hiện đang chuyển tiếp các chuyến đi được thực hiện hôm nay như được thực hiện vào năm tới. Để khắc phục điều này, bạn sẽ tìm thấy tất cả các phiên bản của cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
99 xảy ra bất kỳ lúc nào trong tương lai và đặt giá trị tối đa có thể có của cột này thành ngày hôm nay. Trước khi làm như vậy, bạn cần chuyển đổi # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
99 thành đối tượng # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
04Gói
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
04 đã được nhập dưới dạng # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
06, cùng với tất cả các gói bạn đang sử dụng cho đến bây giờ________số 8
trùng lặp
Làm thế nào lớn là tập hợp con của bạn? . Bạn muốn tìm cả bản sao hoàn chỉnh và không đầy đủ bằng cách sử dụng
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
08first_namelast_namecredit_scorehas_loanJustinSaddlemeyer6001HadrienLacroix4500Chọn cách sử dụng đúng của
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
08 bên dưới
10. Bởi vì phương thức mặc định trả về cả hai bản sao hoàn chỉnh và không đầy đủ. Sai# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
11. Bởi vì việc hạn chế các hàng trùng lặp với tên đầu tiên cũng cho phép tôi tìm thấy các bản sao không đầy đủ. Sai# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
12. Bởi vì việc đặt con trên siêu dữ liệu người tiêu dùng và không loại bỏ bất kỳ bản sao nào sẽ trả về tất cả các hàng trùng lặp. Đúng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- ____513. Bởi vì điều này loại bỏ tất cả các bản sao. Sai
Tìm trùng lặp
Một bản cập nhật mới cho đường dẫn dữ liệu cung cấp vào
5 đã thêm cột# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
15, đại diện cho một mã định danh duy nhất cho mỗi chuyến đi# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
Tuy nhiên, bản cập nhật trùng hợp với thời gian đi xe trung bình ngắn hơn hoàn toàn và ngày sinh của người dùng bất thường được đặt trong tương lai. Quan trọng nhất, số lượt đi đã tăng 20% chỉ sau một đêm, khiến bạn nghĩ rằng có thể có cả trùng lặp hoàn chỉnh và chưa hoàn chỉnh trong Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5Trong bài tập này, bạn sẽ xác nhận nghi ngờ này bằng cách tìm những bản sao đó. Một mẫu của
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 có trong môi trường của bạn, cũng như tất cả các gói mà bạn đã làm việc cho đến nay- Tìm các hàng trùng lặp của
15 trong Khung dữ liệu# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
5 trong khi đặt# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
10 thành# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
11# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tập hợp con
5 trên# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
13 và sắp xếp theo# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
15 và gán kết quả cho# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
15# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- In các cột
15,# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
0 vàimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
18 của# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
15 theo thứ tự đó# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
0Xử lý trùng lặp
Trong bài tập trước, bạn đã có thể xác minh rằng bản cập nhật mới cung cấp cho
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 có chứa một lỗi tạo ra cả hàng trùng lặp hoàn chỉnh và không đầy đủ cho một số giá trị của cột # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
15, với các giá trị khác biệt đôi khi cho các cột # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
18 và import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
0Trong bài tập này, bạn sẽ xử lý các hàng trùng lặp đó bằng cách loại bỏ các hàng trùng lặp hoàn chỉnh trước tiên, sau đó hợp nhất các hàng trùng lặp không hoàn chỉnh thành một trong khi vẫn giữ nguyên giá trị trung bình là 80 và __618 tối thiểu cho mỗi tập hợp các hàng trùng lặp không hoàn chỉnh
- Thả các bản sao hoàn chỉnh vào
5 và lưu kết quả vào# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
97# Print the information of ride_sharing print[ride_sharing.info[]] # Print summary statistics of user_type column print[ride_sharing['user_type'].describe[]]
- Tạo từ điển
98 chứa tổng hợp tối thiểu cho# Print the information of ride_sharing print[ride_sharing.info[]] # Print summary statistics of user_type column print[ride_sharing['user_type'].describe[]]
18 và tổng hợp trung bình cho# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
0import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- Loại bỏ các bản sao không hoàn chỉnh bằng cách nhóm theo
15 và áp dụng tổng hợp trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
98# Print the information of ride_sharing print[ride_sharing.info[]] # Print summary statistics of user_type column print[ride_sharing['user_type'].describe[]]
- Tìm lại các mục trùng lặp và chạy câu lệnh
03 để xác minh việc loại bỏ trùng lặp# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
92. Văn bản và vấn đề dữ liệu phân loại
Các loại ràng buộc khác nhau
- Ràng buộc kiểu dữ liệu. 数据类型问题
- Ràng buộc phạm vi dữ liệu. 数值范围问题
- ràng buộc duy nhất. 重复值问题
- ràng buộc thành viên. 资格问题
- 处理方式问题
- 分类问题
- 格式转化问题
- 缺失值问题
- 不同表格合并资格问题
ràng buộc thành viên. khi ghi nội dung không nên tồn tại. F. được rồi. khi ghi nhóm máu viết sai từ A+ thành Z+. Những ví dụ khác
- Cột
404 có giá trị 12# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Một cột
405 có giá trị “Thứ hai”# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Một cột
406 có giá trị 14# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Một cột
407 chứa “lớp Z”# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
Tìm sự nhất quán
Trong bài tập này và trong suốt chương này, chúng ta sẽ làm việc với Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 chứa các câu trả lời khảo sát về Sân bay San Francisco từ các khách hàng của hãng hàng khôngDataFrame chứa siêu dữ liệu chuyến bay, chẳng hạn như hãng hàng không, điểm đến, thời gian chờ đợi cũng như câu trả lời cho các câu hỏi chính về độ sạch sẽ, an toàn và sự hài lòng. Một Khung dữ liệu khác có tên là
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
409 đã được tạo, chứa tất cả các giá trị chính xác có thể có cho các cột khảo sátTrong bài tập này, chúng ta sẽ sử dụng cả hai DataFrames này để tìm câu trả lời khảo sát có giá trị không nhất quán và loại bỏ chúng, thực hiện hiệu quả phép nối bên ngoài và bên trong trên cả hai DataFrames này như đã thấy trong bài tập video. Gói
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng ________ 85 và Khung dữ liệu ________ 2408 n ________ 2409 nằm trong môi trường của bạn- In Khung dữ liệu
409 và xem kỹ tất cả các danh mục chính xác có thể có của các cột khảo sát# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- In các giá trị duy nhất của các cột khảo sát trong
408 bằng phương pháp# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
416# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
0Đầu ra trông như thế này
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
1Hãy nhìn vào đầu ra. Trong các cột sạch sẽ, an toàn và hài lòng, cột nào có danh mục không nhất quán và đó là gì?
417 vì nó có danh mục# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
418. Đúng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
417 vì nó có danh mục# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
420. Sai# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
421 vì nó có danh mục# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
422. Sai# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
423 vì nó có danh mục# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
424. Sai# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
Tiếp theo, tìm cột có các giá trị khác nhau bằng cách sử dụng
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
425 và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
426- Tạo một tập hợp từ cột
417 trong tập dữ liệu# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
408 bằng cách sử dụng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
425 và tìm danh mục không nhất quán bằng cách tìm sự khác biệt trong cột# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
417 của tập dữ liệu# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
409# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tìm các hàng của
408 có giá trị# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
417 không có trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
409 và in kết quả# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Chỉ in các hàng có danh mục nhất quán của
417# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
1Và điều này mang lại đầu ra sau khi khám phá dữ liệu
# Print the information of ride_sharing
print[ride_sharing.info[]]
# Print summary statistics of user_type column
print[ride_sharing['user_type'].describe[]]
9Danh mục lỗi
Để giải quyết các vấn đề phổ biến ảnh hưởng đến các biến phân loại trong dữ liệu bao gồm các khoảng trắng và sự không nhất quán trong các danh mục cũng như vấn đề tạo các danh mục mới và ánh xạ các danh mục hiện có sang danh mục mới
Đầu tiên, chúng ta có thể xem xét các giá trị cho một cột bằng cách sử dụng
- `df[‘tên cột’]. value_counts[]
- hoặc thực hiện đếm giá trị trên DataFrame.
436# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
Điều này sẽ cung cấp tổng quan về số lượng giá trị/loại cho biến. Hơn chúng ta có thể giải quyết các vấn đề bằng cách
Khoảng trắng và sự không nhất quán
437. xóa tất cả khoảng trắng trước hoặc sau tên cột. Dải tất cả các không gian# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
438. Viết hoa tất cả các nhãn sao cho mọi nhãn được đánh vần bằng chữ in hoa# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
439. Chữ thường, viết tất cả các nhãn bằng chữ thường# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
40Thu gọn tất cả các bang
Tạo hoặc ánh xạ lại các danh mục
440. xác định nhãn, cắt thành n nhóm và liên kết với nhãn# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
441. xác định nhãn và ngưỡng cắt, liên kết các nhóm bằng nhãn# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
442. Nhóm các giá trị thành ít giá trị hơn. Trước tiên hãy tạo một từ điển ánh xạ, vì vậy# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
443# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
Thu gọn dữ liệu thành các danh mục. Tạo danh mục từ dữ liệu - cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
444 từ cột # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
445# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
41Phương pháp ________ 2440 có thể không đủ chính xác. Một phương pháp khác tốt hơn nhiều
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
42Ánh xạ các danh mục tới ít danh mục hơn. giảm danh mục trong cột phân loại. Ví dụ
- cột hệ điều hành. 'Microsoft', 'MacOS', 'IOS', 'Android', 'Linux'
- cột hệ điều hành sẽ trở thành. 'DesktopOS', 'MobileOS'
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
43Điều này trả về.
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
447danh mục không nhất quán
DataFrame chứa siêu dữ liệu chuyến bay, chẳng hạn như hãng hàng không, điểm đến, thời gian chờ cũng như câu trả lời cho các câu hỏi chính về sự sạch sẽ, an toàn và sự hài lòng trên Sân bay San Francisco
Chúng tôi sẽ kiểm tra hai cột phân loại từ DataFrame này, lần lượt là
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
448 và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
449, đánh giá cách giải quyết chúng và đảm bảo rằng chúng được làm sạch và sẵn sàng để phân tích. Gói import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và Khung dữ liệu # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 nằm trong môi trường của bạn- In các giá trị duy nhất trong
448 và# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
449 tương ứng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Thay đổi cách viết hoa của tất cả các giá trị của
448 thành chữ thường# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Thay thế
456 bằng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
457 trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
448 bằng phương pháp# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
442# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tách khoảng trắng khỏi cột
449 bằng phương pháp# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
6import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- Xác minh rằng các thay đổi đã có hiệu lực bằng cách in các giá trị duy nhất của các cột bằng cách sử dụng
416# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
44Các vấn đề với các cột
- Cột
448 có các giá trị không nhất quán do cách viết hoa và có một giá trị cần được ánh xạ lại# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Cột
449 chỉ có các giá trị không nhất quán do khoảng trắng ở đầu và cuối# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
Danh mục ánh xạ lại
Để hiểu rõ hơn về những người trả lời khảo sát từ các hãng hàng không, bạn muốn tìm hiểu xem liệu có mối quan hệ nào giữa các câu trả lời nhất định với ngày trong tuần và thời gian chờ đợi tại cổng hay không
Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 chứa các cột # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
466 và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
467, tương ứng là phân loại và số. Cột # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
466 chứa ngày chính xác chuyến bay diễn ra và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
467 chứa số phút hành khách phải đợi ở cổng. Để làm cho phân tích của bạn dễ dàng hơn, bạn muốn tạo hai biến phân loại mới
470.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
471 trong 0-60 phút,# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
472 cho 60-180 và# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
473 cho 180+# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
474. ________ 2475 nếu là ngày trong tuần, ________ 2476 nếu là ngày cuối tuần# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
Các kiện hàng
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
478 đã được nhập là import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
480. Hãy tạo một số dữ liệu phân loại mớiHướng dẫn
- Tạo phạm vi và nhãn cho cột
470 được đề cập trong phần mô tả ở trên# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tạo cột
470 bằng from# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
467 bằng cách sử dụng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
484, đồng thời nhập# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
485 và# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
486 vào các đối số chính xác# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tạo từ điển ánh xạ ánh xạ các ngày trong tuần thành
475 và các ngày cuối tuần thành# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
476# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tạo cột
474 bằng cách sử dụng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
442# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
45Làm sạch dữ liệu văn bản
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
46Xóa chức danh và lấy tên
Trong khi thu thập siêu dữ liệu của người trả lời khảo sát trong Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408, tên đầy đủ của người trả lời đã được lưu trong cột # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
492. Tuy nhiên, khi kiểm tra kỹ hơn, bạn thấy rằng rất nhiều tên khác nhau có tiền tố là kính ngữ, chẳng hạn như “Dr. ", "Ông. ", "Bệnh đa xơ cứng. " và nhớ"Mục tiêu cuối cùng của bạn là tạo hai cột mới có tên là
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
493 và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
494, lần lượt chứa họ và tên của người trả lời. Tuy nhiên, trước khi làm như vậy, bạn cần loại bỏ kính ngữKhung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 nằm trong môi trường của bạn, cùng với import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 là import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5- Xóa “Tiến sĩ. ", "Ông. ”, “Cô” và “Cô. ” từ
492 bằng cách thay thế chúng bằng một chuỗi trống “” theo thứ tự đó# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Chạy câu lệnh
03 bằng cách sử dụng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
00 để kiểm tra xem full_name có còn chứa bất kỳ kính ngữ nào không# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
47Giữ nó mô tả
Để hiểu rõ hơn về trải nghiệm của khách du lịch tại Sân bay San Francisco, bộ phận đảm bảo chất lượng đã gửi một bảng câu hỏi định tính cho tất cả những khách du lịch đã cho sân bay điểm kém nhất trong tất cả các hạng mục có thể. Mục tiêu đằng sau bảng câu hỏi này là xác định các mẫu phổ biến trong những gì khách du lịch đang nói về sân bay
Phản hồi của họ được lưu trữ trong cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
01. Khi xem xét kỹ hơn, bạn nhận ra rằng một số câu trả lời có số lượng ký tự ngắn nhất có thể mà không có nhiều nội dung. Trong bài tập này, bạn sẽ cô lập các câu trả lời có số ký tự cao hơn 40 và đảm bảo DataFrame mới của bạn chứa các câu trả lời có 40 ký tự trở lên bằng cách sử dụng câu lệnh # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
03Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 nằm trong môi trường của bạn và import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5- Sử dụng Khung dữ liệu
408, lưu trữ độ dài của từng phiên bản trong cột# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
01 trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
08 bằng cách sử dụng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
09# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Cô lập các hàng của
408 với# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
08 cao hơn# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
12# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Khẳng định rằng độ dài phản hồi khảo sát nhỏ nhất trong
13 hiện lớn hơn 40# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
483. Vấn đề dữ liệu nâng cao
tính đồng nhất
ColumnUnitTemperature32°C cũng là 89. 6°FT Cân nặng 70 Kg cũng đứng thứ 11. Ngày 26-11-2019 cũng là ngày 26 tháng 11 năm 2019 Tiền 100$ cũng là 10763. 90¥Tạo dữ liệu nhiệt độ từ F đến C. C=[F−32]×5/9
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
49Định dạng ngày giờ
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
14 rất hữu ích để biểu thị ngày tháng. Ngày tháng. Định dạng ngày giờ 25-12-2019. %d-%m-%Y Ngày 25 tháng 12 năm 2019. %c 25-12-2019. %m-%d-%Y …. …# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
15- Có thể tự động nhận ra hầu hết các định dạng
- Đôi khi không thành công với các định dạng sai hoặc không thể nhận dạng được
Xử lý dữ liệu ngày
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
0ngày mơ hồ
Bạn có một Khung dữ liệu chứa cột subscribe_date được thu thập từ nhiều nguồn khác nhau với các định dạng Ngày khác nhau, chẳng hạn như YYYY-mm-dd và YYYY-dd-mm. Cách tốt nhất để thống nhất các định dạng cho các giá trị không rõ ràng, chẳng hạn như 2019-04-07 là gì?
- Đặt chúng thành NA và thả chúng
- Suy ra định dạng của dữ liệu được đề cập bằng cách kiểm tra định dạng của các giá trị tiếp theo và trước đó
- Suy ra định dạng từ nguồn dữ liệu gốc
- Tất cả những điều trên đều có thể xảy ra, miễn là chúng tôi điều tra xem dữ liệu của mình đến từ đâu và hiểu động lực ảnh hưởng đến dữ liệu trước khi xóa dữ liệu. Chính xác
tiền tệ thống nhất
Trong bài tập này và trong suốt chương này, bạn sẽ làm việc với bộ dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
16 bán lẻ được lưu trữ trong DataFrame ngân hàng. Bộ dữ liệu chứa dữ liệu về số tiền được lưu trữ trong tài khoản, đơn vị tiền tệ, số tiền đầu tư, ngày mở tài khoản và ngày giao dịch cuối cùng được tổng hợp từ các chi nhánh ở Mỹ và Châu ÂuBạn có nhiệm vụ tìm hiểu quy mô tài khoản trung bình và các khoản đầu tư thay đổi như thế nào theo quy mô tài khoản, tuy nhiên, để tạo ra phân tích này một cách chính xác, trước tiên bạn cần thống nhất số lượng tiền tệ thành đô la. Gói
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và Khung dữ liệu # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
16 nằm trong môi trường của bạn- Tìm các hàng của
20 trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
16 bằng với# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
22 và lưu trữ chúng trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
23# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tìm tất cả các hàng của
24 trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
16 phù hợp với điều kiện của# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
23 và chuyển đổi chúng sang USD bằng cách nhân chúng với# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
27# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tìm tất cả các hàng của
20 trong ngân hàng phù hợp với điều kiện# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
23, đặt chúng thành# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
30# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
1ngày thống nhất
Sau khi đã thống nhất đơn vị tiền tệ của các số tiền tài khoản khác nhau, bạn muốn thêm thứ nguyên thời gian vào phân tích của mình và xem khách hàng đã đầu tư tiền của họ như thế nào với quy mô tài khoản của họ qua mỗi năm. Cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
31 thể hiện thời điểm khách hàng mở tài khoản và là một đại diện tốt để phân khúc hoạt động và đầu tư của khách hàng theo thời gianTuy nhiên, vì dữ liệu này được tổng hợp từ nhiều nguồn nên bạn cần đảm bảo rằng tất cả các ngày đều có cùng định dạng. Bạn sẽ làm như vậy bằng cách chuyển đổi cột này thành một đối tượng
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
04, đồng thời đảm bảo rằng định dạng được suy ra và các định dạng có khả năng không chính xác được đặt thành thiếu. Khung dữ liệu # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
16 có trong môi trường của bạn và import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5- In tiêu đề của
31 từ Khung dữ liệu# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
16 và xem các kết quả khác nhau# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Chuyển đổi cột
31 thành# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
04, đồng thời đảm bảo rằng định dạng ngày được suy ra và các định dạng sai gây ra lỗi trả về giá trị bị thiếu# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Trích xuất năm từ cột
31 đã sửa đổi và gán nó cho cột# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
41# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- In cột
41 mới tạo# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
2Hãy nhìn vào đầu ra. Bạn đã thử chuyển đổi các giá trị thành datetime bằng hàm to_datetime[] mặc định mà không thay đổi bất kỳ đối số nào, tuy nhiên đã nhận được lỗi sau.
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
43Sao bạn lại nghĩ như vậy?
- Hàm to_datetime[] cần được chỉ rõ định dạng ngày của mỗi hàng
- Hàm to_datetime[] chỉ có thể được áp dụng trên các định dạng ngày YY-mm-dd
- Mục nhập 21-14-17 bị sai và dẫn đến lỗi. Chính xác
Xác thực trường chéo
Việc sử dụng nhiều trường trong tập dữ liệu để kiểm tra tính toàn vẹn của dữ liệu
Ở đây, chúng tôi chỉ định
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
44 để chỉ định tổng theo hàng. [img] Và ở đây chúng tôi kiểm tra xem các cột # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
45 và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
46 có cung cấp cùng một thông tin hay không