Làm sạch dữ liệu trong Python datacamp GitHub

Thao tác và phân tích dữ liệu với các loại dữ liệu không chính xác có thể dẫn đến phân tích bị xâm phạm khi bạn thực hiện quy trình khoa học dữ liệu

Khi làm việc với dữ liệu mới, chúng ta có thể sử dụng thuộc tính

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
3 hoặc phương thức
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
4. Thông thường, bạn sẽ gặp phải các cột cần được chuyển đổi thành các loại dữ liệu khác nhau trước khi bắt đầu bất kỳ phân tích nào

Để mô tả dữ liệu và kiểm tra các loại dữ liệu

Dữ liệu chia sẻ đi xe đạp ở San Francisco,

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5, chứa thông tin về trạm bắt đầu và điểm kết thúc, thời lượng chuyến đi và một số thông tin người dùng cho dịch vụ chia sẻ xe đạp

Thuế tiêu thụ đặc biệt sẽ

  • In thông tin của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    5. Sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    7 để in số liệu thống kê tóm tắt của cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    8 từ
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    5

# Print the information of ride_sharing
print[ride_sharing.info[]]

# Print summary statistics of user_type column
print[ride_sharing['user_type'].describe[]]

Tổng hợp chuỗi và nối số

Một vấn đề về kiểu dữ liệu phổ biến khác là nhập các giá trị số dưới dạng chuỗi, vì các phép toán như tổng và nhân dẫn đến nối chuỗi chứ không phải đầu ra số

Bài tập này sẽ chuyển đổi cột chuỗi

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
0 thành kiểu
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
1. Đầu tiên, tách
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
2 khỏi cột để đảm bảo rằng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đọc nó dưới dạng số. Kiện hàng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5

  • Sử dụng phương pháp
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    6 để loại bỏ
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    0 của
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    2 và lưu nó vào cột
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    9
  • Chuyển đổi
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    9 thành
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    1 và lưu trữ trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    02
  • Viết một câu lệnh
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    03 để kiểm tra xem kiểu dữ liệu của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    04 hiện có phải là một
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    1 hay không
  • In thời gian đi xe trung bình

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
4

Ràng buộc phạm vi dữ liệu

Đôi khi có thể hiển thị các giá trị nằm ngoài phạm vi dữ liệu. Ví dụ: thời gian trong tương lai được bao gồm trong điểm thời gian;

Cách để đối phó với nó

  • Giảm giá trị bằng cách sử dụng bộ lọc.
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    06
  • Giảm giá trị bằng cách sử dụng.
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    07.
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    08
  • khẳng định kết quả.
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    09

Hạn chế về kích thước lốp

Kích thước lốp xe đạp có thể là 26″, 27″ hoặc 29″ và ở đây được lưu trữ chính xác dưới dạng giá trị phân loại. Trong nỗ lực cắt giảm chi phí bảo trì, nhà cung cấp dịch vụ chia sẻ chuyến đi đã quyết định đặt cỡ lốp tối đa là 27″

Trong bài tập này, cột

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
90 có phạm vi chính xác bằng cách chuyển đổi nó thành một số nguyên trước tiên, sau đó thiết lập và kiểm tra giới hạn trên mới là 27″ cho kích thước lốp xe

  • Chuyển đổi cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    90 từ danh mục thành
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    92
  • Sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    93 để đặt tất cả các giá trị của tire_sizes trên 27 thành 27
  • Chuyển ngược lại
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    90 thành
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    95’ từ
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    1
  • In mô tả của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    90

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]

Quay lại tương lai

Một bản cập nhật mới cho đường dẫn dữ liệu cung cấp vào Khung dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 đã được cập nhật để đăng ký ngày của mỗi chuyến đi. Thông tin này được lưu trữ trong cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
99 thuộc loại
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
00, đại diện cho các chuỗi trong
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3

Một lỗi đã được phát hiện đang chuyển tiếp các chuyến đi được thực hiện hôm nay như được thực hiện vào năm tới. Để khắc phục điều này, bạn sẽ tìm thấy tất cả các phiên bản của cột

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
99 xảy ra bất kỳ lúc nào trong tương lai và đặt giá trị tối đa có thể có của cột này thành ngày hôm nay. Trước khi làm như vậy, bạn cần chuyển đổi
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
99 thành đối tượng
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
04

Gói

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
04 đã được nhập dưới dạng
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
06, cùng với tất cả các gói bạn đang sử dụng cho đến bây giờ

________số 8

trùng lặp

Làm thế nào lớn là tập hợp con của bạn? . Bạn muốn tìm cả bản sao hoàn chỉnh và không đầy đủ bằng cách sử dụng

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
08

first_namelast_namecredit_scorehas_loanJustinSaddlemeyer6001HadrienLacroix4500

Chọn cách sử dụng đúng của

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
08 bên dưới

  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    10. Bởi vì phương thức mặc định trả về cả hai bản sao hoàn chỉnh và không đầy đủ. Sai
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    11. Bởi vì việc hạn chế các hàng trùng lặp với tên đầu tiên cũng cho phép tôi tìm thấy các bản sao không đầy đủ. Sai
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    12. Bởi vì việc đặt con trên siêu dữ liệu người tiêu dùng và không loại bỏ bất kỳ bản sao nào sẽ trả về tất cả các hàng trùng lặp. Đúng
  • ____513. Bởi vì điều này loại bỏ tất cả các bản sao. Sai

    Tìm trùng lặp

    Một bản cập nhật mới cho đường dẫn dữ liệu cung cấp vào

    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    5 đã thêm cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    15, đại diện cho một mã định danh duy nhất cho mỗi chuyến đi

Tuy nhiên, bản cập nhật trùng hợp với thời gian đi xe trung bình ngắn hơn hoàn toàn và ngày sinh của người dùng bất thường được đặt trong tương lai. Quan trọng nhất, số lượt đi đã tăng 20% ​​chỉ sau một đêm, khiến bạn nghĩ rằng có thể có cả trùng lặp hoàn chỉnh và chưa hoàn chỉnh trong Khung dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5

Trong bài tập này, bạn sẽ xác nhận nghi ngờ này bằng cách tìm những bản sao đó. Một mẫu của

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 có trong môi trường của bạn, cũng như tất cả các gói mà bạn đã làm việc cho đến nay

  • Tìm các hàng trùng lặp của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    15 trong Khung dữ liệu
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    5 trong khi đặt
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    10 thành
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    11
  • Tập hợp con
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    5 trên
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    13 và sắp xếp theo
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    15 và gán kết quả cho
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    15
  • In các cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    15,
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    0 và
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    18 của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    15 theo thứ tự đó

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
0

Xử lý trùng lặp

Trong bài tập trước, bạn đã có thể xác minh rằng bản cập nhật mới cung cấp cho

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 có chứa một lỗi tạo ra cả hàng trùng lặp hoàn chỉnh và không đầy đủ cho một số giá trị của cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
15, với các giá trị khác biệt đôi khi cho các cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
18 và
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
0

Trong bài tập này, bạn sẽ xử lý các hàng trùng lặp đó bằng cách loại bỏ các hàng trùng lặp hoàn chỉnh trước tiên, sau đó hợp nhất các hàng trùng lặp không hoàn chỉnh thành một trong khi vẫn giữ nguyên giá trị trung bình là 80 và __618 tối thiểu cho mỗi tập hợp các hàng trùng lặp không hoàn chỉnh

  • Thả các bản sao hoàn chỉnh vào
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    5 và lưu kết quả vào
    # Print the information of ride_sharing
    print[ride_sharing.info[]]
    
    # Print summary statistics of user_type column
    print[ride_sharing['user_type'].describe[]]
    
    97
  • Tạo từ điển
    # Print the information of ride_sharing
    print[ride_sharing.info[]]
    
    # Print summary statistics of user_type column
    print[ride_sharing['user_type'].describe[]]
    
    98 chứa tổng hợp tối thiểu cho
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    18 và tổng hợp trung bình cho
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    0
  • Loại bỏ các bản sao không hoàn chỉnh bằng cách nhóm theo
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    15 và áp dụng tổng hợp trong
    # Print the information of ride_sharing
    print[ride_sharing.info[]]
    
    # Print summary statistics of user_type column
    print[ride_sharing['user_type'].describe[]]
    
    98
  • Tìm lại các mục trùng lặp và chạy câu lệnh
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    03 để xác minh việc loại bỏ trùng lặp

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
9

2. Văn bản và vấn đề dữ liệu phân loại

Các loại ràng buộc khác nhau

  • Ràng buộc kiểu dữ liệu. 数据类型问题
  • Ràng buộc phạm vi dữ liệu. 数值范围问题
  • ràng buộc duy nhất. 重复值问题
  • ràng buộc thành viên. 资格问题
  • 处理方式问题
  • 分类问题
  • 格式转化问题
  • 缺失值问题
  • 不同表格合并资格问题

ràng buộc thành viên. khi ghi nội dung không nên tồn tại. F. được rồi. khi ghi nhóm máu viết sai từ A+ thành Z+. Những ví dụ khác

  • Cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    404 có giá trị 12
  • Một cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    405 có giá trị “Thứ hai”
  • Một cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    406 có giá trị 14
  • Một cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    407 chứa “lớp Z”

Tìm sự nhất quán

Trong bài tập này và trong suốt chương này, chúng ta sẽ làm việc với Khung dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 chứa các câu trả lời khảo sát về Sân bay San Francisco từ các khách hàng của hãng hàng không

DataFrame chứa siêu dữ liệu chuyến bay, chẳng hạn như hãng hàng không, điểm đến, thời gian chờ đợi cũng như câu trả lời cho các câu hỏi chính về độ sạch sẽ, an toàn và sự hài lòng. Một Khung dữ liệu khác có tên là

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
409 đã được tạo, chứa tất cả các giá trị chính xác có thể có cho các cột khảo sát

Trong bài tập này, chúng ta sẽ sử dụng cả hai DataFrames này để tìm câu trả lời khảo sát có giá trị không nhất quán và loại bỏ chúng, thực hiện hiệu quả phép nối bên ngoài và bên trong trên cả hai DataFrames này như đã thấy trong bài tập video. Gói

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng ________ 85 và Khung dữ liệu ________ 2408 n ________ 2409 nằm trong môi trường của bạn

  • In Khung dữ liệu
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    409 và xem kỹ tất cả các danh mục chính xác có thể có của các cột khảo sát
  • In các giá trị duy nhất của các cột khảo sát trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    408 bằng phương pháp
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    416

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
0

Đầu ra trông như thế này

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
1

Hãy nhìn vào đầu ra. Trong các cột sạch sẽ, an toàn và hài lòng, cột nào có danh mục không nhất quán và đó là gì?

  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    417 vì nó có danh mục
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    418. Đúng
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    417 vì nó có danh mục
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    420. Sai
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    421 vì nó có danh mục
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    422. Sai
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    423 vì nó có danh mục
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    424. Sai

Tiếp theo, tìm cột có các giá trị khác nhau bằng cách sử dụng

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
425 và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
426

  • Tạo một tập hợp từ cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    417 trong tập dữ liệu
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    408 bằng cách sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    425 và tìm danh mục không nhất quán bằng cách tìm sự khác biệt trong cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    417 của tập dữ liệu
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    409
  • Tìm các hàng của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    408 có giá trị
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    417 không có trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    409 và in kết quả
  • Chỉ in các hàng có danh mục nhất quán của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    417

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
1

Và điều này mang lại đầu ra sau khi khám phá dữ liệu

# Print the information of ride_sharing
print[ride_sharing.info[]]

# Print summary statistics of user_type column
print[ride_sharing['user_type'].describe[]]
9

Danh mục lỗi

Để giải quyết các vấn đề phổ biến ảnh hưởng đến các biến phân loại trong dữ liệu bao gồm các khoảng trắng và sự không nhất quán trong các danh mục cũng như vấn đề tạo các danh mục mới và ánh xạ các danh mục hiện có sang danh mục mới

Đầu tiên, chúng ta có thể xem xét các giá trị cho một cột bằng cách sử dụng

  • `df[‘tên cột’]. value_counts[]
  • hoặc thực hiện đếm giá trị trên DataFrame.
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    436

Điều này sẽ cung cấp tổng quan về số lượng giá trị/loại cho biến. Hơn chúng ta có thể giải quyết các vấn đề bằng cách

Khoảng trắng và sự không nhất quán

  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    437. xóa tất cả khoảng trắng trước hoặc sau tên cột. Dải tất cả các không gian
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    438. Viết hoa tất cả các nhãn sao cho mọi nhãn được đánh vần bằng chữ in hoa
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    439. Chữ thường, viết tất cả các nhãn bằng chữ thường

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
40

Thu gọn tất cả các bang

Tạo hoặc ánh xạ lại các danh mục

  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    440. xác định nhãn, cắt thành n nhóm và liên kết với nhãn
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    441. xác định nhãn và ngưỡng cắt, liên kết các nhóm bằng nhãn
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    442. Nhóm các giá trị thành ít giá trị hơn. Trước tiên hãy tạo một từ điển ánh xạ, vì vậy
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    443

Thu gọn dữ liệu thành các danh mục. Tạo danh mục từ dữ liệu - cột

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
444 từ cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
445

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
41

Phương pháp ________ 2440 có thể không đủ chính xác. Một phương pháp khác tốt hơn nhiều

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
42

Ánh xạ các danh mục tới ít danh mục hơn. giảm danh mục trong cột phân loại. Ví dụ

  • cột hệ điều hành. 'Microsoft', 'MacOS', 'IOS', 'Android', 'Linux'
  • cột hệ điều hành sẽ trở thành. 'DesktopOS', 'MobileOS'

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
43

Điều này trả về.

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
447

danh mục không nhất quán

DataFrame chứa siêu dữ liệu chuyến bay, chẳng hạn như hãng hàng không, điểm đến, thời gian chờ cũng như câu trả lời cho các câu hỏi chính về sự sạch sẽ, an toàn và sự hài lòng trên Sân bay San Francisco

Chúng tôi sẽ kiểm tra hai cột phân loại từ DataFrame này, lần lượt là

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
448 và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
449, đánh giá cách giải quyết chúng và đảm bảo rằng chúng được làm sạch và sẵn sàng để phân tích. Gói
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 nằm trong môi trường của bạn

  • In các giá trị duy nhất trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    448 và
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    449 tương ứng
  • Thay đổi cách viết hoa của tất cả các giá trị của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    448 thành chữ thường
  • Thay thế
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    456 bằng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    457 trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    448 bằng phương pháp
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    442
  • Tách khoảng trắng khỏi cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    449 bằng phương pháp
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
    
    # Save today's date
    today = dt.date.today[]
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print[ride_sharing['ride_dt'].max[]]
    
    6
  • Xác minh rằng các thay đổi đã có hiệu lực bằng cách in các giá trị duy nhất của các cột bằng cách sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    416

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
44

Các vấn đề với các cột

  • Cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    448 có các giá trị không nhất quán do cách viết hoa và có một giá trị cần được ánh xạ lại
  • Cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    449 chỉ có các giá trị không nhất quán do khoảng trắng ở đầu và cuối

Danh mục ánh xạ lại

Để hiểu rõ hơn về những người trả lời khảo sát từ các hãng hàng không, bạn muốn tìm hiểu xem liệu có mối quan hệ nào giữa các câu trả lời nhất định với ngày trong tuần và thời gian chờ đợi tại cổng hay không

Khung dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 chứa các cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
466 và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
467, tương ứng là phân loại và số. Cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
466 chứa ngày chính xác chuyến bay diễn ra và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
467 chứa số phút hành khách phải đợi ở cổng. Để làm cho phân tích của bạn dễ dàng hơn, bạn muốn tạo hai biến phân loại mới

  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    470.
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    471 trong 0-60 phút,
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    472 cho 60-180 và
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    473 cho 180+
  • # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    474. ________ 2475 nếu là ngày trong tuần, ________ 2476 nếu là ngày cuối tuần

Các kiện hàng

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
478 đã được nhập là
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
480. Hãy tạo một số dữ liệu phân loại mới

Hướng dẫn

  • Tạo phạm vi và nhãn cho cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    470 được đề cập trong phần mô tả ở trên
  • Tạo cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    470 bằng from
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    467 bằng cách sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    484, đồng thời nhập
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    485 và
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    486 vào các đối số chính xác
  • Tạo từ điển ánh xạ ánh xạ các ngày trong tuần thành
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    475 và các ngày cuối tuần thành
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    476
  • Tạo cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    474 bằng cách sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    442

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
45

Làm sạch dữ liệu văn bản

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
46

Xóa chức danh và lấy tên

Trong khi thu thập siêu dữ liệu của người trả lời khảo sát trong Khung dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408, tên đầy đủ của người trả lời đã được lưu trong cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
492. Tuy nhiên, khi kiểm tra kỹ hơn, bạn thấy rằng rất nhiều tên khác nhau có tiền tố là kính ngữ, chẳng hạn như “Dr. ", "Ông. ", "Bệnh đa xơ cứng. " và nhớ"

Mục tiêu cuối cùng của bạn là tạo hai cột mới có tên là

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
493 và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
494, lần lượt chứa họ và tên của người trả lời. Tuy nhiên, trước khi làm như vậy, bạn cần loại bỏ kính ngữ

Khung dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 nằm trong môi trường của bạn, cùng với
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 là
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5

  • Xóa “Tiến sĩ. ", "Ông. ”, “Cô” và “Cô. ” từ
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    492 bằng cách thay thế chúng bằng một chuỗi trống “” theo thứ tự đó
  • Chạy câu lệnh
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    03 bằng cách sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    00 để kiểm tra xem full_name có còn chứa bất kỳ kính ngữ nào không

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
47

Giữ nó mô tả

Để hiểu rõ hơn về trải nghiệm của khách du lịch tại Sân bay San Francisco, bộ phận đảm bảo chất lượng đã gửi một bảng câu hỏi định tính cho tất cả những khách du lịch đã cho sân bay điểm kém nhất trong tất cả các hạng mục có thể. Mục tiêu đằng sau bảng câu hỏi này là xác định các mẫu phổ biến trong những gì khách du lịch đang nói về sân bay

Phản hồi của họ được lưu trữ trong cột

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
01. Khi xem xét kỹ hơn, bạn nhận ra rằng một số câu trả lời có số lượng ký tự ngắn nhất có thể mà không có nhiều nội dung. Trong bài tập này, bạn sẽ cô lập các câu trả lời có số ký tự cao hơn 40 và đảm bảo DataFrame mới của bạn chứa các câu trả lời có 40 ký tự trở lên bằng cách sử dụng câu lệnh
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
03

Khung dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
408 nằm trong môi trường của bạn và
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5

  • Sử dụng Khung dữ liệu
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    408, lưu trữ độ dài của từng phiên bản trong cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    01 trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    08 bằng cách sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    09
  • Cô lập các hàng của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    408 với
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    08 cao hơn
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    12
  • Khẳng định rằng độ dài phản hồi khảo sát nhỏ nhất trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    13 hiện lớn hơn 40

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
48

3. Vấn đề dữ liệu nâng cao

tính đồng nhất

ColumnUnitTemperature32°C cũng là 89. 6°FT Cân nặng 70 Kg cũng đứng thứ 11. Ngày 26-11-2019 cũng là ngày 26 tháng 11 năm 2019 Tiền 100$ cũng là 10763. 90¥

Tạo dữ liệu nhiệt độ từ F đến C. C=[F−32]×5/9

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
49

Định dạng ngày giờ

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
14 rất hữu ích để biểu thị ngày tháng. Ngày tháng. Định dạng ngày giờ 25-12-2019. %d-%m-%Y Ngày 25 tháng 12 năm 2019. %c 25-12-2019. %m-%d-%Y …. …

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
15

  • Có thể tự động nhận ra hầu hết các định dạng
  • Đôi khi không thành công với các định dạng sai hoặc không thể nhận dạng được

Xử lý dữ liệu ngày

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
0

ngày mơ hồ

Bạn có một Khung dữ liệu chứa cột subscribe_date được thu thập từ nhiều nguồn khác nhau với các định dạng Ngày khác nhau, chẳng hạn như YYYY-mm-dd và YYYY-dd-mm. Cách tốt nhất để thống nhất các định dạng cho các giá trị không rõ ràng, chẳng hạn như 2019-04-07 là gì?

  • Đặt chúng thành NA và thả chúng
  • Suy ra định dạng của dữ liệu được đề cập bằng cách kiểm tra định dạng của các giá trị tiếp theo và trước đó
  • Suy ra định dạng từ nguồn dữ liệu gốc
  • Tất cả những điều trên đều có thể xảy ra, miễn là chúng tôi điều tra xem dữ liệu của mình đến từ đâu và hiểu động lực ảnh hưởng đến dữ liệu trước khi xóa dữ liệu. Chính xác

tiền tệ thống nhất

Trong bài tập này và trong suốt chương này, bạn sẽ làm việc với bộ dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
16 bán lẻ được lưu trữ trong DataFrame ngân hàng. Bộ dữ liệu chứa dữ liệu về số tiền được lưu trữ trong tài khoản, đơn vị tiền tệ, số tiền đầu tư, ngày mở tài khoản và ngày giao dịch cuối cùng được tổng hợp từ các chi nhánh ở Mỹ và Châu Âu

Bạn có nhiệm vụ tìm hiểu quy mô tài khoản trung bình và các khoản đầu tư thay đổi như thế nào theo quy mô tài khoản, tuy nhiên, để tạo ra phân tích này một cách chính xác, trước tiên bạn cần thống nhất số lượng tiền tệ thành đô la. Gói

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
16 nằm trong môi trường của bạn

  • Tìm các hàng của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    20 trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    16 bằng với
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    22 và lưu trữ chúng trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    23
  • Tìm tất cả các hàng của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    24 trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    16 phù hợp với điều kiện của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    23 và chuyển đổi chúng sang USD bằng cách nhân chúng với
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    27
  • Tìm tất cả các hàng của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    20 trong ngân hàng phù hợp với điều kiện
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    23, đặt chúng thành
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    30

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
1

ngày thống nhất

Sau khi đã thống nhất đơn vị tiền tệ của các số tiền tài khoản khác nhau, bạn muốn thêm thứ nguyên thời gian vào phân tích của mình và xem khách hàng đã đầu tư tiền của họ như thế nào với quy mô tài khoản của họ qua mỗi năm. Cột

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
31 thể hiện thời điểm khách hàng mở tài khoản và là một đại diện tốt để phân khúc hoạt động và đầu tư của khách hàng theo thời gian

Tuy nhiên, vì dữ liệu này được tổng hợp từ nhiều nguồn nên bạn cần đảm bảo rằng tất cả các ngày đều có cùng định dạng. Bạn sẽ làm như vậy bằng cách chuyển đổi cột này thành một đối tượng

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
04, đồng thời đảm bảo rằng định dạng được suy ra và các định dạng có khả năng không chính xác được đặt thành thiếu. Khung dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
16 có trong môi trường của bạn và
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]

# Save today's date
today = dt.date.today[]

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5

  • In tiêu đề của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    31 từ Khung dữ liệu
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    16 và xem các kết quả khác nhau
  • Chuyển đổi cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    31 thành
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    04, đồng thời đảm bảo rằng định dạng ngày được suy ra và các định dạng sai gây ra lỗi trả về giá trị bị thiếu
  • Trích xuất năm từ cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    31 đã sửa đổi và gán nó cho cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    41
  • In cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
    
    # Print tire size description
    print[ride_sharing['tire_sizes'].describe[]]
    
    41 mới tạo

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
2

Hãy nhìn vào đầu ra. Bạn đã thử chuyển đổi các giá trị thành datetime bằng hàm to_datetime[] mặc định mà không thay đổi bất kỳ đối số nào, tuy nhiên đã nhận được lỗi sau.

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
43

Sao bạn lại nghĩ như vậy?

  • Hàm to_datetime[] cần được chỉ rõ định dạng ngày của mỗi hàng
  • Hàm to_datetime[] chỉ có thể được áp dụng trên các định dạng ngày YY-mm-dd
  • Mục nhập 21-14-17 bị sai và dẫn đến lỗi. Chính xác

Xác thực trường chéo

Việc sử dụng nhiều trường trong tập dữ liệu để kiểm tra tính toàn vẹn của dữ liệu

Ở đây, chúng tôi chỉ định

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
44 để chỉ định tổng theo hàng. [img] Và ở đây chúng tôi kiểm tra xem các cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
45 và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']

# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
46 có cung cấp cùng một thông tin hay không

Làm thế nào để làm sạch dữ liệu được thực hiện trong Python?

Làm sạch dữ liệu Python bằng Pandas và NumPy .
Thả cột trong DataFrame
Thay đổi chỉ mục của DataFrame
Dọn dẹp các trường trong dữ liệu
Kết hợp các phương thức str với NumPy để làm sạch các cột
Làm sạch toàn bộ tập dữ liệu bằng hàm applymap
Đổi tên cột và bỏ qua hàng

Python có tốt nhất để làm sạch dữ liệu không?

Kết hợp tầm quan trọng của Python, Numpy và Pandas, cả hai thư viện Python [có nghĩa là bộ công cụ được lập trình sẵn] đều là công cụ được các nhà khoa học dữ liệu lựa chọn khi nói đến việc làm sạch, chuẩn bị và xử lý dữ liệu . .

Làm sạch và chuẩn bị dữ liệu trong Python là gì?

Làm sạch hoặc làm sạch dữ liệu là quá trình phát hiện và sửa [hoặc xóa] các bản ghi bị hỏng hoặc không chính xác khỏi một bộ bản ghi, bảng hoặc cơ sở dữ liệu and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the dirty or coarse data.

Làm sạch dữ liệu bằng NumPy và gấu trúc là gì?

Làm sạch dữ liệu bằng pandas và NumPy .
Bỏ các cột không cần thiết trong DataFrame
Thay đổi chỉ mục của DataFrame
sử dụng. phương thức str[] để làm sạch cột
Đổi tên các cột thành một bộ nhãn dễ nhận biết hơn
Bỏ qua các hàng không cần thiết trong tệp CSV

Chủ Đề