programming python

Làm cách nào để bạn đọc tệp csv trong tiêu đề python?

Xem các loại dữ liệu cột chúng tôi đã nhập. first_name và company là các biến ký tự. Các biến còn lại là biến số

ID             int64
first_name    object
company       object
salary         int64

ví dụ 2. Đọc tệp CSV có tiêu đề ở hàng thứ hai

Giả sử bạn có tên cột hoặc tên biến ở hàng thứ hai. Để đọc loại tệp CSV này, bạn có thể gửi lệnh sau.

mydata = pd.read_csv["workingfile.csv", header = 1]

import os
os.getcwd[]

9 yêu cầu python chọn tiêu đề từ hàng thứ hai. Nó đang đặt hàng thứ hai làm tiêu đề. Nó không phải là một ví dụ thực tế. Mình chỉ minh hoạ để các bạn hình dung cách giải. Để thực tế, bạn có thể thêm các giá trị ngẫu nhiên vào hàng đầu tiên trong tệp CSV rồi nhập lại.

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

Xác định tên cột của riêng bạn thay vì hàng tiêu đề từ tệp CSV

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

1skiprows = 1 có nghĩa là chúng tôi đang bỏ qua hàng đầu tiên và tùy chọn names= được sử dụng để gán tên biến theo cách thủ công.

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

ví dụ 3. Bỏ qua hàng nhưng giữ tiêu đề

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

3Trong trường hợp này, chúng tôi đang bỏ qua hàng thứ hai và thứ ba trong khi nhập. Đừng quên chỉ mục bắt đầu từ 0 trong python, vì vậy 0 đề cập đến hàng đầu tiên và 1 đề cập đến hàng thứ hai và 2 ngụ ý hàng thứ ba.

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

Thay vì [1,2] bạn cũng có thể viết

os.chdir["C:\\Users\\DELL\\Documents\\"]

0. Cả hai đều có nghĩa giống nhau nhưng hàm range[] rất hữu ích khi bạn muốn bỏ qua nhiều hàng để tiết kiệm thời gian xác định vị trí hàng theo cách thủ công

Bí mật ẩn của tùy chọn bỏ qua

Khi bỏ qua = 4, có nghĩa là bỏ qua bốn hàng từ trên xuống. bỏ qua = [1,2,3,4] có nghĩa là bỏ qua các hàng từ thứ hai đến thứ năm. Đó là bởi vì khi danh sách được chỉ định trong tùy chọn bỏ qua =, nó sẽ bỏ qua các hàng ở vị trí chỉ mục. Khi một giá trị số nguyên duy nhất được chỉ định trong tùy chọn, nó sẽ xem xét bỏ qua các hàng đó từ trên cùng

Ví dụ 4. Đọc tệp CSV không có hàng tiêu đề

Nếu bạn chỉ định "header = None", python sẽ gán một dãy số bắt đầu từ 0 đến [số cột - 1] làm tên cột. Trong tệp dữ liệu này, chúng tôi có tên cột ở hàng đầu tiên.

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

5Xem đầu ra hiển thị bên dưới-

đầu ra

Thêm tiền tố vào tên cột

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

6Trong trường hợp này, chúng tôi đang đặt

os.chdir["C:\\Users\\DELL\\Documents\\"]

1 làm tiền tố cho python bao gồm từ khóa này trước mỗi tên cột.

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

Ví dụ 5. Chỉ định các giá trị còn thiếu

Các tùy chọn

os.chdir["C:\\Users\\DELL\\Documents\\"]

2 được sử dụng để đặt một số giá trị là giá trị trống/thiếu trong khi nhập tệp CSV.

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]

Ví dụ 6. Đặt cột chỉ mục

mydata = pd.read_csv["workingfile.csv", header = 1]

mydata = pd.read_csv["workingfile.csv", header = 1]

61Như bạn có thể thấy trong kết quả ở trên, cột ID đã được đặt làm cột chỉ mục

Ví dụ 7. Đọc tệp CSV từ URL bên ngoài

Bạn có thể đọc trực tiếp dữ liệu từ tệp CSV được lưu trữ trên liên kết web. Nó rất tiện lợi khi bạn cần tải các bộ dữ liệu có sẵn công khai từ github, kaggle và các trang web khác.

mydata = pd.read_csv["workingfile.csv", header = 1]

62Khung dữ liệu này chứa 2311 hàng và 8 cột. Sử dụng

os.chdir["C:\\Users\\DELL\\Documents\\"]

3, bạn có thể tạo bản tóm tắt này

Ví dụ 8. Bỏ qua 5 hàng cuối cùng khi nhập CSV

mydata = pd.read_csv["workingfile.csv", header = 1]

63Trong đoạn mã trên, chúng tôi đang loại trừ 5 hàng dưới cùng bằng cách sử dụng tham số skip_footer=

Ví dụ 9. Chỉ đọc 5 hàng đầu tiên

mydata = pd.read_csv["workingfile.csv", header = 1]

64Sử dụng tùy chọn nrows=, bạn có thể tải K số hàng trên cùng

Ví dụ 10. Diễn giải "," thành dấu phân cách hàng nghìn

mydata = pd.read_csv["workingfile.csv", header = 1]

Ví dụ 11. Chỉ đọc các cột cụ thể

mydata = pd.read_csv["workingfile.csv", header = 1]

66 Đoạn mã trên chỉ đọc các cột dựa trên vị trí chỉ mục là vị trí thứ hai, thứ sáu và thứ tám

Ví dụ 12. Đọc một số hàng và cột

mydata = pd.read_csv["workingfile.csv", header = 1]

67Trong lệnh trên, chúng ta đã kết hợp các tùy chọn usecols= và nrows=. Nó sẽ chỉ chọn 5 hàng đầu tiên và các cột được chọn

Ví dụ 13. Đọc tệp với dấu phân cách dấu chấm phẩy

mydata = pd.read_csv["workingfile.csv", header = 1]

68Sử dụng tham số sep= trong hàm read_csv[ ], bạn có thể nhập tệp bằng bất kỳ dấu phân cách nào ngoài dấu phẩy mặc định. Trong trường hợp này, chúng tôi đang sử dụng dấu chấm phẩy làm dấu phân cách

Ví dụ 14. Thay đổi loại cột trong khi nhập CSV

Giả sử bạn muốn thay đổi định dạng cột từ int64 thành float64 trong khi tải tệp CSV vào Python. Chúng ta có thể sử dụng tùy chọn dtype = cho cùng.

mydata = pd.read_csv["workingfile.csv", header = 1]

Ví dụ 15. Đo thời gian cần thiết để nhập tệp CSV lớn

Với việc sử dụng

os.chdir["C:\\Users\\DELL\\Documents\\"]

4, bạn có thể nắm bắt thời gian dành cho việc dọn dẹp bộ nhớ Mã thông báo, chuyển đổi và Trình phân tích cú pháp.

import os
os.getcwd[]

Ví dụ 16. Cách đọc tệp CSV mà không cần sử dụng gói Pandas

Để nhập tệp CSV bằng cách thuần python, bạn có thể gửi lệnh sau.

import os
os.getcwd[]

1Bạn cũng có thể tải xuống và tải tệp CSV từ URL hoặc trang web bên ngoài.

import os
os.getcwd[]

Ghi chú cuối

Sau khi hoàn thành hướng dẫn này, tôi hy vọng bạn đã tự tin hơn khi nhập tệp CSV vào Python với các cách dọn dẹp và quản lý tệp. Bạn cũng có thể xem hướng dẫn này giải thích cách nhập tệp có định dạng khác vào Python. Sau khi hoàn tất, bạn nên tìm hiểu cách thực hiện các tác vụ sắp xếp hoặc thao tác dữ liệu phổ biến như lọc, chọn và đổi tên cột, xác định và xóa các mục trùng lặp, v.v. trên pandas dataframe

Học Python. 50 hướng dẫn Python hàng đầu

Truyền bá.
Chia sẻ Chia sẻ Tweet Đăng ký

Làm cách nào để đọc tệp CSV có tiêu đề?

Đọc csv có tiêu đề . Mặc định là tiêu đề = 0 và nếu dòng đầu tiên là tiêu đề, kết quả là kết quả tương tự. Dữ liệu được đọc từ dòng được chỉ định bởi tiêu đề và các dòng trên được bỏ qua. Specify the line number of the header as 0, such as header= 0. The default is header= 0, and if the first line is header, the result is the same result. Data is read from the line specified by header, and the above lines are ignored.

Làm cách nào để kiểm tra xem CSV có tiêu đề Python không?

has_header = csv. Người đánh hơi[]. has_header[csv_test_bytes] # Kiểm tra xem có tiêu đề trong tệp không.

Làm thế nào bạn sẽ tải một. Tệp CSV bằng Python?

Các bước để nhập tệp CSV vào Python bằng Pandas .

Bước 1. Nắm bắt đường dẫn tệp. Đầu tiên, nắm bắt đường dẫn đầy đủ nơi tệp CSV của bạn được lưu trữ. .

Bước 2. Áp dụng mã Python. .

Bước 3. Chạy mã. .

Bước tùy chọn. Chọn tập hợp con của các cột