Xem các loại dữ liệu cột chúng tôi đã nhập. first_name và company là các biến ký tự. Các biến còn lại là biến số
ID int64 first_name object company object salary int64
ví dụ 2. Đọc tệp CSV có tiêu đề ở hàng thứ hai
Giả sử bạn có tên cột hoặc tên biến ở hàng thứ hai. Để đọc loại tệp CSV này, bạn có thể gửi lệnh sau.mydata = pd.read_csv["workingfile.csv", header = 1]
import os os.getcwd[]9 yêu cầu python chọn tiêu đề từ hàng thứ hai. Nó đang đặt hàng thứ hai làm tiêu đề. Nó không phải là một ví dụ thực tế. Mình chỉ minh hoạ để các bạn hình dung cách giải. Để thực tế, bạn có thể thêm các giá trị ngẫu nhiên vào hàng đầu tiên trong tệp CSV rồi nhập lại.
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]0
Xác định tên cột của riêng bạn thay vì hàng tiêu đề từ tệp CSV
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]1skiprows = 1 có nghĩa là chúng tôi đang bỏ qua hàng đầu tiên và tùy chọn names= được sử dụng để gán tên biến theo cách thủ công.
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]2
ví dụ 3. Bỏ qua hàng nhưng giữ tiêu đề
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]3Trong trường hợp này, chúng tôi đang bỏ qua hàng thứ hai và thứ ba trong khi nhập. Đừng quên chỉ mục bắt đầu từ 0 trong python, vì vậy 0 đề cập đến hàng đầu tiên và 1 đề cập đến hàng thứ hai và 2 ngụ ý hàng thứ ba.
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]4
Thay vì [1,2] bạn cũng có thể viết
os.chdir["C:\\Users\\DELL\\Documents\\"]0. Cả hai đều có nghĩa giống nhau nhưng hàm range[] rất hữu ích khi bạn muốn bỏ qua nhiều hàng để tiết kiệm thời gian xác định vị trí hàng theo cách thủ công
Bí mật ẩn của tùy chọn bỏ qua
Khi bỏ qua = 4, có nghĩa là bỏ qua bốn hàng từ trên xuống. bỏ qua = [1,2,3,4] có nghĩa là bỏ qua các hàng từ thứ hai đến thứ năm. Đó là bởi vì khi danh sách được chỉ định trong tùy chọn bỏ qua =, nó sẽ bỏ qua các hàng ở vị trí chỉ mục. Khi một giá trị số nguyên duy nhất được chỉ định trong tùy chọn, nó sẽ xem xét bỏ qua các hàng đó từ trên cùng
Ví dụ 4. Đọc tệp CSV không có hàng tiêu đề
Nếu bạn chỉ định "header = None", python sẽ gán một dãy số bắt đầu từ 0 đến [số cột - 1] làm tên cột. Trong tệp dữ liệu này, chúng tôi có tên cột ở hàng đầu tiên.dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]5Xem đầu ra hiển thị bên dưới-
Thêm tiền tố vào tên cột
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]6Trong trường hợp này, chúng tôi đang đặt
os.chdir["C:\\Users\\DELL\\Documents\\"]1 làm tiền tố cho python bao gồm từ khóa này trước mỗi tên cột.
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]7
Ví dụ 5. Chỉ định các giá trị còn thiếu
Các tùy chọnos.chdir["C:\\Users\\DELL\\Documents\\"]2 được sử dụng để đặt một số giá trị là giá trị trống/thiếu trong khi nhập tệp CSV.
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]8
dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame[dt, columns = ['ID', 'first_name', 'company', 'salary']]9
Ví dụ 6. Đặt cột chỉ mục
mydata = pd.read_csv["workingfile.csv", header = 1]60
mydata = pd.read_csv["workingfile.csv", header = 1]61Như bạn có thể thấy trong kết quả ở trên, cột ID đã được đặt làm cột chỉ mục
Ví dụ 7. Đọc tệp CSV từ URL bên ngoài
Bạn có thể đọc trực tiếp dữ liệu từ tệp CSV được lưu trữ trên liên kết web. Nó rất tiện lợi khi bạn cần tải các bộ dữ liệu có sẵn công khai từ github, kaggle và các trang web khác.mydata = pd.read_csv["workingfile.csv", header = 1]62Khung dữ liệu này chứa 2311 hàng và 8 cột. Sử dụng
os.chdir["C:\\Users\\DELL\\Documents\\"]3, bạn có thể tạo bản tóm tắt này
Ví dụ 8. Bỏ qua 5 hàng cuối cùng khi nhập CSV
mydata = pd.read_csv["workingfile.csv", header = 1]63Trong đoạn mã trên, chúng tôi đang loại trừ 5 hàng dưới cùng bằng cách sử dụng tham số skip_footer=
Ví dụ 9. Chỉ đọc 5 hàng đầu tiên
mydata = pd.read_csv["workingfile.csv", header = 1]64Sử dụng tùy chọn nrows=, bạn có thể tải K số hàng trên cùng
Ví dụ 10. Diễn giải "," thành dấu phân cách hàng nghìn
mydata = pd.read_csv["workingfile.csv", header = 1]65
Ví dụ 11. Chỉ đọc các cột cụ thể
mydata = pd.read_csv["workingfile.csv", header = 1]66 Đoạn mã trên chỉ đọc các cột dựa trên vị trí chỉ mục là vị trí thứ hai, thứ sáu và thứ tám
Ví dụ 12. Đọc một số hàng và cột
mydata = pd.read_csv["workingfile.csv", header = 1]67Trong lệnh trên, chúng ta đã kết hợp các tùy chọn usecols= và nrows=. Nó sẽ chỉ chọn 5 hàng đầu tiên và các cột được chọn
Ví dụ 13. Đọc tệp với dấu phân cách dấu chấm phẩy
mydata = pd.read_csv["workingfile.csv", header = 1]68Sử dụng tham số sep= trong hàm read_csv[ ], bạn có thể nhập tệp bằng bất kỳ dấu phân cách nào ngoài dấu phẩy mặc định. Trong trường hợp này, chúng tôi đang sử dụng dấu chấm phẩy làm dấu phân cách
Ví dụ 14. Thay đổi loại cột trong khi nhập CSV
Giả sử bạn muốn thay đổi định dạng cột từ int64 thành float64 trong khi tải tệp CSV vào Python. Chúng ta có thể sử dụng tùy chọn dtype = cho cùng.mydata = pd.read_csv["workingfile.csv", header = 1]69
Ví dụ 15. Đo thời gian cần thiết để nhập tệp CSV lớn
Với việc sử dụngos.chdir["C:\\Users\\DELL\\Documents\\"]4, bạn có thể nắm bắt thời gian dành cho việc dọn dẹp bộ nhớ Mã thông báo, chuyển đổi và Trình phân tích cú pháp.
import os os.getcwd[]0
Ví dụ 16. Cách đọc tệp CSV mà không cần sử dụng gói Pandas
Để nhập tệp CSV bằng cách thuần python, bạn có thể gửi lệnh sau.import os os.getcwd[]1Bạn cũng có thể tải xuống và tải tệp CSV từ URL hoặc trang web bên ngoài.
import os os.getcwd[]2
Ghi chú cuối
Sau khi hoàn thành hướng dẫn này, tôi hy vọng bạn đã tự tin hơn khi nhập tệp CSV vào Python với các cách dọn dẹp và quản lý tệp. Bạn cũng có thể xem hướng dẫn này giải thích cách nhập tệp có định dạng khác vào Python. Sau khi hoàn tất, bạn nên tìm hiểu cách thực hiện các tác vụ sắp xếp hoặc thao tác dữ liệu phổ biến như lọc, chọn và đổi tên cột, xác định và xóa các mục trùng lặp, v.v. trên pandas dataframeHọc Python. 50 hướng dẫn Python hàng đầu
Truyền bá.
Chia sẻ Chia sẻ Tweet Đăng ký
bài viết liên quan
Giới thiệu tác giả.
Deepanshu thành lập ListenData với mục tiêu đơn giản - Làm cho phân tích trở nên dễ hiểu và dễ theo dõi. Ông có hơn 10 năm kinh nghiệm trong lĩnh vực khoa học dữ liệu. Trong nhiệm kỳ của mình, ông đã làm việc với các khách hàng toàn cầu trong nhiều lĩnh vực khác nhau như Ngân hàng, Bảo hiểm, Cổ phần tư nhân, Viễn thông và Nhân sự.