Python csv tìm giá trị trong cột
Xem các loại dữ liệu cột chúng tôi đã nhập. first_name và company là các biến ký tự. Các biến còn lại là biến số Show
ID int64 first_name object company object salary int64 ví dụ 2. Đọc tệp CSV có tiêu đề ở hàng thứ haiGiả sử bạn có tên cột hoặc tên biến ở hàng thứ hai. Để đọc loại tệp CSV này, bạn có thể gửi lệnh sau.mydata = pd.read_csv("workingfile.csv", header = 1) import os os.getcwd()9 yêu cầu python chọn tiêu đề từ hàng thứ hai. Nó đang đặt hàng thứ hai làm tiêu đề. Nó không phải là một ví dụ thực tế. Mình chỉ minh hoạ để các bạn hình dung cách giải. Để thực tế, bạn có thể thêm các giá trị ngẫu nhiên vào hàng đầu tiên trong tệp CSV rồi nhập lại. dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])0 Xác định tên cột của riêng bạn thay vì hàng tiêu đề từ tệp CSV dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])1skiprows = 1 có nghĩa là chúng tôi đang bỏ qua hàng đầu tiên và tùy chọn names= được sử dụng để gán tên biến theo cách thủ công. dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])2 ví dụ 3. Bỏ qua hàng nhưng giữ tiêu đềdt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])3Trong trường hợp này, chúng tôi đang bỏ qua hàng thứ hai và thứ ba trong khi nhập. Đừng quên chỉ mục bắt đầu từ 0 trong python, vì vậy 0 đề cập đến hàng đầu tiên và 1 đề cập đến hàng thứ hai và 2 ngụ ý hàng thứ ba. dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])4 Thay vì [1,2] bạn cũng có thể viết os.chdir("C:\\Users\\DELL\\Documents\\")0. Cả hai đều có nghĩa giống nhau nhưng hàm range() rất hữu ích khi bạn muốn bỏ qua nhiều hàng để tiết kiệm thời gian xác định vị trí hàng theo cách thủ công Bí mật ẩn của tùy chọn bỏ qua Khi bỏ qua = 4, có nghĩa là bỏ qua bốn hàng từ trên xuống. bỏ qua = [1,2,3,4] có nghĩa là bỏ qua các hàng từ thứ hai đến thứ năm. Đó là bởi vì khi danh sách được chỉ định trong tùy chọn bỏ qua =, nó sẽ bỏ qua các hàng ở vị trí chỉ mục. Khi một giá trị số nguyên duy nhất được chỉ định trong tùy chọn, nó sẽ xem xét bỏ qua các hàng đó từ trên cùng Ví dụ 4. Đọc tệp CSV không có hàng tiêu đềNếu bạn chỉ định "header = None", python sẽ gán một dãy số bắt đầu từ 0 đến (số cột - 1) làm tên cột. Trong tệp dữ liệu này, chúng tôi có tên cột ở hàng đầu tiên.dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])5Xem đầu ra hiển thị bên dưới- Thêm tiền tố vào tên cột dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])6Trong trường hợp này, chúng tôi đang đặt os.chdir("C:\\Users\\DELL\\Documents\\")1 làm tiền tố cho python bao gồm từ khóa này trước mỗi tên cột. dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])7 Ví dụ 5. Chỉ định các giá trị còn thiếuCác tùy chọnos.chdir("C:\\Users\\DELL\\Documents\\")2 được sử dụng để đặt một số giá trị là giá trị trống/thiếu trong khi nhập tệp CSV. dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])8 dt = {'ID': [11, 12, 13, 14, 15], 'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'], 'company': ['Aon', 'TCS', 'Google', 'RBS', '.'], 'salary': [74, 76, 96, 71, 78]} mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])9 Ví dụ 6. Đặt cột chỉ mụcID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 780 ID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 781Như bạn có thể thấy trong kết quả ở trên, ID cột đã được đặt làm cột chỉ mục Ví dụ 7. Đọc tệp CSV từ URL bên ngoàiBạn có thể đọc trực tiếp dữ liệu từ tệp CSV được lưu trữ trên liên kết web. Nó rất tiện lợi khi bạn cần tải các bộ dữ liệu có sẵn công khai từ github, kaggle và các trang web khác.ID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 782Khung dữ liệu này chứa 2311 hàng và 8 cột. Sử dụng os.chdir("C:\\Users\\DELL\\Documents\\")3, bạn có thể tạo bản tóm tắt này Ví dụ 8. Bỏ qua 5 hàng cuối cùng khi nhập CSVID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 783Trong đoạn mã trên, chúng tôi đang loại trừ 5 hàng dưới cùng bằng cách sử dụng tham số skip_footer= Ví dụ 9. Chỉ đọc 5 hàng đầu tiênID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 784Sử dụng tùy chọn nrows=, bạn có thể tải K số hàng trên cùng Ví dụ 10. Diễn giải "," thành dấu phân cách hàng nghìnID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 785 Ví dụ 11. Chỉ đọc các cột cụ thểID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 786 Đoạn mã trên chỉ đọc các cột dựa trên các vị trí chỉ mục là vị trí thứ hai, thứ sáu và thứ tám Ví dụ 12. Đọc một số hàng và cộtID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 787Trong lệnh trên, chúng ta đã kết hợp các tùy chọn usecols= và nrows=. Nó sẽ chỉ chọn 5 hàng đầu tiên và các cột được chọn Ví dụ 13. Đọc tệp với dấu phân cách dấu chấm phẩyID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 788Sử dụng tham số sep= trong hàm read_csv( ), bạn có thể nhập tệp bằng bất kỳ dấu phân cách nào ngoài dấu phẩy mặc định. Trong trường hợp này, chúng tôi đang sử dụng dấu chấm phẩy làm dấu phân cách Ví dụ 14. Thay đổi loại cột trong khi nhập CSVGiả sử bạn muốn thay đổi định dạng cột từ int64 thành float64 trong khi tải tệp CSV vào Python. Chúng ta có thể sử dụng tùy chọn dtype = cho cùng.ID first_name company salary 0 11 David Aon 74 1 12 Jamie TCS 76 2 13 Steve Google 96 3 14 Stevart RBS 71 4 15 John . 789 Ví dụ 15. Đo thời gian cần thiết để nhập tệp CSV lớnVới việc sử dụngos.chdir("C:\\Users\\DELL\\Documents\\")4, bạn có thể nắm bắt thời gian dành cho việc dọn dẹp bộ nhớ Mã thông báo, chuyển đổi và Trình phân tích cú pháp. import os os.getcwd()0 Ví dụ 16. Cách đọc tệp CSV mà không cần sử dụng gói PandasĐể nhập tệp CSV bằng cách thuần python, bạn có thể gửi lệnh sau.import os os.getcwd()1Bạn cũng có thể tải xuống và tải tệp CSV từ URL hoặc trang web bên ngoài. import os os.getcwd()2 Ghi chú cuối Sau khi hoàn thành hướng dẫn này, tôi hy vọng bạn đã tự tin hơn khi nhập tệp CSV vào Python với các cách dọn dẹp và quản lý tệp. Bạn cũng có thể xem hướng dẫn này giải thích cách nhập tệp có định dạng khác vào Python. Sau khi hoàn tất, bạn nên tìm hiểu cách thực hiện các tác vụ sắp xếp hoặc thao tác dữ liệu phổ biến như lọc, chọn và đổi tên cột, xác định và xóa các mục trùng lặp, v.v. trên pandas dataframeHọc Python. 50 hướng dẫn Python hàng đầu Thông báo bài viết liên quan về tác giả Deepanshu thành lập ListenData với một mục tiêu đơn giản - Làm cho các phân tích trở nên dễ hiểu và dễ theo dõi. Ông có hơn 10 năm kinh nghiệm trong lĩnh vực khoa học dữ liệu. Trong nhiệm kỳ của mình, ông đã làm việc với các khách hàng toàn cầu trong nhiều lĩnh vực khác nhau như Ngân hàng, Bảo hiểm, Cổ phần tư nhân, Viễn thông và Nhân sự |