Python csv tìm giá trị trong cột

Xem các loại dữ liệu cột chúng tôi đã nhập. first_name và company là các biến ký tự. Các biến còn lại là biến số

ID             int64
first_name    object
company       object
salary         int64

ví dụ 2. Đọc tệp CSV có tiêu đề ở hàng thứ hai

Giả sử bạn có tên cột hoặc tên biến ở hàng thứ hai. Để đọc loại tệp CSV này, bạn có thể gửi lệnh sau.
mydata = pd.read_csv("workingfile.csv", header = 1)
import os
os.getcwd()
9 yêu cầu python chọn tiêu đề từ hàng thứ hai. Nó đang đặt hàng thứ hai làm tiêu đề. Nó không phải là một ví dụ thực tế. Mình chỉ minh hoạ để các bạn hình dung cách giải. Để thực tế, bạn có thể thêm các giá trị ngẫu nhiên vào hàng đầu tiên trong tệp CSV rồi nhập lại.
dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
0

Xác định tên cột của riêng bạn thay vì hàng tiêu đề từ tệp CSV

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
1skiprows = 1 có nghĩa là chúng tôi đang bỏ qua hàng đầu tiên và tùy chọn names= được sử dụng để gán tên biến theo cách thủ công.
dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
2

ví dụ 3. Bỏ qua hàng nhưng giữ tiêu đề

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
3Trong trường hợp này, chúng tôi đang bỏ qua hàng thứ hai và thứ ba trong khi nhập. Đừng quên chỉ mục bắt đầu từ 0 trong python, vì vậy 0 đề cập đến hàng đầu tiên và 1 đề cập đến hàng thứ hai và 2 ngụ ý hàng thứ ba.
dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
4

Thay vì [1,2] bạn cũng có thể viết

os.chdir("C:\\Users\\DELL\\Documents\\")
0. Cả hai đều có nghĩa giống nhau nhưng hàm range() rất hữu ích khi bạn muốn bỏ qua nhiều hàng để tiết kiệm thời gian xác định vị trí hàng theo cách thủ công

Bí mật ẩn của tùy chọn bỏ qua

Khi bỏ qua = 4, có nghĩa là bỏ qua bốn hàng từ trên xuống. bỏ qua = [1,2,3,4] có nghĩa là bỏ qua các hàng từ thứ hai đến thứ năm. Đó là bởi vì khi danh sách được chỉ định trong tùy chọn bỏ qua =, nó sẽ bỏ qua các hàng ở vị trí chỉ mục. Khi một giá trị số nguyên duy nhất được chỉ định trong tùy chọn, nó sẽ xem xét bỏ qua các hàng đó từ trên cùng

Ví dụ 4. Đọc tệp CSV không có hàng tiêu đề

Nếu bạn chỉ định "header = None", python sẽ gán một dãy số bắt đầu từ 0 đến (số cột - 1) làm tên cột. Trong tệp dữ liệu này, chúng tôi có tên cột ở hàng đầu tiên.
dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
5Xem đầu ra hiển thị bên dưới-
Python csv tìm giá trị trong cột
đầu ra

Thêm tiền tố vào tên cột

dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
6Trong trường hợp này, chúng tôi đang đặt
os.chdir("C:\\Users\\DELL\\Documents\\")
1 làm tiền tố cho python bao gồm từ khóa này trước mỗi tên cột.
dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
7

Ví dụ 5. Chỉ định các giá trị còn thiếu

Các tùy chọn
os.chdir("C:\\Users\\DELL\\Documents\\")
2 được sử dụng để đặt một số giá trị là giá trị trống/thiếu trong khi nhập tệp CSV.
dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
8
dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydt = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
9

Ví dụ 6. Đặt cột chỉ mục

  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
0
  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
1Như bạn có thể thấy trong kết quả ở trên, ID cột đã được đặt làm cột chỉ mục

Ví dụ 7. Đọc tệp CSV từ URL bên ngoài

Bạn có thể đọc trực tiếp dữ liệu từ tệp CSV được lưu trữ trên liên kết web. Nó rất tiện lợi khi bạn cần tải các bộ dữ liệu có sẵn công khai từ github, kaggle và các trang web khác.
  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
2Khung dữ liệu này chứa 2311 hàng và 8 cột. Sử dụng
os.chdir("C:\\Users\\DELL\\Documents\\")
3, bạn có thể tạo bản tóm tắt này

Ví dụ 8. Bỏ qua 5 hàng cuối cùng khi nhập CSV

  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
3Trong đoạn mã trên, chúng tôi đang loại trừ 5 hàng dưới cùng bằng cách sử dụng tham số skip_footer=

Ví dụ 9. Chỉ đọc 5 hàng đầu tiên

  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
4Sử dụng tùy chọn nrows=, bạn có thể tải K số hàng trên cùng

Ví dụ 10. Diễn giải "," thành dấu phân cách hàng nghìn

  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
5

Ví dụ 11. Chỉ đọc các cột cụ thể

  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
6 Đoạn mã trên chỉ đọc các cột dựa trên các vị trí chỉ mục là vị trí thứ hai, thứ sáu và thứ tám

Ví dụ 12. Đọc một số hàng và cột

  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
7Trong lệnh trên, chúng ta đã kết hợp các tùy chọn usecols= và nrows=. Nó sẽ chỉ chọn 5 hàng đầu tiên và các cột được chọn

Ví dụ 13. Đọc tệp với dấu phân cách dấu chấm phẩy

  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
8Sử dụng tham số sep= trong hàm read_csv( ), bạn có thể nhập tệp bằng bất kỳ dấu phân cách nào ngoài dấu phẩy mặc định. Trong trường hợp này, chúng tôi đang sử dụng dấu chấm phẩy làm dấu phân cách

Ví dụ 14. Thay đổi loại cột trong khi nhập CSV

Giả sử bạn muốn thay đổi định dạng cột từ int64 thành float64 trong khi tải tệp CSV vào Python. Chúng ta có thể sử dụng tùy chọn dtype = cho cùng.
  ID first_name company  salary
0  11      David     Aon      74
1  12      Jamie     TCS      76
2  13      Steve  Google      96
3  14    Stevart     RBS      71
4  15       John       .      78
9

Ví dụ 15. Đo thời gian cần thiết để nhập tệp CSV lớn

Với việc sử dụng
os.chdir("C:\\Users\\DELL\\Documents\\")
4, bạn có thể nắm bắt thời gian dành cho việc dọn dẹp bộ nhớ Mã thông báo, chuyển đổi và Trình phân tích cú pháp.
import os
os.getcwd()
0

Ví dụ 16. Cách đọc tệp CSV mà không cần sử dụng gói Pandas

Để nhập tệp CSV bằng cách thuần python, bạn có thể gửi lệnh sau.
import os
os.getcwd()
1Bạn cũng có thể tải xuống và tải tệp CSV từ URL hoặc trang web bên ngoài.
import os
os.getcwd()
2

Ghi chú cuối

Sau khi hoàn thành hướng dẫn này, tôi hy vọng bạn đã tự tin hơn khi nhập tệp CSV vào Python với các cách dọn dẹp và quản lý tệp. Bạn cũng có thể xem hướng dẫn này giải thích cách nhập tệp có định dạng khác vào Python. Sau khi hoàn tất, bạn nên tìm hiểu cách thực hiện các tác vụ sắp xếp hoặc thao tác dữ liệu phổ biến như lọc, chọn và đổi tên cột, xác định và xóa các mục trùng lặp, v.v. trên pandas dataframe

Python csv tìm giá trị trong cột

Học Python. 50 hướng dẫn Python hàng đầu

Thông báo
Chia sẻ Chia sẻ Tweet Đăng ký

bài viết liên quan

về tác giả

Python csv tìm giá trị trong cột

Deepanshu thành lập ListenData với một mục tiêu đơn giản - Làm cho các phân tích trở nên dễ hiểu và dễ theo dõi. Ông có hơn 10 năm kinh nghiệm trong lĩnh vực khoa học dữ liệu. Trong nhiệm kỳ của mình, ông đã làm việc với các khách hàng toàn cầu trong nhiều lĩnh vực khác nhau như Ngân hàng, Bảo hiểm, Cổ phần tư nhân, Viễn thông và Nhân sự