Làm cách nào để bạn ghi một khung dữ liệu vào tệp csv trong python?
Sau khi làm việc trên tập dữ liệu và thực hiện tất cả quá trình tiền xử lý, chúng tôi cần lưu dữ liệu đã được xử lý trước vào một số định dạng như trong csv, excel hoặc các định dạng khác Show Mã nguồn python này thực hiện như sau. Vì vậy, đây là công thức về cách chúng tôi có thể lưu Pandas DataFrame dưới dạng tệp CSV Bước 1 - Nhập thư viện 8Chúng tôi chỉ nhập gấu trúc cần thiết Bước 2 - Thiết lập dữ liệuChúng tôi đã tạo một từ điển dữ liệu và chuyển nó vào pd. DataFrame để tạo khung dữ liệu với các cột 'first_name', 'last_name', 'age', 'Comedy_Score' và 'Rating_Score'. 9Bước 3 - Lưu DataFrameVì vậy, bây giờ chúng ta phải lưu tập dữ liệu mà chúng ta đã tạo. Chúng tôi lưu nó ở nhiều định dạng, ở đây chúng tôi đang thực hiện nó trong csv và excel bằng cách sử dụng hàm to_csv và to_excel tương ứng. 0 Vì vậy, đầu ra là hai tệp đã lưu, một ở định dạng csv và một ở định dạng excel Mặc dù bạn có thể đọc và ghi các tệp CSV bằng Python bằng cách sử dụng hàm 1 tích hợp sẵn hoặc mô-đun csv chuyên dụng - bạn cũng có thể sử dụng PandasTrong bài viết này, bạn sẽ thấy cách sử dụng thư viện Pandas của Python để đọc và ghi tệp CSV Tệp CSV là gì?Hãy nhanh chóng tóm tắt lại tệp CSV là gì - không gì khác hơn là một tệp văn bản đơn giản, tuân theo một số quy ước định dạng. Tuy nhiên, đây là phương pháp phổ biến nhất, đơn giản và dễ dàng nhất để lưu trữ dữ liệu dạng bảng. Định dạng này sắp xếp các bảng theo một cấu trúc cụ thể được chia thành các hàng và cột. Chính những hàng và cột này chứa dữ liệu của bạn Một dòng mới kết thúc mỗi hàng để bắt đầu hàng tiếp theo. Tương tự, dấu phân cách, thường là dấu phẩy, phân tách các cột trong mỗi hàng Ví dụ: chúng ta có thể có một bảng trông như thế này
Nếu chúng tôi chuyển đổi nó sang định dạng CSV, nó sẽ trông như thế này
Mặc dù tên (Giá trị được phân tách bằng dấu phẩy) vốn đã sử dụng dấu phẩy làm dấu phân cách, nhưng bạn cũng có thể sử dụng các dấu phân cách (dấu phân cách) khác, chẳng hạn như dấu chấm phẩy ( 2). Mỗi hàng của bảng là một dòng mới của tệp CSV và đó là một cách rất ngắn gọn và súc tích để biểu thị dữ liệu dạng bảngBây giờ, hãy xem hàm 3Đọc và ghi tệp CSV bằng PandasPandas là một khung rất mạnh mẽ và phổ biến để phân tích và thao tác dữ liệu. Một trong những tính năng nổi bật nhất của Pandas là khả năng đọc và ghi nhiều loại tệp khác nhau bao gồm CSV và Excel. Bạn có thể thao tác các tệp CSV một cách hiệu quả và dễ dàng trong Pandas bằng các chức năng như 3 và 5Cài đặt gấu trúcChúng tôi phải cài đặt Pandas trước khi sử dụng nó. Hãy sử dụng 6________số 8Đọc tệp CSV bằng read_csv()Hãy nhập Bộ dữ liệu Titanic, có thể lấy trên GitHub
Theo lẽ tự nhiên, gấu trúc sẽ tìm kiếm tệp này trong thư mục của tập lệnh và chúng tôi chỉ cung cấp đường dẫn tệp cho tệp mà chúng tôi muốn phân tích dưới dạng đối số bắt buộc duy nhất của phương pháp này Hãy xem 7 của tập dữ liệu này để đảm bảo rằng nó được nhập chính xác 1Kết quả này trong 2Ngoài ra, bạn cũng có thể đọc các tệp CSV từ các tài nguyên trực tuyến, chẳng hạn như GitHub, chỉ bằng cách chuyển URL của tài nguyên tới hàm 3. Trước tiên, hãy đọc tệp CSV này từ kho lưu trữ GitHub mà không cần tải tệp xuống máy cục bộ của chúng tôi 4Điều này cũng dẫn đến 5Theo mặc định, phương pháp 3 sử dụng hàng đầu tiên của tệp CSV làm tiêu đề cột. Đôi khi, những tiêu đề này có thể có tên lạ và bạn có thể muốn sử dụng tiêu đề của riêng mình. Bạn có thể đặt tiêu đề sau khi đọc tệp, chỉ bằng cách gán trường 10 của phiên bản 11 vào một danh sách khác hoặc bạn có thể đặt tiêu đề trong khi đọc CSV ngay từ đầuHãy xác định danh sách tên cột và sử dụng các tên đó thay vì tên từ tệp CSV 9Hãy chạy mã này 0Hmm, bây giờ chúng tôi đã có các tiêu đề tùy chỉnh của mình, nhưng hàng đầu tiên của tệp CSV, ban đầu được sử dụng để đặt tên cột cũng được bao gồm trong 11. Chúng tôi sẽ muốn bỏ qua dòng này, vì nó không còn giữ bất kỳ giá trị nào đối với chúng tôi nữaBỏ qua hàng khi đọc CSVHãy giải quyết vấn đề này bằng cách sử dụng đối số 13 0Bây giờ, hãy chạy mã này 1Hoạt động như một nét duyên dáng. Đối số 13 chấp nhận danh sách các hàng bạn muốn bỏ qua. Bạn có thể bỏ qua, ví dụ, 15 nếu bạn cũng muốn 2Điều này sẽ dẫn đến một 11 không có một số hàng mà chúng ta đã thấy trước đây 3Hãy xem hướng dẫn thực hành, thực tế của chúng tôi để học Git, với các phương pháp hay nhất, tiêu chuẩn được ngành chấp nhận và bao gồm bảng gian lận. Dừng các lệnh Git trên Google và thực sự tìm hiểu nó Hãy nhớ rằng việc bỏ qua các hàng xảy ra trước khi 11 được hình thành đầy đủ, vì vậy bạn sẽ không thiếu bất kỳ chỉ mục nào của chính 11, tuy nhiên, trong trường hợp này, bạn có thể thấy rằng trường 19 (được nhập từ tệp CSV) bị thiếu Bạn cũng có thể quyết định loại bỏ hoàn toàn tiêu đề, điều này sẽ dẫn đến một 11 chỉ có các cột tiêu đề 23, bằng cách đặt đối số 24 thành 25 4Bạn cũng sẽ muốn bỏ qua hàng đầu tiên ở đây, vì nếu không, các giá trị từ hàng đầu tiên sẽ thực sự được đưa vào hàng đầu tiên 5Chỉ định dấu phân cáchNhư đã nêu trước đó, cuối cùng bạn có thể gặp một tệp CSV không thực sự sử dụng dấu phẩy để phân tách dữ liệu. Trong những trường hợp như vậy, bạn có thể sử dụng đối số 26 để chỉ định các dấu phân cách khác 6Viết tệp CSV bằng to_csv()Một lần nữa, 11 là dạng bảng. Biến một 11 thành một tệp CSV cũng đơn giản như chuyển một tệp CSV thành một 11 - chúng tôi gọi hàm 40 trên phiên bản 11Khi ghi 11 vào tệp CSV, bạn cũng có thể thay đổi tên cột, sử dụng đối số ________ 110 hoặc chỉ định dấu phân cách thông qua đối số ________ 126. Nếu bạn không chỉ định một trong hai điều này, thì bạn sẽ nhận được tệp Giá trị được phân tách bằng dấu phẩy chuẩnHãy chơi xung quanh với điều này 7Ở đây, chúng tôi đã tạo một 11 đơn giản với hai thành phố và tiểu bang tương ứng của chúng. Sau đó, chúng tôi đã tiếp tục và lưu dữ liệu đó vào tệp CSV bằng cách sử dụng 5 và cung cấp tên tệpĐiều này dẫn đến một tệp mới trong thư mục làm việc của tập lệnh bạn đang chạy, chứa 8Mặc dù, điều này không thực sự được định dạng tốt. Chúng tôi vẫn có các chỉ mục từ 11, điều này cũng đặt một vị trí bị thiếu kỳ lạ trước tên cột. Nếu chúng tôi nhập lại CSV này vào một 11, nó sẽ trở thành một mớ hỗn độn 9Kết quả này trong 0Các chỉ số từ 11 cuối cùng đã trở thành một cột mới, bây giờ là 50Khi lưu tệp, hãy đảm bảo bỏ chỉ mục của 11 1Bây giờ, điều này dẫn đến một tệp có chứa 2Hoạt động như một nét duyên dáng. Nếu chúng tôi nhập lại và in nội dung, thì 11 được xây dựng tốt 9Kết quả này trong 4Hãy thay đổi tiêu đề cột từ tiêu đề mặc định 5Chúng tôi đã tạo một danh sách 53, chứa các giá trị khác nhau cho các cột của chúng tôi. Sau đó, sử dụng đối số 24, chúng tôi đã đặt những tên này thay vì tên cột ban đầu. Điều này tạo ra một 55 với những nội dung này 6Tùy chỉnh dấu phân cáchHãy thay đổi dấu phân cách từ giá trị mặc định ( 56) sang giá trị mới 7Điều này dẫn đến một tệp 55 có chứa 8Xử lý các giá trị bị thiếuĐôi khi, các 11 có các giá trị bị thiếu mà chúng tôi để lại là 59 hoặc 90. Trong những trường hợp như vậy, bạn có thể muốn định dạng chúng khi viết chúng ra tệp CSV. Bạn có thể sử dụng đối số 91 và đặt giá trị được đặt thay vì giá trị bị thiếu 9Ở đây, chúng ta có hai cặp thành phố-bang hợp lệ, nhưng 92 thiếu trạng thái của nó. Nếu chúng tôi chạy mã này, nó sẽ dẫn đến một 55 với các nội dung sau 0Phần kết luậnBài viết hướng dẫn cách đọc và ghi file CSV bằng thư viện Pandas của Python. Để đọc tệp CSV, phương pháp 3 của thư viện Pandas được sử dụng. Bạn cũng có thể chuyển tên tiêu đề tùy chỉnh trong khi đọc tệp CSV thông qua thuộc tính 95 của phương thức 3. Cuối cùng, để ghi tệp CSV bằng Pandas, trước tiên bạn phải tạo một đối tượng Pandas DataFrame và sau đó gọi phương thức 97 trên DataFrame
Làm cách nào để xuất Pandas DataFrame sang CSV?Để ghi DataFrame gấu trúc vào tệp CSV, bạn sẽ cần DataFrame. to_csv . Hàm này cung cấp nhiều đối số với các giá trị mặc định hợp lý mà bạn sẽ không cần phải ghi đè thường xuyên hơn để phù hợp với trường hợp sử dụng cụ thể của mình.
Làm cách nào chúng tôi có thể tạo tệp CSV bằng DataFrame?Ghi Khung dữ liệu Pandas vào tệp CSV . Tạo dữ liệu dạng bảng hai chiều, có thể thay đổi kích thước, có khả năng không đồng nhất, df In DataFrame đầu vào sử dụng df. to_csv để lưu các giá trị của DataFrame vào tệp CSV (các giá trị được phân tách bằng dấu phẩy) |