Hướng dẫn check encoding type python - kiểm tra loại mã hóa python
Nếu bạn không hài lòng với các công cụ tự động, bạn có thể thử tất cả các codec và xem codec nào đúng theo cách thủ công. Show
Nội phân chính
Kịch bản này tạo ra ít nhất 9409 dòng đầu ra. Vì vậy, nếu đầu ra không thể phù hợp với màn hình đầu cuối, hãy cố gắng ghi đầu ra vào tệp văn bản. Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem cùng với hướng dẫn bằng văn bản để hiểu sâu hơn về sự hiểu biết của bạn: Đọc và ghi các tập tin bằng Python This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Reading and Writing Files in Python Một trong những nhiệm vụ phổ biến nhất mà bạn có thể làm với Python là đọc và viết tệp. Cho dù nó viết vào một tệp văn bản đơn giản, đọc nhật ký máy chủ phức tạp hoặc thậm chí phân tích dữ liệu byte thô, tất cả các tình huống này đều yêu cầu đọc hoặc viết một tệp. Trong hướng dẫn này, bạn sẽ học:
Hướng dẫn này chủ yếu dành cho người mới bắt đầu đến trung gian Pythonistas, nhưng có một số lời khuyên ở đây mà các lập trình viên tiên tiến hơn cũng có thể đánh giá cao. Tệp là gì?Trước khi chúng ta có thể đi vào cách làm việc với các tệp trong Python, điều quan trọng là phải hiểu chính xác một tệp là gì và cách các hệ điều hành hiện đại xử lý một số khía cạnh của chúng. Tại cốt lõi của nó, một tệp là một tập hợp các byte tiếp giáp được sử dụng để lưu trữ dữ liệu. Dữ liệu này được tổ chức theo một định dạng cụ thể và có thể đơn giản như tệp văn bản hoặc phức tạp như một chương trình có thể thực thi. Cuối cùng, các tệp byte này sau đó được dịch thành nhị phân 6 và 7 để xử lý dễ dàng hơn bởi máy tính.Các tệp trên hầu hết các hệ thống tệp hiện đại bao gồm ba phần chính:
Những gì dữ liệu này thể hiện phụ thuộc vào đặc tả định dạng được sử dụng, thường được biểu thị bằng một phần mở rộng. Ví dụ: một tệp có phần mở rộng 8 rất có thể phù hợp với đặc tả định dạng trao đổi đồ họa. Có hàng trăm, nếu không phải hàng ngàn phần mở rộng tệp ngoài kia. Đối với hướng dẫn này, bạn sẽ chỉ xử lý các phần mở rộng tệp 9 hoặc 0.Đường dẫn tập tinKhi bạn truy cập một tệp trên một hệ điều hành, một đường dẫn tệp được yêu cầu. Đường dẫn tệp là một chuỗi đại diện cho vị trí của một tệp. Nó chia thành ba phần chính:
Ở đây, một ví dụ nhanh chóng. Hãy nói rằng bạn có một tệp nằm trong cấu trúc tệp như thế này:
Hãy nói rằng bạn muốn truy cập vào tệp 4 và vị trí hiện tại của bạn nằm trong cùng thư mục với 5. Để truy cập tệp, bạn cần đi qua thư mục 5 và sau đó là thư mục 7, cuối cùng đến tệp 4. Đường dẫn thư mục là 9. Tên tệp là 0. Phần mở rộng tệp là 8. Vì vậy, đường dẫn đầy đủ là 2.Bây giờ, hãy để nói rằng vị trí hiện tại hoặc thư mục làm việc hiện tại của bạn (CWD) nằm trong thư mục 7 của cấu trúc thư mục ví dụ của chúng tôi. Thay vì đề cập đến 4 theo đường dẫn đầy đủ của 2, tệp có thể được tham chiếu đơn giản bằng tên tệp và tiện ích mở rộng 4.
Nhưng còn 7 thì sao? Làm thế nào bạn sẽ truy cập vào đó mà không cần sử dụng đường dẫn đầy đủ? Bạn có thể sử dụng DOT đôi ký tự đặc biệt ( 8) để di chuyển một thư mục lên. Điều này có nghĩa là 9 sẽ tham chiếu tệp 7 từ thư mục của 7:
DOT đôi ( 8) có thể được xích lại với nhau để vượt qua nhiều thư mục trên thư mục hiện tại. Ví dụ: để truy cập 3 từ thư mục 7, bạn sẽ sử dụng 5.Kết thúc dòngMột vấn đề thường gặp phải khi làm việc với dữ liệu tệp là biểu diễn của một dòng mới hoặc kết thúc dòng. Kết thúc dòng có nguồn gốc từ trở lại trong kỷ nguyên mã Morse, khi một ký hiệu ủng hộ cụ thể được sử dụng để truyền đạt sự kết thúc của việc truyền hoặc kết thúc của một dòng. Sau đó, điều này đã được tiêu chuẩn hóa cho các nhà giao dịch từ xa bởi cả Tổ chức Tiêu chuẩn hóa Quốc tế (ISO) và Hiệp hội Tiêu chuẩn Hoa Kỳ (ASA). ASA tiêu chuẩn nói rằng các kết thúc dòng nên sử dụng trình tự trả lại vận chuyển ( 6 hoặc 7) và các ký tự nguồn cấp dữ liệu dòng ( 8 hoặc 9) ( 0 hoặc 1). Tuy nhiên, tiêu chuẩn ISO cho phép các ký tự 0 hoặc chỉ là ký tự 8.Windows sử dụng các ký tự 0 để chỉ ra một dòng mới, trong khi các phiên bản UNIX và MAC mới hơn chỉ sử dụng ký tự 8. Điều này có thể gây ra một số biến chứng khi bạn xử lý các tệp trên một hệ điều hành khác với nguồn tệp. Ở đây, một ví dụ nhanh chóng. Hãy nói rằng chúng tôi kiểm tra tệp 7 được tạo trên hệ thống Windows:
Đầu ra tương tự này sẽ được giải thích trên một thiết bị UNIX khác nhau:
Điều này có thể làm cho việc lặp lại trên mỗi dòng có vấn đề và bạn có thể cần phải tính đến các tình huống như thế này. Mã hóa ký tựMột vấn đề phổ biến khác mà bạn có thể gặp phải là mã hóa dữ liệu byte. Một mã hóa là một bản dịch từ dữ liệu byte sang các ký tự có thể đọc được của con người. Điều này thường được thực hiện bằng cách gán một giá trị số để thể hiện một ký tự. Hai mã hóa phổ biến nhất là các định dạng ASCII và Unicode. ASCII chỉ có thể lưu trữ 128 ký tự, trong khi Unicode có thể chứa tới 1.114.112 ký tự. ASCII thực sự là một tập hợp con của Unicode (UTF-8), có nghĩa là ASCII và Unicode có chung số lượng với các giá trị ký tự. Điều quan trọng cần lưu ý là việc phân tích một tệp có mã hóa ký tự không chính xác có thể dẫn đến lỗi hoặc trình bày sai về ký tự. Ví dụ: nếu một tệp được tạo bằng mã hóa UTF-8 và bạn cố gắng phân tích nó bằng mã hóa ASCII, nếu có một ký tự nằm ngoài 128 giá trị đó, thì sẽ bị lỗi. Mở và đóng một tập tin trong PythonKhi bạn muốn làm việc với một tệp, điều đầu tiên cần làm là mở nó. Điều này được thực hiện bằng cách gọi chức năng tích hợp 7. 7 có một đối số bắt buộc duy nhất là đường dẫn đến tệp. 7 có một lần trả về duy nhất, đối tượng tệp:
Sau khi bạn mở một tập tin, điều tiếp theo để học là làm thế nào để đóng nó. Điều quan trọng cần nhớ là nó có trách nhiệm đóng tệp. Trong hầu hết các trường hợp, khi chấm dứt ứng dụng hoặc tập lệnh, cuối cùng một tệp sẽ được đóng. Tuy nhiên, không có gì đảm bảo khi chính xác điều đó sẽ xảy ra. Điều này có thể dẫn đến hành vi không mong muốn bao gồm rò rỉ tài nguyên. Nó cũng là một thực tiễn tốt nhất trong Python (Pythonic) để đảm bảo rằng mã của bạn hoạt động theo cách được xác định rõ và giảm bất kỳ hành vi không mong muốn nào. Khi bạn điều khiển một tệp, có hai cách bạn có thể sử dụng để đảm bảo rằng một tệp được đóng đúng, ngay cả khi gặp lỗi. Cách đầu tiên để đóng tệp là sử dụng khối 0:
Nếu bạn không quen thuộc với khối 0 là gì, hãy xem các ngoại lệ của Python: Giới thiệu.Cách thứ hai để đóng tệp là sử dụng câu lệnh 2:
Câu lệnh 2 tự động chăm sóc việc đóng tệp một khi nó rời khỏi khối 2, ngay cả trong trường hợp lỗi. Tôi thực sự khuyên bạn nên sử dụng câu lệnh 2 càng nhiều càng tốt, vì nó cho phép mã sạch hơn và giúp xử lý mọi lỗi bất ngờ dễ dàng hơn cho bạn.Nhiều khả năng, bạn cũng sẽ muốn sử dụng đối số vị trí thứ hai, 6. Đối số này là một chuỗi chứa nhiều ký tự để thể hiện cách bạn muốn mở tệp. Mặc định và phổ biến nhất là 7, đại diện cho việc mở tệp ở chế độ chỉ đọc dưới dạng tệp văn bản:
Các tùy chọn khác cho các chế độ được ghi lại đầy đủ trực tuyến, nhưng các tùy chọn được sử dụng phổ biến nhất là:
Hãy để Lừa quay lại và nói một chút về các đối tượng tệp. Một đối tượng tệp là:
Có ba loại đối tượng tệp khác nhau:
Mỗi loại tệp này được xác định trong mô -đun 4. Ở đây, một bản tóm tắt nhanh chóng về cách mọi thứ xếp hàng.Loại tệp văn bảnTệp văn bản là tệp phổ biến nhất mà bạn sẽ gặp. Dưới đây là một số ví dụ về cách các tệp này được mở: 0Với các loại tệp này, 7 sẽ trả về đối tượng tệp 6:>>> 1Đây là đối tượng tệp mặc định được trả về bởi 7.Các loại tệp nhị phân được đệmMột loại tệp nhị phân được đệm được sử dụng để đọc và viết các tệp nhị phân. Dưới đây là một số ví dụ về cách các tệp này được mở: 2Với các loại tệp này, 7 sẽ trả về đối tượng tệp 9 hoặc 00:>>> 3Đây là đối tượng tệp mặc định được trả về bởi reader = open('dog_breeds.txt') try: # Further file processing goes here finally: reader.close() 7.Các loại tệp nhị phân được đệm
Với các loại tệp này, 7 sẽ trả về đối tượng tệp 9 hoặc 00:Các loại tệp thô 4Một loại tệp thô là: >>> 5Nói chung, được sử dụng như một khối xây dựng cấp thấp cho các luồng nhị phân và văn bản. (Nguồn)Do đó, nó thường không được sử dụng.
07>>> 6Điều này đọc nhiều nhất là số lượng ký tự từ dòng. Điều này tiếp tục đến cuối dòng và sau đó quấn lại xung quanh. Nếu không có đối số nào được thông qua hoặc 05 hoặc 06 được thông qua, thì toàn bộ dòng (hoặc phần còn lại của dòng) sẽ được đọc.>>> 7 11>>> 8Điều này đọc các dòng còn lại từ đối tượng tệp và trả về chúng dưới dạng danh sách. >>> 9Sử dụng cùng một tệp Pug\r \n Jack Russell Terrier\r \n English Springer Spaniel\r \n German Shepherd\r \n Staffordshire Bull Terrier\r \n Cavalier King Charles Spaniel\r \n Golden Retriever\r \n West Highland White Terrier\r \n Boxer\r \n Border Terrier\r \n 7 mà bạn đã sử dụng ở trên, hãy để xem qua một số ví dụ về cách sử dụng các phương pháp này. Dưới đây, một ví dụ về cách mở và đọc toàn bộ tệp bằng / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 13:Dưới đây, một ví dụ về cách đọc 5 byte của một dòng mỗi lần bằng phương pháp Python 14:>>> 0Dưới đây, một ví dụ về cách đọc toàn bộ tệp dưới dạng danh sách bằng phương thức Python 11:>>> 1Ví dụ trên cũng có thể được thực hiện bằng cách sử dụng 16 để tạo danh sách ra khỏi đối tượng tệp:>>> 2Lặp lại trên từng dòng trong tệp Một điều phổ biến cần làm trong khi đọc một tệp là lặp lại trên mỗi dòng. Dưới đây, một ví dụ về cách sử dụng phương pháp Python 14 để thực hiện phép lặp đó:
03 3Điều này đọc từ tệp dựa trên số byte / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 04. Nếu không có đối số nào được thông qua hoặc / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 05 hoặc / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 06 được thông qua, thì toàn bộ tệp được đọc. 07>>> 4Điều này đọc nhiều nhất là số lượng ký tự từ dòng. Điều này tiếp tục đến cuối dòng và sau đó quấn lại xung quanh. Nếu không có đối số nào được thông qua hoặc 05 hoặc 06 được thông qua, thì toàn bộ dòng (hoặc phần còn lại của dòng) sẽ được đọc. 11Điều này đọc các dòng còn lại từ đối tượng tệp và trả về chúng dưới dạng danh sách.
21>>> 5Điều này viết chuỗi vào tệp. Không có kết thúc dòng được nối vào từng mục trình tự. Nó tùy thuộc vào bạn để thêm (các) kết thúc dòng thích hợp.Ở đây, một ví dụ nhanh về việc sử dụng 22 và 23:Làm việc với byte 6Các mẹo và thủ thuậtBây giờ bạn đã thành thạo những điều cơ bản về đọc và viết các tập tin, đây là một số mẹo và thủ thuật để giúp bạn phát triển kỹ năng của mình. / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 53Thuộc tính 53 là một thuộc tính đặc biệt của các mô -đun, tương tự như 55. Nó là:
Ở đây, một ví dụ thế giới thực. Trong một trong những công việc trước đây của tôi, tôi đã thực hiện nhiều bài kiểm tra cho một thiết bị phần cứng. Mỗi bài kiểm tra được viết bằng tập lệnh Python với tên tệp tập lệnh thử nghiệm được sử dụng làm tiêu đề. Các tập lệnh này sau đó sẽ được thực thi và có thể in trạng thái của chúng bằng thuộc tính đặc biệt 53. Ở đây, một cấu trúc thư mục ví dụ: 7Chạy 57 Sản xuất như sau: 8Tôi đã có thể chạy và nhận trạng thái của tất cả các bài kiểm tra của mình một cách linh hoạt thông qua việc sử dụng thuộc tính đặc biệt của 53.Nối vào một tập tinĐôi khi, bạn có thể muốn nối vào một tệp hoặc bắt đầu viết ở cuối tệp đã có. Điều này dễ dàng được thực hiện bằng cách sử dụng ký tự 59 cho đối số 6: 9Khi bạn kiểm tra lại 7, bạn sẽ thấy rằng phần đầu của tệp không thay đổi và 62 hiện được thêm vào cuối tệp:>>> 0Làm việc với hai tệp cùng một lúcCó những lúc bạn có thể muốn đọc một tệp và ghi vào một tệp khác cùng một lúc. Nếu bạn sử dụng ví dụ được hiển thị khi bạn đang học cách ghi vào một tệp, thì nó thực sự có thể được kết hợp thành các vấn đề sau: 1Tạo trình quản lý bối cảnh của riêng bạnCó thể đến lúc bạn sẽ cần kiểm soát tốt hơn đối tượng tệp bằng cách đặt nó bên trong một lớp tùy chỉnh. Khi bạn làm điều này, sử dụng câu lệnh 2 không còn có thể được sử dụng trừ khi bạn thêm một vài phương pháp ma thuật: 64 và 65. Bằng cách thêm những thứ này, bạn sẽ tạo ra cái mà người ta gọi là người quản lý ngữ cảnh. 66 được gọi khi gọi câu lệnh 2. 68 được gọi khi thoát khỏi khối tuyên bố 2.Dưới đây, một mẫu mà bạn có thể sử dụng để tạo lớp tùy chỉnh của mình: 2Bây giờ bạn đã có lớp tùy chỉnh của mình hiện là người quản lý ngữ cảnh, bạn có thể sử dụng nó tương tự như 7 tích hợp: 3Đây là một ví dụ tốt. Bạn có nhớ hình ảnh Jack Russell dễ thương mà chúng tôi đã có không? Có lẽ bạn muốn mở các tệp 29 khác nhưng không muốn phân tích tệp tiêu đề mỗi lần. Ở đây, một ví dụ về cách làm điều này. Ví dụ này cũng sử dụng trình lặp tùy chỉnh. Nếu bạn không quen thuộc với họ, hãy xem Python Iterators: 4Bây giờ bạn có thể mở các tệp 29 và phân tích đúng chúng bằng cách sử dụng Trình quản lý bối cảnh tùy chỉnh của bạn:>>> 5Làm việc với hai tệp cùng một lúcCó những lúc bạn có thể muốn đọc một tệp và ghi vào một tệp khác cùng một lúc. Nếu bạn sử dụng ví dụ được hiển thị khi bạn đang học cách ghi vào một tệp, thì nó thực sự có thể được kết hợp thành các vấn đề sau:
66 được gọi khi gọi câu lệnh 2. 68 được gọi khi thoát khỏi khối tuyên bố 2.
75: Đọc và viết các tệp WAV (âm thanh)
/ │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 79: Làm việc với kho lưu trữ zip 80: Dễ dàng tạo và phân tích các tệp cấu hình 81: Tạo hoặc đọc các tệp dựa trên XML
87: Đọc và thao tác hình ảnhBạn là một pháp sư tập tin Harry! This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Reading and Writing Files in Python |