Hướng dẫn binary data in python - dữ liệu nhị phân trong python

Sử dụng mô -đun

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8, nó cũng sẽ cho phép bạn giải thích dữ liệu nhị phân theo nhiều cách; Bạn cần xác định các loại trong định dạng chuỗi được ghi lại với thư viện đó:

Nội dung chính ShowShow

  • Chúng ta có nên sử dụng struct không?
  • Cấu trúc 101
  • Các cấu trúc và chế độ xem bộ nhớ
  • Làm thế nào để bạn giải mã một tệp nhị phân trong Python?
  • Làm thế nào để Python đọc dữ liệu nhị phân?
  • Python có thể xử lý các tệp nhị phân không?
  • Làm cách nào để đọc một chuỗi nhị phân trong Python?

struct.unpack['=HHf255s', bytes]

Ví dụ trên mong đợi thứ tự byte gốc, hai quần short không dấu, một chiếc phao và một chuỗi gồm 255 ký tự.

Ví dụ về mã của bạn trở thành:

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

Trong trường hợp bạn gặp lỗi

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]

Nhưng có lẽ trường hợp chuỗi byte 8/16 của bạn là số nguyên dài? Trong trường hợp đó, sử dụng định dạng thích hợp cho cấu trúc.

Chỉnh sửa: Hóa ra bạn muốn đọc 8 bit [không phải byte], sau đó là 16 bit tiếp theo, sau đó là 8 bit tiếp theo, vì vậy bạn có thể đọc nó dưới dạng một [không dấu?] Chuỗi định dạng bạn nên sử dụng là

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
3 [hoặc
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
4 cho không dấu]. Thí dụ:bits [not bytes], then the next 16 bits, then the next 8 bits, so you can read it as one [unsigned?] byte, one short, and another byte. The format string you should use is
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
3 [or
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
4 for unsigned]. Example:
import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]
bits [not bytes], then the next 16 bits, then the next 8 bits, so you can read it as one [unsigned?] byte, one short, and another byte. The format string you should use is
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
3 [or
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
4 for unsigned]. Example:
import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

Mô -đun

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 cung cấp các hàm cho các trường phân tích các byte thành một bộ các đối tượng python và để thực hiện chuyển đổi ngược lại, từ một tuple thành byte đóng gói.
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 có thể được sử dụng với các đối tượng

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
1,
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 và
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
9.

Mô -đun

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 rất mạnh mẽ và thuận tiện, nhưng trước khi sử dụng nó, bạn nên nghiêm túc xem xét các lựa chọn thay thế, do đó, phần ngắn đầu tiên trong bài đăng này.

Contents:

  1. Chúng ta có nên sử dụng

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    8 không?

  2. Cấu trúc 101

  3. Các cấu trúc và chế độ xem bộ nhớ

Chúng ta có nên sử dụng struct không?

Cấu trúc 101

Các cấu trúc và chế độ xem bộ nhớ

Làm thế nào để bạn giải mã một tệp nhị phân trong Python?

Làm thế nào để Python đọc dữ liệu nhị phân?

Cấu trúc 101

Các cấu trúc và chế độ xem bộ nhớ

Làm thế nào để bạn giải mã một tệp nhị phân trong Python?

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
1

Làm thế nào để Python đọc dữ liệu nhị phân?

Python có thể xử lý các tệp nhị phân không?

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
2

Làm cách nào để đọc một chuỗi nhị phân trong Python?

Ví dụ trên mong đợi thứ tự byte gốc, hai quần short không dấu, một chiếc phao và một chuỗi gồm 255 ký tự.

Ví dụ về mã của bạn trở thành:Trong trường hợp bạn gặp lỗiNhưng có lẽ trường hợp chuỗi byte 8/16 của bạn là số nguyên dài? Trong trường hợp đó, sử dụng định dạng thích hợp cho cấu trúc.Chỉnh sửa: Hóa ra bạn muốn đọc 8 bit [không phải byte], sau đó là 16 bit tiếp theo, sau đó là 8 bit tiếp theo, vì vậy bạn có thể đọc nó dưới dạng một [không dấu?] Chuỗi định dạng bạn nên sử dụng là
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
3 [hoặc
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
4 cho không dấu]. Thí dụ:bits [not bytes], then the next 16 bits, then the next 8 bits, so you can read it as one [unsigned?] byte, one short, and another byte. The format string you should use is
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
3 [or
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
4 for unsigned]. Example:
import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]
Mô -đun
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 cung cấp các hàm cho các trường phân tích các byte thành một bộ các đối tượng python và để thực hiện chuyển đổi ngược lại, từ một tuple thành byte đóng gói.
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 có thể được sử dụng với các đối tượng
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
1,
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 và
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
9.

Mô -đun

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 rất mạnh mẽ và thuận tiện, nhưng trước khi sử dụng nó, bạn nên nghiêm túc xem xét các lựa chọn thay thế, do đó, phần ngắn đầu tiên trong bài đăng này.

Chúng ta có nên sử dụng
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 không?
Chúng ta có nên sử dụng
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 không?

Hồ sơ nhị phân độc quyền trong thế giới thực là giòn và có thể bị hỏng dễ dàng. Ví dụ siêu đơn giản trong struct 101 sẽ phơi bày một trong nhiều cảnh báo: trường chuỗi chỉ có thể bị giới hạn bởi kích thước của nó trong byte, nó có thể được đệm bởi không gian hoặc nó có thể chứa một chuỗi kết thúc không kích thước nhất định. Ngoài ra còn có vấn đề về tính endian: thứ tự của các byte được sử dụng để đại diện cho số nguyên và phao, phụ thuộc vào kiến ​​trúc CPU.

Nếu bạn cần đọc hoặc viết từ định dạng nhị phân hiện có, tôi khuyên bạn nên cố gắng tìm một thư viện sẵn sàng sử dụng thay vì cuộn giải pháp của riêng bạn.

Nếu bạn cần trao đổi dữ liệu nhị phân giữa các hệ thống Python trong công ty, mô-đun Pickle là cách dễ nhất, nhưng hãy cẩn thận rằng các phiên bản khác nhau của Python sử dụng các định dạng nhị phân khác nhau theo mặc định và đọc Pickle có thể chạy mã tùy ý, vì vậy nó không an toàn cho sử dụng bên ngoài.

Nếu trao đổi liên quan đến các chương trình bằng các ngôn ngữ khác, hãy sử dụng JSON hoặc định dạng tuần tự nhị phân đa nền tảng như bộ đệm thông báo hoặc giao thức.Giả sử bạn cần đọc một tệp nhị phân chứa dữ liệu về các khu vực đô thị, được tạo bởi một chương trình trong C với bản ghi được xác định là ví dụ 1

Ví dụ 1. Metroarea: Một cấu trúc trong ngôn ngữ C.

Dưới đây là cách đọc một bản ghi ở định dạng đó, sử dụng
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]
3:

Ví dụ 2. Đọc cấu trúc C trong bảng điều khiển Python.

Lưu ý cách
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]
4 trả về một tuple với bốn trường, như được chỉ định bởi chuỗi
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]
5. Các chữ cái và số trong
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]
5 là các ký tự định dạng được mô tả trong tài liệu mô -đun
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8.
Giả sử bạn cần đọc một tệp nhị phân chứa dữ liệu về các khu vực đô thị, được tạo bởi một chương trình trong C với bản ghi được xác định là ví dụ 1

Ví dụ 1. Metroarea: Một cấu trúc trong ngôn ngữ C.

Dưới đây là cách đọc một bản ghi ở định dạng đó, sử dụng
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]
3:

Mô -đun

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 rất mạnh mẽ và thuận tiện, nhưng trước khi sử dụng nó, bạn nên nghiêm túc xem xét các lựa chọn thay thế, do đó, phần ngắn đầu tiên trong bài đăng này.

Chúng ta có nên sử dụng
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 không?
Chúng ta có nên sử dụng
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 không?

Hồ sơ nhị phân độc quyền trong thế giới thực là giòn và có thể bị hỏng dễ dàng. Ví dụ siêu đơn giản trong struct 101 sẽ phơi bày một trong nhiều cảnh báo: trường chuỗi chỉ có thể bị giới hạn bởi kích thước của nó trong byte, nó có thể được đệm bởi không gian hoặc nó có thể chứa một chuỗi kết thúc không kích thước nhất định. Ngoài ra còn có vấn đề về tính endian: thứ tự của các byte được sử dụng để đại diện cho số nguyên và phao, phụ thuộc vào kiến ​​trúc CPU.

Nếu bạn cần trao đổi dữ liệu nhị phân giữa các hệ thống Python trong công ty, mô-đun Pickle là cách dễ nhất, nhưng hãy cẩn thận rằng các phiên bản khác nhau của Python sử dụng các định dạng nhị phân khác nhau theo mặc định và đọc Pickle có thể chạy mã tùy ý, vì vậy nó không an toàn cho sử dụng bên ngoài.

Ví dụ 1. Metroarea: Một cấu trúc trong ngôn ngữ C.

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
0

giới hạn nội dung thực tế

Ví dụ 3. Metro_read.py: Liệt kê tất cả các bản ghi từ

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
11
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
2
  1. Định dạng

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    8.

  2. Chức năng tiện ích để giải mã và làm sạch các trường

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    1; Trả về A ________ 12. [2]
  3. Xử lý chuỗi C chấm dứt NULL: Chia một lần trên

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    16, sau đó lấy phần đầu tiên.
  4. Giải mã

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    1 thành
    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    2.
  5. Mở và đọc toàn bộ tệp ở chế độ nhị phân;

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    27 là một đối tượng
    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    1.
  6. for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    29 Trả về một trình tạo tạo một bộ trường cho mỗi chuỗi byte khớp với chuỗi định dạng.
  7. Các trường

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    12 và
    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    13 cần xử lý thêm theo hàm
    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    02.

Mô-đun

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 không cung cấp cách nào để chỉ định các trường chuỗi chấm dứt null. Khi xử lý một trường như

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
12 trong ví dụ trên, sau khi giải nén, chúng tôi cần kiểm tra các byte được trả về để loại bỏ
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
16 đầu tiên và tất cả các byte sau khi nó trong trường đó. Hoàn toàn có thể là byte sau
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
16 đầu tiên và cho đến cuối trường là rác. Bạn thực sự có thể thấy điều đó trong ví dụ 2.

Chế độ xem bộ nhớ có thể giúp thử nghiệm và gỡ lỗi các chương trình dễ dàng hơn bằng cách sử dụng

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8, như phần tiếp theo giải thích.

Các cấu trúc và chế độ xem bộ nhớ

Loại Python từ

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
9 không cho phép bạn tạo hoặc lưu trữ các chuỗi byte. Thay vào đó, nó cung cấp quyền truy cập bộ nhớ được chia sẻ cho các lát dữ liệu từ các chuỗi nhị phân khác, các mảng được đóng gói và các bộ đệm như hình ảnh Thư viện hình ảnh Python [PIL], [3] mà không sao chép byte.

Ví dụ 4 cho thấy việc sử dụng

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
9 và
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8 cùng nhau để trích xuất chiều rộng và chiều cao của hình ảnh GIF.

Ví dụ 4. Sử dụng MemoryView và Struct để kiểm tra tiêu đề hình ảnh GIF

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
8
  1. for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    8 Định dạng:

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    22 Little-endian;
    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    23 Hai chuỗi 3 byte;
    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    24 Hai số nguyên 16 bit.
  2. Tạo

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    9 từ nội dung tệp trong bộ nhớ
  3. Sau đó, một

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    9 khác bằng cách cắt cái đầu tiên; Không có byte được sao chép ở đây.
  4. Chuyển đổi sang

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    1 chỉ để hiển thị; 10 byte được sao chép ở đây.
  5. Giải nén

    for each_word in logData:
        var1, var2, var3 = struct.unpack['8s16s8s', each_word]
    
    9 thành Tuple of: gõ, phiên bản, chiều rộng và chiều cao.
  6. Xóa tham chiếu để phát hành bộ nhớ được liên kết với các phiên bản MemoryView.

Lưu ý rằng việc cắt

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
9 trả về một
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
9 mới, mà không cần sao chép byte. [4]

Làm thế nào để bạn giải mã một tệp nhị phân trong Python?

Để đọc từ một tệp nhị phân, chúng ta cần mở nó bằng chế độ RB thay vì chế độ mặc định của RT: >>> với Open ["Bài tập. Zip", Mode = "RB"] là Zip_File: ... Nội dung = Nội dung = zip_file.open it with the mode rb instead of the default mode of rt : >>> with open["exercises. zip", mode="rb"] as zip_file: ... contents = zip_file.open it with the mode rb instead of the default mode of rt : >>> with open["exercises. zip", mode="rb"] as zip_file: ... contents = zip_file.

Làm thế nào để Python đọc dữ liệu nhị phân?

Hàm Open [] mở một tệp ở định dạng văn bản theo mặc định. Để mở một tệp ở định dạng nhị phân, thêm 'B' vào tham số chế độ. Do đó, chế độ "RB" mở tệp ở định dạng nhị phân để đọc, trong khi chế độ "WB" mở tệp ở định dạng nhị phân để viết.add 'b' to the mode parameter. Hence the "rb" mode opens the file in binary format for reading, while the "wb" mode opens the file in binary format for writing.add 'b' to the mode parameter. Hence the "rb" mode opens the file in binary format for reading, while the "wb" mode opens the file in binary format for writing.

Python có thể xử lý các tệp nhị phân không?

Python có các công cụ để làm việc với các tệp nhị phân.Tệp nhị phân sử dụng chuỗi loại byte.Điều này có nghĩa là khi đọc dữ liệu nhị phân từ một tệp, một đối tượng loại byte được trả về.Tệp nhị phân được mở bằng hàm Open [], có tham số chế độ chứa ký tự 'B'.. Binary files use strings of type bytes. This means when reading binary data from a file, an object of type bytes is returned. The binary file is opened using the open[] function, whose mode parameter contains the character 'b'.. Binary files use strings of type bytes. This means when reading binary data from a file, an object of type bytes is returned. The binary file is opened using the open[] function, whose mode parameter contains the character 'b'.

Làm cách nào để đọc một chuỗi nhị phân trong Python?

Phương pháp số 1: Dữ liệu nhị phân được chia thành các bộ 7 bit vì bộ nhị phân này làm đầu vào, trả về giá trị thập phân tương ứng là mã ASCII của ký tự của chuỗi.Mã ASCII này sau đó được chuyển đổi thành chuỗi bằng hàm chr [].using chr[] function.using chr[] function.

Bài Viết Liên Quan

Chủ Đề