Trích xuất dữ liệu hóa đơn từ pdf python

Nếu có thể, hãy lấy phiên bản xpdf/poppler-utils mới nhất. Nó được bao gồm trong macOS Homebrew, Debian và Ubuntu. Không có nó,

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

8 sẽ không phân tích chính xác các bảng trong PDF

  1. Cài đặt

    # Display a list of all Tesseract language packs
    apt-cache search tesseract-ocr
    
    # Debian/Ubuntu users
    apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack
    
    # Arch Linux users
    pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
    
    
    3 bằng cách sử dụng pip

    pip cài đặt hóa đơn2data

Cài đặt các mô-đun đầu vào

Một trình bao bọc tesseract được bao gồm trong chế độ ngôn ngữ tự động. Nó sẽ kiểm tra các tệp đầu vào của bạn dựa trên các ngôn ngữ được cài đặt trên hệ thống của bạn. Để sử dụng nó cần cài đặt tesseract và imagemagick. tesseract hỗ trợ nhiều chế độ công cụ OCR. Theo mặc định, công cụ có sẵn được cài đặt trên hệ thống sẽ được sử dụng

ngôn ngữ. tesseract-ocr nhận dạng hơn 100 ngôn ngữ Đối với người dùng Linux, bạn thường có thể tìm thấy các gói cung cấp gói ngôn ngữ

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

Cách sử dụng

sử dụng cơ bản. Xử lý tệp PDF và ghi kết quả vào CSV

  • # Display a list of all Tesseract language packs
    apt-cache search tesseract-ocr
    
    # Debian/Ubuntu users
    apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack
    
    # Arch Linux users
    pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
    
    
    4
  • # Display a list of all Tesseract language packs
    apt-cache search tesseract-ocr
    
    # Debian/Ubuntu users
    apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack
    
    # Arch Linux users
    pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
    
    
    5
  • # Display a list of all Tesseract language packs
    apt-cache search tesseract-ocr
    
    # Debian/Ubuntu users
    apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack
    
    # Arch Linux users
    pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
    
    
    6

Chọn bất kỳ trình đọc đầu vào nào sau đây

  • pdftotext
    # Display a list of all Tesseract language packs
    apt-cache search tesseract-ocr
    
    # Debian/Ubuntu users
    apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack
    
    # Arch Linux users
    pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
    
    
    7
  • pdftotext
    # Display a list of all Tesseract language packs
    apt-cache search tesseract-ocr
    
    # Debian/Ubuntu users
    apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack
    
    # Arch Linux users
    pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
    
    
    8
  • tesseract
    # Display a list of all Tesseract language packs
    apt-cache search tesseract-ocr
    
    # Debian/Ubuntu users
    apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack
    
    # Arch Linux users
    pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
    
    
    9
  • công cụ khai thác pdf. sáu
    from invoice2data import extract_data
    result = extract_data['path/to/my/file.pdf']
    
    0
  • pdfthợ sửa ống nước
    from invoice2data import extract_data
    result = extract_data['path/to/my/file.pdf']
    
    1
  • gvision
    from invoice2data import extract_data
    result = extract_data['path/to/my/file.pdf']
    
    2 [cần
    from invoice2data import extract_data
    result = extract_data['path/to/my/file.pdf']
    
    3 env var]

Chọn bất kỳ định dạng đầu ra nào sau đây

  • csv
    from invoice2data import extract_data
    result = extract_data['path/to/my/file.pdf']
    
    4
  • json
    from invoice2data import extract_data
    result = extract_data['path/to/my/file.pdf']
    
    5
  • xml
    from invoice2data import extract_data
    result = extract_data['path/to/my/file.pdf']
    
    6

Lưu tệp đầu ra với tên tùy chỉnh hoặc một thư mục cụ thể

from invoice2data import extract_data
result = extract_data['path/to/my/file.pdf']
7

Ghi chú. Bạn phải chỉ định

from invoice2data import extract_data
result = extract_data['path/to/my/file.pdf']
8 để tạo
from invoice2data import extract_data
result = extract_data['path/to/my/file.pdf']
9

Chỉ định thư mục với các mẫu yml. [e. g. nhà cung cấp của bạn]

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

80

Chỉ sử dụng các mẫu của riêng bạn và loại trừ các phần mềm cài sẵn

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

81

Xử lý một thư mục hóa đơn và sao chép các hóa đơn đã đổi tên vào thư mục mới

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

82

Xử lý một tệp duy nhất và kết xuất toàn bộ tệp để gỡ lỗi [hữu ích khi thêm mẫu mới vào mẫu. py]

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

83

Ghi nhận hóa đơn kiểm tra.

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

84

Sử dụng làm Thư viện Python

Bạn có thể dễ dàng thêm

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

3 vào tập lệnh Python của riêng mình dưới dạng thư viện

________số 8

Sử dụng các mẫu trong nhà

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

8

hệ thống mẫu

Xem

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

86 để biết các mẫu hiện có. Chỉ cần mở rộng danh sách để thêm danh sách của riêng bạn. Nếu được triển khai bởi một tổ chức lớn hơn, nên có giao diện để chỉnh sửa mẫu cho các nhà cung cấp mới. quy tắc 80-20. Để có hướng dẫn ngắn về cách thêm mẫu mới, hãy xem HƯỚNG DẪN. md

Các mẫu dựa trên Yaml. Chúng xác định một hoặc nhiều từ khóa để tìm đúng mẫu, một hoặc nhiều loại trừ_từ khóa để thu hẹp hơn nữa và biểu thức chính quy cho các trường được trích xuất. Chúng cũng có thể là một giá trị tĩnh, chẳng hạn như tên đầy đủ của công ty

Các tệp mẫu được cố định theo thứ tự bảng chữ cái

Chúng tôi có thể mở rộng chúng thành các tùy chọn tính năng sẽ được sử dụng trong quá trình xử lý hóa đơn

Thí dụ

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

7

Gói lines có nhiều cài đặt

  • bắt đầu > Mẫu nơi các dòng bắt đầu. Đây thường là hàng tiêu đề của bảng. Hàng này không được bao gồm trong khớp dòng
  • kết thúc > Mẫu biểu thị nơi các dòng kết thúc. Điển hình là một số văn bản ở cuối hoặc ngay bên dưới bảng. Cũng không được bao gồm trong khớp dòng
  • first_line > Tùy chọn. Đây là mục hàng chính cho mỗi mục nhập
  • dòng > Nếu first_line không được cung cấp, dòng này sẽ được sử dụng làm mẫu dòng chính. Nếu first_line được cung cấp, đây là mẫu cho bất kỳ dòng phụ nào, chẳng hạn như chi tiết mục hàng
  • skip_line > Tùy chọn. Nếu first_line được thông qua, mẫu này cho biết dòng phụ nào sẽ bị bỏ qua và dữ liệu của chúng không được ghi lại. Điều này hữu ích nếu các bảng trải rộng trên nhiều trang và bạn cần bỏ qua số trang hoặc tiêu đề xuất hiện ở giữa bảng
  • last_line > Tùy chọn. Nếu first_line được thông qua, mẫu này biểu thị dòng cuối cùng của các dòng phụ và được bao gồm trong dữ liệu đầu ra

Sự phát triển

Nếu bạn quan tâm đến việc cải thiện dự án này, hãy xem hướng dẫn dành cho nhà phát triển của chúng tôi để giúp bạn bắt đầu nhanh chóng

Chủ Đề