Cách trích xuất văn bản cụ thể từ pdf trong python

Bạn có thể cần trích xuất dữ liệu từ tài liệu PDF hoặc Word của mình bằng mẫu do người dùng xác định. Bạn có thể phân tích cú pháp bất kỳ tài liệu nào và trích xuất các trường cũng như dữ liệu bảng theo chương trình trên đám mây. Bài viết này sẽ giải thích cách trích xuất dữ liệu cụ thể từ tài liệu PDF bằng API REST trong Python

Các chủ đề sau đây sẽ được đề cập trong bài viết này

  • Trình phân tích cú pháp tài liệu API REST và Python SDK
  • Trích xuất dữ liệu theo Đối tượng mẫu bằng Python
  • Trích xuất dữ liệu theo tệp mẫu bằng Python

Trình phân tích cú pháp tài liệu API REST và Python SDK

Để phân tích cú pháp tài liệu PDF và trích xuất dữ liệu dựa trên mẫu, tôi sẽ sử dụng Python SDK của GroupDocs. API đám mây phân tích cú pháp. Nó cho phép bạn phân tích dữ liệu từ tất cả các loại tài liệu phổ biến như tài liệu PDF, tài liệu Microsoft Office và định dạng tệp OpenDocument. Bạn có thể trích xuất văn bản, hình ảnh và phân tích dữ liệu theo mẫu bằng SDK. Nó cũng cung cấp. NET, Java, PHP, Ruby và nút. js SDK làm thành viên họ trình phân tích cú pháp tài liệu của nó cho API đám mây

Bạn có thể cài đặt GroupDocs. Trình phân tích đám mây cho dự án Python của bạn bằng pip [trình cài đặt gói cho python] bằng cách sử dụng lệnh sau trong bảng điều khiển để trích xuất thông tin từ pdf

pip install groupdocs_parser_cloud

Vui lòng lấy ID ứng dụng khách và Bí mật ứng dụng khách từ trang tổng quan và thêm mã như hình bên dưới

Xem mã trên Gist

Trích xuất dữ liệu theo Đối tượng mẫu bằng Python

Bạn có thể trích xuất dữ liệu từ tài liệu PDF bằng mẫu bằng cách thực hiện theo các bước đơn giản được đề cập bên dưới

  • Tải tệp PDF lên Đám mây
  • Khai thác dữ liệu dựa trên mẫu bằng Python

Tải lên tài liệu

Trước hết, hãy tải tài liệu PDF lên Đám mây bằng mã ví dụ bên dưới

Xem mã trên Gist

Do đó, tệp PDF đã tải lên sẽ có trong phần tệp của trang tổng quan của bạn trên đám mây

Khai thác dữ liệu dựa trên mẫu bằng Python

Vui lòng làm theo các bước được đề cập bên dưới để trích xuất dữ liệu từ tệp PDF dựa trên mẫu theo chương trình

  1. Tạo một phiên bản của ParseApi
  2. Xác định ParseOptions và Đặt đường dẫn đến tệp PDF
  3. Tạo Mẫu làm đối tượng
  4. Tạo ParseRequest
  5. Nhận kết quả bằng cách gọi ParseApi. parse[] phương pháp

Mẫu mã sau đây cho biết cách trích xuất dữ liệu theo mẫu đã xác định từ tài liệu PDF bằng API REST

Xem mã trên Gist

Vui lòng tìm bên dưới mẫu được tạo theo tài liệu PDF

Xem mã trên Gist

Dữ liệu được trích xuất bằng cách phân tích cú pháp tài liệu bằng mẫu

Trích xuất dữ liệu theo tệp mẫu bằng Python

Bạn cũng có thể trích xuất dữ liệu từ tài liệu PDF bằng cách cung cấp tệp mẫu dựa trên JSON theo chương trình. Vui lòng làm theo các bước được đề cập bên dưới để phân tích cú pháp tài liệu bằng cách cung cấp tệp mẫu

  1. Tạo một phiên bản của ParseApi
  2. Xác định ParseOptions
  3. Đặt đường dẫn đến tệp PDF
  4. Đặt đường dẫn đến tệp mẫu
  5. Tạo ParseRequest
  6. Nhận kết quả bằng cách gọi ParseApi. parse[] phương pháp

Mẫu mã sau đây cho biết cách phân tích cú pháp tài liệu PDF và trích xuất dữ liệu theo mẫu được cung cấp trong tệp JSON bằng API REST. Vui lòng làm theo các bước đã đề cập trước đó để tải tệp lên

Xem mã trên Gist

Vui lòng tìm bên dưới mẫu ở định dạng JSON

Xem mã trên Gist

Giải nén tệp PDF trực tuyến

Làm thế nào để sử dụng trình trích xuất pdf trực tuyến miễn phí? . Công cụ trích xuất pdf trực tuyến và giải nén pdf trực tuyến miễn phí này được phát triển bằng API trên. https. //Mỹ phẩm. tài liệu nhóm. ứng dụng/trình phân tích cú pháp/pdf

Sự kết luận

Trong bài viết này, bạn đã học cách trích xuất dữ liệu cụ thể từ tài liệu PDF theo mẫu được cung cấp trên đám mây. Bạn cũng đã học cách tạo đối tượng mẫu và cung cấp mẫu ở định dạng JSON. Bài viết này cũng giải thích cách lập trình tải tệp PDF lên đám mây để trích xuất dữ liệu pdf trực tuyến. Bạn có thể tìm hiểu thêm về GroupDocs. API đám mây phân tích cú pháp bằng tài liệu. Chúng tôi cũng cung cấp phần Tham chiếu API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt

Đặt một câu hỏi

Nếu bạn có bất kỳ thắc mắc nào về việc trích xuất dữ liệu từ pdf và trích xuất dữ liệu pdf trực tuyến, vui lòng hỏi chúng tôi tại Diễn đàn hỗ trợ miễn phí

Chủ Đề