Trang này mô tả cách chuyển đổi PDF sang HTML bằng Python bằng API Pdfcrowd dựa trên đám mây. API rất dễ sử dụng và chỉ cần một vài dòng mã để tích hợp nó vào ứng dụng của bạn
Cài đặt
Thư viện máy khách API Python cung cấp quyền truy cập dễ dàng vào API Pdfcrowd. Không yêu cầu thư viện của bên thứ ba
Cài đặt thư viện máy khách từ PyPIpip install pdfcrowd
Chúng tôi cũng cung cấp các tùy chọn cài đặt khác
Thông tin đăng nhập để truy cập API là tên người dùng Pdfcrowd của bạn và khóa API. Bạn có thể dùng thử API mà không cần đăng ký bằng thông tin đăng nhập demo sau
CẢNH BÁO. pdftotree là mã thử nghiệm và KHÔNG ổn định. Nó không được Fonduer tích hợp hoặc hỗ trợ
Fonduer thực hiện xây dựng cơ sở tri thức từ dữ liệu được định dạng phong phú như bảng. Một bước quan trọng trong quá trình này là xây dựng cây phân cấp của các đối tượng ngữ cảnh như khối văn bản, hình, bảng, v.v. Hệ thống hiện đang sử dụng tính năng chuyển đổi PDF sang HTML do Adobe Acrobat cung cấp. Tuy nhiên, Adobe Acrobat không phải là một công cụ mã nguồn mở, điều này có thể gây bất tiện cho người dùng Fonduer
Gói này là kết quả của việc xây dựng mô-đun của riêng chúng tôi để thay thế cho Adobe Acrobat. Một số công cụ nguồn mở có sẵn để chuyển đổi pdf sang html nhưng những công cụ này không bảo toàn cấu trúc ô trong bảng. Mục tiêu của chúng tôi trong dự án này là phát triển một công cụ trích xuất văn bản, số liệu và bảng trong tài liệu pdf và trả lại chúng ở định dạng dễ sử dụng
Lên đến v0. 4. 1, đầu ra của pdftotree được định dạng theo định dạng “giống HTML” của chính nó. từ v0. 5. 0, nó phù hợp với hOCR, một định dạng chuẩn mở cho kết quả OCR
phụ thuộc
pdftotree phụ thuộc vào các thư viện gốc sau
ImageMagick 6+ [dành cho Cây đũa phép]
Java 8+ [dành cho tabula-py]
Cài đặt
Để cài đặt gói này từ PyPi
$ pip install pdftotree
Cách sử dụng
pdftotree dưới dạng gói Python
import pdftotree
pdftotree.parse[pdf_file, html_path=None, model_type=None, model_path=None, visualize=False]:
Đây là tiện ích dòng lệnh chính được cung cấp cùng với gói Python này. Thao tác này lấy tệp PDF làm đầu vào và tạo tệp hOCR làm đầu ra
usage: pdftotree [options] pdf_file Convert PDF into hOCR. positional arguments: pdf_file Path to input PDF file. optional arguments: -h, --help show this help message and exit -mt {vision,ml,None}, --model_type {vision,ml,None} Model type to use. None [default] for heuristics approach. -m MODEL_PATH, --model_path MODEL_PATH Pretrained model, generated by extract_tables tool -o OUTPUT, --output OUTPUT Path to output hOCR file. If not given, it will be printed to stdout. -V, --visualize Whether to output visualization images -v, --verbose Output INFO level logging. -vv, --veryverbose Output DEBUG level logging.
Cho các nhà phát triển
Chúng tôi đang theo Phiên bản ngữ nghĩa 2. 0. 0 quy ước. Những người bảo trì sẽ tạo một thẻ git cho mỗi bản phát hành và tăng số phiên bản được tìm thấy trong tệp phiên bản tương ứng. Chúng tôi tự động triển khai thẻ cho PyPI bằng cách sử dụng Tác vụ GitHub
Đối với những người là nhà phát triển python, bạn có thể có yêu cầu thích hợp để chuyển đổi PDF thành HTML hoặc trích xuất nội dung văn bản từ PDF cho mục đích lập chỉ mục. Tại API2PDF, chúng tôi có điểm cuối PDF sang HTML nỗ lực hết sức để trích xuất văn bản từ PDF và xuất tài liệu HTML
API của chúng tôi sẽ đưa bạn. pdf và chuyển nó sang html. Chỉ cần đảm bảo rằng PDF của bạn được lưu dưới dạng. pdf và có thể truy cập tại một URL mà dịch vụ của chúng tôi có thể nhập. Ví dụ, xem cái này. http. //www. api2pdf. com/wp-content/uploads/2021/01/1a082b03-2bd6-4703-989d-0443a88e3b0f-4. pdf — Lý tưởng nhất là nhà cung cấp dịch vụ lưu trữ tệp như S3 hoặc Azure Blob Storage. Xem mẫu mã bên dưới
Chuyển đổi PDF sang HTML bằng Python
Bước 1] Mở trình quản lý gói của bạn và chạy lệnh
cài đặt pip api2pdf
Bước 2] Lấy khóa API từ https. // cổng thông tin. api2pdf. com. Chỉ mất 60 giây
Bước 3] Sử dụng mã mẫu bên dưới và thay thế “YOUR-API-KEY” bằng khóa api bạn đã lấy ở bước 2
from api2pdf import Api2Pdf
a2p_client = Api2Pdf['YOUR-API-KEY']
api_response = a2p_client.LibreOffice.pdf_to_html['//link-to-your-pdf']
print[api_response.result]
Và đó là nó. Sửa đổi mã khi bạn thấy phù hợp. Hy vọng rằng điều này giúp bạn tiết kiệm thời gian và làm cho việc chuyển đổi các tệp PDF sang HTML trở nên dễ dàng và không gây đau đớn cho những người viết mã python
Xem toàn bộ thư viện github
Chúng tôi có toàn bộ thư viện máy khách dựa trên python cho API của chúng tôi, có nhiều chức năng hơn thế này. Kiểm tra các khả năng thư viện đầy đủ ở đây. https. //github. com/Api2Pdf/api2pdf. con trăn