Python chuyển đổi PDF sang HTML

Trang này mô tả cách chuyển đổi PDF sang HTML bằng Python bằng API Pdfcrowd dựa trên đám mây. API rất dễ sử dụng và chỉ cần một vài dòng mã để tích hợp nó vào ứng dụng của bạn

Cài đặt

Thư viện máy khách API Python cung cấp quyền truy cập dễ dàng vào API Pdfcrowd. Không yêu cầu thư viện của bên thứ ba

Cài đặt thư viện máy khách từ PyPI
pip install pdfcrowd

Chúng tôi cũng cung cấp các tùy chọn cài đặt khác

Thông tin đăng nhập để truy cập API là tên người dùng Pdfcrowd của bạn và khóa API. Bạn có thể dùng thử API mà không cần đăng ký bằng thông tin đăng nhập demo sau

CẢNH BÁO. pdftotree là mã thử nghiệm và KHÔNG ổn định. Nó không được Fonduer tích hợp hoặc hỗ trợ

Fonduer thực hiện xây dựng cơ sở tri thức từ dữ liệu được định dạng phong phú như bảng. Một bước quan trọng trong quá trình này là xây dựng cây phân cấp của các đối tượng ngữ cảnh như khối văn bản, hình, bảng, v.v. Hệ thống hiện đang sử dụng tính năng chuyển đổi PDF sang HTML do Adobe Acrobat cung cấp. Tuy nhiên, Adobe Acrobat không phải là một công cụ mã nguồn mở, điều này có thể gây bất tiện cho người dùng Fonduer

Gói này là kết quả của việc xây dựng mô-đun của riêng chúng tôi để thay thế cho Adobe Acrobat. Một số công cụ nguồn mở có sẵn để chuyển đổi pdf sang html nhưng những công cụ này không bảo toàn cấu trúc ô trong bảng. Mục tiêu của chúng tôi trong dự án này là phát triển một công cụ trích xuất văn bản, số liệu và bảng trong tài liệu pdf và trả lại chúng ở định dạng dễ sử dụng

Lên đến v0. 4. 1, đầu ra của pdftotree được định dạng theo định dạng “giống HTML” của chính nó. từ v0. 5. 0, nó phù hợp với hOCR, một định dạng chuẩn mở cho kết quả OCR

phụ thuộc

pdftotree phụ thuộc vào các thư viện gốc sau

  • ImageMagick 6+ [dành cho Cây đũa phép]

  • Java 8+ [dành cho tabula-py]

Cài đặt

Để cài đặt gói này từ PyPi

$ pip install pdftotree

Cách sử dụng

pdftotree dưới dạng gói Python

import pdftotree

pdftotree.parse[pdf_file, html_path=None, model_type=None, model_path=None, visualize=False]:

Đây là tiện ích dòng lệnh chính được cung cấp cùng với gói Python này. Thao tác này lấy tệp PDF làm đầu vào và tạo tệp hOCR làm đầu ra

usage: pdftotree [options] pdf_file

Convert PDF into hOCR.

positional arguments:
  pdf_file              Path to input PDF file.

optional arguments:
  -h, --help            show this help message and exit
  -mt {vision,ml,None}, --model_type {vision,ml,None}
                        Model type to use. None [default] for heuristics
                        approach.
  -m MODEL_PATH, --model_path MODEL_PATH
                        Pretrained model, generated by extract_tables tool
  -o OUTPUT, --output OUTPUT
                        Path to output hOCR file. If not given, it will be
                        printed to stdout.
  -V, --visualize       Whether to output visualization images
  -v, --verbose         Output INFO level logging.
  -vv, --veryverbose    Output DEBUG level logging.

Cho các nhà phát triển

Chúng tôi đang theo Phiên bản ngữ nghĩa 2. 0. 0 quy ước. Những người bảo trì sẽ tạo một thẻ git cho mỗi bản phát hành và tăng số phiên bản được tìm thấy trong tệp phiên bản tương ứng. Chúng tôi tự động triển khai thẻ cho PyPI bằng cách sử dụng Tác vụ GitHub

Đối với những người là nhà phát triển python, bạn có thể có yêu cầu thích hợp để chuyển đổi PDF thành HTML hoặc trích xuất nội dung văn bản từ PDF cho mục đích lập chỉ mục. Tại API2PDF, chúng tôi có điểm cuối PDF sang HTML nỗ lực hết sức để trích xuất văn bản từ PDF và xuất tài liệu HTML

API của chúng tôi sẽ đưa bạn. pdf và chuyển nó sang html. Chỉ cần đảm bảo rằng PDF của bạn được lưu dưới dạng. pdf và có thể truy cập tại một URL mà dịch vụ của chúng tôi có thể nhập. Ví dụ, xem cái này. http. //www. api2pdf. com/wp-content/uploads/2021/01/1a082b03-2bd6-4703-989d-0443a88e3b0f-4. pdf — Lý tưởng nhất là nhà cung cấp dịch vụ lưu trữ tệp như S3 hoặc Azure Blob Storage. Xem mẫu mã bên dưới

Chuyển đổi PDF sang HTML bằng Python

Bước 1] Mở trình quản lý gói của bạn và chạy lệnh

cài đặt pip api2pdf

Bước 2] Lấy khóa API từ https. // cổng thông tin. api2pdf. com. Chỉ mất 60 giây

Bước 3] Sử dụng mã mẫu bên dưới và thay thế “YOUR-API-KEY” bằng khóa api bạn đã lấy ở bước 2

from api2pdf import Api2Pdf

a2p_client = Api2Pdf['YOUR-API-KEY']
api_response = a2p_client.LibreOffice.pdf_to_html['//link-to-your-pdf']
print[api_response.result]

Và đó là nó. Sửa đổi mã khi bạn thấy phù hợp. Hy vọng rằng điều này giúp bạn tiết kiệm thời gian và làm cho việc chuyển đổi các tệp PDF sang HTML trở nên dễ dàng và không gây đau đớn cho những người viết mã python

Xem toàn bộ thư viện github

Chúng tôi có toàn bộ thư viện máy khách dựa trên python cho API của chúng tôi, có nhiều chức năng hơn thế này. Kiểm tra các khả năng thư viện đầy đủ ở đây. https. //github. com/Api2Pdf/api2pdf. con trăn

Chúng tôi có thể chuyển đổi PDF sang HTML bằng Python không?

Chuyển PDF sang HTML bằng Python. Có hai mô-đun chuyển đổi HTML và một trong số đó là Tiện ích bổ sung tùy chọn . Mô-đun HTML tích hợp được sử dụng để chuyển đổi tài liệu PDF thành tài liệu HTML có vị trí cố định.

Tôi có thể chuyển đổi PDF sang mã HTML không?

Cách chuyển đổi PDF thành HTML. Cách nhanh nhất để chuyển đổi PDF của bạn là mở nó trong Acrobat. Chuyển đến menu Tệp, điều hướng xuống Xuất sang và chọn Trang web HTML . PDF của bạn sẽ tự động chuyển đổi và mở trong trình duyệt web mặc định của bạn.

Làm cách nào để chuyển đổi PDF sang HTML trực tuyến?

PDF sang HTML .
Bước 1 - Chọn [các] tệp để chuyển đổi. Chọn tệp. Từ máy tính của tôi Từ thiết bị của tôi Từ URL Từ Hộp Từ Dropbox Từ Google Drive Từ OneDrive. Kéo và thả tệp. tối đa. .
Bước 2 - Chuyển đổi tệp của bạn thành. Chuyển đổi thành
Bước 3 - Bắt đầu chuyển đổi. Chuyển đổi ngay. [Và đồng ý với Điều khoản của chúng tôi] Gửi email khi hoàn tất?

Trình chuyển đổi PDF sang HTML tốt nhất là gì?

6 Công cụ tuyệt vời để chuyển đổi trang web PDF sang HTML một cách hiệu quả .
Trình chuyển đổi PDF TalkHelper. các cửa sổ. Phiên bản đầy đủ. Tải xuống miễn phí
Adobe Acrobat. Windows, Mac, Di động. Dùng thử miễn phí. .
Pdf2htmlEX. Windows, Mac, Linux. Phiên bản miễn phí. .
PDFMate. Windows, máy Mac. Bản trình diễn miễn phí. .
Trình chuyển đổi Zamzar PDF sang HTML. dựa trên web. Dùng thử miễn phí. .
Trình chuyển đổi PDF sang HTML miễn phí

Chủ Đề