Pandoc PDF sang HTML

Nếu bạn đã quen thuộc với pandoc, bạn sẽ biết nó hữu ích và linh hoạt như thế nào. Một trong nhiều định dạng mà bạn có thể chuyển đổi sang sử dụng pandoc là PDF

Trước phiên bản 2 của công cụ, bạn cần cài đặt hệ thống sắp chữ TeX (và các tiện ích mở rộng LaTeX) trên máy tính của mình để truy cập trực tiếp vào PDF. TeX rất tuyệt, nhưng nó cũng khá lớn. Và nếu bạn chỉ tạo PDF không thường xuyên, thì việc cài đặt một hệ thống TeX cơ bản trên máy tính của bạn là quá mức cần thiết

Với phiên bản 2 của pandoc đã xuất hiện một tùy chọn mới. –pdf-công cụ. Tùy chọn đó cho phép bạn chỉ định công cụ nào sẽ sử dụng khi thực hiện chuyển đổi sang PDF. Mặc dù bạn vẫn có thể sử dụng LaTeX (và một vài công cụ khác) để thực hiện hành động, nhưng bạn không cần bận tâm đến tất cả số lượng lớn đó

Hãy cùng xem cách tạo tệp PDF từ tệp Markdown bằng pandoc và một số tiện ích nhẹ hơn

Bắt đầu

Bạn sẽ cần cài đặt pandoc trên máy tính của mình cùng với một trong những công cụ này

Đối với mục đích của chúng tôi, WeasyPrint và wkhtmltopdf về cơ bản là giống nhau, nhưng có một vài hoặc ba điểm khác biệt nhỏ. Tôi sẽ chạm vào một trong những điểm khác biệt đó trong giây lát

Thực hiện chuyển đổi

Như tôi đã đề cập ở một vài đoạn trước, tôi sẽ xem cách tạo tệp PDF từ tệp được định dạng bằng Markdown. Để làm điều đó, hãy mở một cửa sổ đầu cuối trên máy tính của bạn. Điều hướng đến thư mục chứa tệp bạn muốn chuyển đổi sang PDF rồi nhập một trong hai

pandoc [file-name].md --pdf-engine=weasyprint -o [file-name].pdf

hoặc là

pandoc [file-name].md --pdf-engine=wkhtmltopdf -o [file-name].pdf

Ở đâu [tên tệp]. md là tên của tệp Markdown mà bạn muốn chuyển đổi

Ghi chú. Một số người thêm tùy chọn -t html vào các lệnh đó để tạo tệp HTML mà WeasyPrint và wkhtmltopdf sau đó chuyển đổi thành PDF. Lệnh cũng hoạt động mà không có tùy chọn đó

Đây là kết quả của một chuyển đổi sử dụng wkhtmltopdf

Pandoc PDF sang HTML

Những gì bạn nhận được trông khá giống nhau khi bạn sử dụng WeasyPrint để thực hiện chuyển đổi. Kết quả là hoạt động được, nhưng đó không phải là tệp PDF đẹp mắt mà tôi đã hứa với bạn trong tiêu đề của bài viết này. Vì vậy, hãy xem cách thêm một chút điểm nhấn trực quan vào tệp PDF được tạo bằng pandoc

Nhập CSS in

Cascading Style Sheets (viết tắt là CSS) là một cách để thay đổi giao diện của trang web hoặc trang web. Print CSS mở rộng điều đó để định dạng một trang web hoặc trang web sẽ được in. Nó thêm hỗ trợ để thay đổi kích thước trang, thêm ngắt trang, ẩn các thành phần không nên in, thêm trang bìa, v.v.

Tôi sẽ không đi sâu vào bất kỳ chi tiết CSS nào ở đây, bởi vì đó là một chủ đề lớn mà bộ não nhỏ bé của tôi gặp khó khăn khi xoay quanh. Tuy nhiên, tôi sẽ không để bạn treo. Dưới đây là một số nguồn thông tin có thể giúp bạn bắt đầu với CSS in

Sử dụng Print CSS trong Chuyển đổi

Giả sử bạn đã tạo tệp CSS in của riêng mình hoặc xin/mượn một tệp từ đâu đó. Để sử dụng nó, bạn sẽ cần thêm tùy chọn –css= vào chuỗi tùy chọn mà bạn sử dụng với pandoc

Vì vậy, một lần nữa, hãy mở cửa sổ đầu cuối trên máy tính của bạn. Điều hướng đến thư mục chứa tệp bạn muốn chuyển đổi sang PDF rồi nhập một trong hai

pandoc [file-name].md --pdf-engine=weasyprint --css=pdf-styles.css -o [file-name].pdf

hoặc là

pandoc [file-name].md --pdf-engine=wkhtmltopdf --css=pdf-styles.css -V papersize:a5 -o [file-name].pdf

Thay đổi kiểu pdf. css vào tên tệp CSS in của bạn. Đây là một ví dụ về đầu ra, thông qua WeasyPrint, từ tệp CSS in mà tôi sử dụng

Pandoc PDF sang HTML

Biểu định kiểu của tôi, mặc dù khá cơ bản

  • Đặt kích thước của trang thành A5
  • Thêm ngắt trang trước mỗi Tiêu đề 1
  • Tạo lề 1 inch (2. 5 cm) xung quanh
  • Sử dụng phông chữ Overpass cho tất cả văn bản

Điểm đầu tiên trong danh sách trên là một lĩnh vực mà WeasyPrint và wkhtmltopdf khác nhau. wkhtmltopdf bỏ qua kích thước trang mà bạn chỉ định trong tệp CSS. Thay vào đó, bạn cần chỉ định kích thước trang trong lệnh chuyển đổi bằng tùy chọn -V papersize. a5

Các ví dụ tôi đã đưa vào bài viết này khá cơ bản. Nhưng, tôi hy vọng, chúng sẽ giúp khơi dậy một số ý tưởng để chuyển đổi tài liệu của bạn được định dạng bằng Markdown (hoặc ngôn ngữ đánh dấu khác) sang PDF bằng pandoc

Pandoc là một công cụ mạnh mẽ để chuyển đổi bất kỳ tệp nào sang định dạng bạn muốn. Kiểm tra bảng gian lận tiện dụng của chúng tôi

Qua

Seth Kenlon (Đội, Mũ đỏ)

Ngày 14 tháng 5 năm 2020 . . %t phút đọc

Đăng ký hoặc Đăng nhập để thích

Pandoc PDF sang HTML

Hình ảnh của

Mã nguồn mở. com

Đã có ai từng gửi cho bạn một tài liệu có định dạng không phù hợp với bạn chưa? . Không có lý do sai lầm nào để không thích một định dạng tệp. Nếu đó không phải là định dạng ưa thích của bạn, cho dù bạn thấy nó cồng kềnh khi sử dụng hay bạn không thích cách tổ chức siêu dữ liệu của nó, thì đó cũng đủ là lý do để bạn chuyển đổi nó. Tuy nhiên, hiếm khi có lý do chính đáng để chuyển đổi tài liệu theo cách thủ công và Pandoc ở đây để đảm bảo bạn không bao giờ phải chuyển đổi tài liệu theo cách thủ công.

Cài đặt pandoc

Nếu bạn đang dùng Linux, bạn có thể cài đặt pandoc từ kho phần mềm của mình

Trên Fedora hoặc CentOS hoặc tương tự

$ sudo dnf install pandoc

Trên Ubuntu, Sơ cấp, Debian hoặc tương tự

$ apt install pandoc

Nếu đang dùng Windows hoặc macOS, bạn có thể sử dụng trình cài đặt của bên thứ ba. Đối với Windows, có Chocolatey và trên macOS, bạn có thể sử dụng MacPorts hoặc Homebrew

Khi bạn đã cài đặt xong, bạn có thể xác minh bằng cách kiểm tra phiên bản đơn giản

$ pandoc --version
pandoc x.y.z
[...]

Thông tin cơ bản về Pandoc

Ở mức cơ bản nhất, lệnh pandoc là một trong những lệnh dễ sử dụng nhất. Bạn nhập pandoc vào một thiết bị đầu cuối, cung cấp cho nó tệp bạn muốn chuyển đổi, sau đó nhập --output và đặt tên cho tệp đầu ra bạn muốn. Pandoc thường có thể tự động phát hiện cả hai định dạng từ phần mở rộng tên tệp của chúng và chuyển đổi từ định dạng này sang định dạng khác

Đây là một ví dụ đơn giản để chuyển đổi từ một. tệp docx thành. odt

$ pandoc ~/Documents/example.docx --output ~/Documents/example.odt

Nếu bạn không quen sử dụng thiết bị đầu cuối, hãy nhớ rằng trong hầu hết các ứng dụng thiết bị đầu cuối hiện đại, bạn có thể kéo và thả tệp từ máy tính để bàn của mình vào thiết bị đầu cuối để dịch nó thành một đường dẫn đầy đủ mà máy tính của bạn hiểu được

Bạn có thể chỉ định gần như bất kỳ định dạng nào bạn có thể nghĩ đến

$ pandoc ~/Documents/example.docx --output ~/public_html/example.html

Đúng rồi. Pandoc cho phép bạn xuất nhiều định dạng khác nhau từ một định dạng nguồn duy nhất

Tìm định dạng nguồn của bạn

Nội dung tuyệt vời hơn

  • khóa học trực tuyến miễn phí. Tổng quan về kỹ thuật RHEL
  • Tìm hiểu các lệnh Linux nâng cao
  • Tải xuống Cheat Sheet
  • Tìm giải pháp thay thế mã nguồn mở
  • Đọc nội dung Linux hàng đầu
  • Kiểm tra tài nguyên mã nguồn mở

Không mất nhiều thời gian để nhận ra rằng Pandoc có thể linh hoạt hơn bạn, hoặc ít nhất, nó linh hoạt hơn những gì bạn mong muốn. Bởi vì nó chỉ là một phần mềm, Pandoc không quan tâm bạn đã viết bài luận văn mới nhất của mình bằng LaTeX, Docbook, Markdown hay thậm chí là JSON (cảnh báo. đừng viết luận văn của bạn bằng JSON). Nó có thể xử lý bất cứ thứ gì bạn có và biến nó thành bất kỳ định dạng nào bạn cần. Cũng như rất nhiều dự án nguồn mở, bạn có quyền tự do lựa chọn công cụ nào bạn thích nhất

Nếu bạn biết HTML cơ bản và muốn viết mọi thứ trong đó, thì hãy lấy một trình soạn thảo HTML tốt và bắt đầu viết. Pandoc sẽ chuyển đổi nó thành bất cứ thứ gì mà sếp, khách hàng hoặc giáo sư của bạn cần. Hoặc có thể bạn thích Docbook hoặc LaTeX, CommonMark, chế độ Org hoặc chỉ là một LibreOffice cũ đơn giản. odt. Nó không quan trọng với Pandoc. Tìm định dạng yêu thích của bạn, định dạng cho phép bạn tập trung hoàn thành công việc của mình và để Pandoc thực hiện phần khó khăn

tùy chọn pandoc

Có vẻ như không phải vậy, nhưng bây giờ bạn đã biết tất cả những điều cơ bản về Pandoc. Đó là một lệnh đơn giản giúp chuyển đổi từ định dạng tài liệu này sang định dạng tài liệu khác. Nếu đó là tất cả những gì bạn cần, thì bạn đã hoàn thành bài viết này

Tuy nhiên, Pandoc là một ứng dụng lớn với nhiều tùy chọn cho mọi định dạng mà nó có thể xử lý. Nếu bạn đã là người dùng Pandoc hoặc bạn muốn tìm hiểu sâu hơn về những gì Pandoc có thể làm, bạn cần xem các tùy chọn lệnh của nó

Từ và đến

Các tùy chọn đầu tiên bạn cần biết là cờ --from và --to. Những điều này cho Pandoc biết rõ định dạng cần xử lý từ và đến, và bạn có thể sử dụng chúng khi đầu ra của Pandoc không khớp với những gì bạn mong đợi hoặc khi bạn cần phân biệt giữa các định dạng có thể chia sẻ cùng một phần mở rộng

Ví dụ: CommonMark, Markdown, markdown_phpextra, markdown_strict và markdown_github đều có thể sử dụng một trong hai. md hoặc. phần mở rộng txt. Cả HTML và HTML5 đều sử dụng. html và EPUB phiên bản 2 và 3 đều sử dụng. tiện ích mở rộng epub. Chỉ định chính xác chuyển đổi định dạng bạn muốn đảm bảo Pandoc cung cấp cho bạn đầu ra như mong đợi

$ pandoc --from docx example.docx --to commonmark example.md

Mục lục

Nó thay đổi từ định dạng này sang định dạng khác, nhưng Pandoc không phải lúc nào cũng cung cấp mục lục. Tùy chọn --table-of-contents, hoặc viết tắt là --toc, đảm bảo rằng một tài liệu có dấu ngắt chương (hoặc các dấu phân nhóm như h2 trong HTML, ## trong Markdown, v.v.) được thêm vào trước một danh sách các chương

Nếu bạn có các chương có tiểu mục và các phần trong các tiểu mục đó, thì bạn có thể sử dụng --toc-depth để đặt số lượng tiêu đề phụ được liệt kê dưới mỗi chương

Epub cho sách điện tử

Epub, một tiêu chuẩn mở, là một trong những định dạng sách điện tử phổ biến nhất. Bạn có thể tạo chúng từ các ứng dụng như LibreOffice, Calibre, Scribus và nhiều ứng dụng khác hoặc bạn chỉ có thể chuyển đổi sang Epub bằng Pandoc. Nếu bạn biết một chút về CSS, bạn có thể dễ dàng tạo kiểu cho Epub của mình bằng cách cung cấp biểu định kiểu khi chạy Pandoc

$ pandoc --epub-stylesheet my.css foo.md --output foo.epub

Ngoài ra, bạn có thể đặt siêu dữ liệu của riêng mình để người đọc Epub biết cách sắp xếp sách. Để thực hiện việc này, hãy tạo một tệp XML đơn giản trong bất kỳ trình soạn thảo văn bản nào

Creative Commons
Seth Kenlon
Be a Pandoc Pro

Lưu tệp rồi sử dụng tệp làm nguồn siêu dữ liệu của bạn khi chuyển đổi

________số 8_______

tùy chọn PDF

Hầu hết các hệ thống POSIX đều có khả năng "in" thành PDF. Điều này làm cho việc tạo tệp PDF trở nên dễ dàng, nhưng đôi khi nó dẫn đến một số lỗi, chẳng hạn như siêu dữ liệu không chính xác. Nếu bạn mua sách điện tử RPG và độc lập, thì chắc chắn bạn đã bắt gặp một tệp PDF có chất lượng chuyên nghiệp khác với tiêu đề được nhúng là "Tài liệu Word. docx" hoặc PDF với các siêu liên kết được hiển thị bằng màu xanh sáng bất kể kiểu tài liệu (và chúng thậm chí thường không hoạt động)

Một cách để kiểm soát cách hiển thị PDF của bạn là sử dụng Pandoc. Với Pandoc, bạn có thể sử dụng các lệnh LaTeX trong tài liệu nguồn của mình để tác động đến đầu ra PDF và bạn có thể thêm các khóa và giá trị siêu dữ liệu của riêng mình

$ pandoc --metadata=title:"My Professional Report" foo.odt --output foo.pdf

Tải xuống bảng cheat Pandoc

Pandoc là một thế lực cho bất kỳ ai cần chuyển đổi định dạng tài liệu. Ngay cả khi nó không cung cấp cho bạn chính xác những gì bạn muốn, nó hầu như luôn có thể đưa bạn đến gần hơn với những gì bạn cần. Sử dụng các định dạng mở và chuẩn hóa khi viết nội dung và yên tâm rằng Pandoc có thể chuyển đổi sang bất kỳ thứ gì khác mà bạn cần. Bạn càng sử dụng Pandoc, chắc chắn bạn càng khám phá được nhiều điều

Để giúp bạn trong quá trình khám phá, chúng tôi đã phát triển bảng cheat Pandoc cập nhật như một tài liệu tham khảo hữu ích. Bảng gian lận hầu như không bao gồm mọi thứ mà Pandoc có khả năng, nhưng nó cung cấp một số lệnh phổ biến trong các ngữ cảnh chung và cung cấp ý nghĩa về quy trình làm việc chung mà bạn có thể mong đợi

Đọc gì tiếp theo

Pandoc PDF sang HTML

Biến sách của bạn thành một trang web và ePub bằng Pandoc

Viết một lần, xuất bản hai lần bằng Markdown và Pandoc

Kiko Fernandez-Reyes

1 tháng 10, 2018

Pandoc PDF sang HTML

Cách sử dụng Pandoc để sản xuất một bài nghiên cứu

Tìm hiểu cách quản lý phần tham chiếu, số liệu, bảng, v.v. trong Markdown

Kiko Fernandez-Reyes

19 Tháng mười, 2018

Pandoc PDF sang HTML

Chuyển đổi tệp Markdown thành tài liệu xử lý văn bản bằng pandoc

Sống cuộc sống rõ ràng đó?

Scott Nesbitt

(Cựu sinh viên)

22 Tháng Năm, 2019

thẻ

tờ ăn gian

Seth Kenlon

Pandoc PDF sang HTML

Seth Kenlon là một người đam mê UNIX, người ủng hộ văn hóa tự do, nghệ sĩ đa phương tiện độc lập và mọt sách D&D. Anh ấy đã làm việc trong ngành công nghiệp điện ảnh và máy tính, thường là cùng một lúc

Thêm về tôi

2 Bình luận

Những bình luận này đã bị đóng, tuy nhiên bạn có thể Đăng ký hoặc Đăng nhập để đăng bình luận về một bài viết khác

Pandoc PDF sang HTML

David Anh Đào. 14 Tháng Năm, 2020

Đăng ký hoặc Đăng nhập để thích

Phần giới thiệu tuyệt vời và yêu thích bảng cheat. Công cụ rất đơn giản và mạnh mẽ đáng kinh ngạc mà tôi chưa từng nghe đến, cảm ơn vì đã giới thiệu và làm cho nó trở nên đơn giản để sử dụng và hiểu

Pandoc có thể chuyển đổi từ PDF không?

Làm cách nào để sử dụng pandoc để chuyển đổi LaTeX sang HTML?

LaTeX sang HTML qua Pandoc .
-f chỉ định định dạng nguồn, LaTeX
-t chỉ định định dạng đích (HTML)
-s yêu cầu pandoc tạo tệp HTML 'độc lập'
-o chỉ định tên tệp đầu ra
--bibliography cung cấp cho pandoc. bib cho các trích dẫn trong myTexFile. văn bản

Làm cách nào để chuyển đổi PDF sang HTML bằng Python?

Cách chuyển đổi PDF sang HTML .
Cài đặt 'Aspose. Từ cho Python thông qua. NET'
Thêm tham chiếu thư viện (nhập thư viện) vào dự án Python của bạn
Mở tệp PDF nguồn bằng Python
Gọi phương thức 'save()', chuyển tên tệp đầu ra có phần mở rộng HTML
Nhận kết quả chuyển đổi PDF dưới dạng HTML

Làm cách nào để chuyển đổi PDF sang xhtml?

Làm cách nào để chuyển đổi PDF sang XHTML? .
Tải lên tệp PDF để chuyển đổi. Loại tệp được phép. pdf, ps, xps, oxps, pcl, pxl, psz, prn
Đặt tùy chọn chuyển đổi PDF sang XHTML. Chuyển đổi sang. TIFF. JPEG. bác sĩ. Excel. HTML. Chữ. WMF. SVG. trình chiếu. XHTML. Tùy chọn. DPI hình ảnh. 75 DPI (Màn hình) 150 DPI (In nháp).
Nhận tệp đã chuyển đổi