Hướng dẫn read pdf python - đọc pdf python
Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem nó cùng với hướng dẫn bằng văn bản để hiểu sâu hơn về sự hiểu biết của bạn: Cách làm việc với PDF trong Python This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: How to Work With a PDF in Python Show
Định dạng tài liệu di động, hoặc PDF, là một định dạng tệp có thể được sử dụng để trình bày và trao đổi tài liệu một cách đáng tin cậy trên các hệ điều hành. Mặc dù PDF ban đầu được Adobe phát minh ra, nhưng hiện tại đây là một tiêu chuẩn mở được duy trì bởi Tổ chức Tiêu chuẩn hóa Quốc tế (ISO). Bạn có thể làm việc với PDF có sẵn trong Python bằng cách sử dụng gói
Đến cuối bài viết này, bạn sẽ biết cách làm như sau:
Bắt đầu nào! Lịch sử của pyPdf, PyPDF2 và PyPDF4Gói Có một loạt các bản phát hành ngắn gọn về một gói có tên 4, và sau đó dự án được đổi tên thành PyPDF4 . Tất cả các dự án này làm khá nhiều điều tương tự, nhưng sự khác biệt lớn nhất giữa pyPdf và PYPDF2+ là các phiên bản sau đã thêm hỗ trợ Python 3. Có một ngã ba Python 3 khác của pyPdf ban đầu cho Python 3, nhưng người ta đã không được duy trì trong nhiều năm.Trong khi # pdf_splitting.py from PyPDF2 import PdfFileReader, PdfFileWriter def split(path, name_of_split): pdf = PdfFileReader(path) for page in range(pdf.getNumPages()): pdf_writer = PdfFileWriter() pdf_writer.addPage(pdf.getPage(page)) output = f'{name_of_split}{page}.pdf' with open(output, 'wb') as output_pdf: pdf_writer.write(output_pdf) if __name__ == '__main__': path = 'Jupyter_Notebook_An_Introduction.pdf' split(path, 'jupyter_page') 5: Một giải pháp thay thếPatrick Maupin đã tạo ra một gói có tên 5 có thể làm nhiều điều tương tự mà PyPDF2 làm. Bạn có thể sử dụng 5 cho tất cả các loại tác vụ giống nhau mà bạn sẽ học cách thực hiện trong bài viết này cho PyPDF2 , ngoại trừ đáng chú ý là mã hóa.Sự khác biệt lớn nhất khi nói đến 5 là nó tích hợp với gói Báo cáo để bạn có thể lấy PDF có từ trước và xây dựng một bản mới với Báo cáo bằng cách sử dụng một số hoặc tất cả các PDF có từ trước.Cài đặtCài đặt 2 hoặc 3 nếu bạn tình cờ sử dụng Anaconda thay vì Python thông thường.Tại đây, cách bạn sẽ cài đặt 2:Việc cài đặt khá nhanh vì Bây giờ, hãy để di chuyển và tìm hiểu cách trích xuất một số thông tin từ PDF. Cách xoay trangThỉnh thoảng, bạn sẽ nhận được các tệp PDF có chứa các trang ở chế độ cảnh quan thay vì chế độ chân dung. Hoặc có lẽ họ thậm chí còn lộn ngược. Điều này có thể xảy ra khi ai đó quét tài liệu vào PDF hoặc email. Bạn có thể in tài liệu ra và đọc phiên bản giấy hoặc bạn có thể sử dụng sức mạnh của Python để xoay các trang vi phạm. Trong ví dụ này, bạn có thể đi và chọn một bài báo Python thực sự và in nó vào PDF. Hãy cùng học cách xoay một vài trang của bài viết đó với
Đối với ví dụ này, bạn cần nhập 8 ngoài 9 vì bạn sẽ cần phải viết ra một bản PDF mới. 0 đi theo con đường đến PDF mà bạn muốn sửa đổi. Trong chức năng đó, bạn sẽ cần tạo một đối tượng nhà văn mà bạn có thể đặt tên cho 1 và một đối tượng đầu đọc có tên 2.Tiếp theo, bạn có thể sử dụng 3 để có được trang mong muốn. Ở đây bạn lấy trang Zero, đó là trang đầu tiên. Sau đó, bạn gọi phương thức đối tượng trang 4 và vượt qua 90 độ. Sau đó, cho trang hai, bạn gọi 5 và vượt qua 90 độ.Sau mỗi cuộc gọi đến các phương thức xoay, bạn gọi 6. Điều này sẽ thêm phiên bản xoay của trang vào đối tượng nhà văn. Trang cuối cùng mà bạn thêm vào đối tượng nhà văn là trang 3 mà không có bất kỳ vòng quay nào được thực hiện.Cuối cùng, bạn viết ra PDF mới bằng 7. Nó lấy một đối tượng giống như tệp làm tham số của nó. PDF mới này sẽ chứa ba trang. Hai cái đầu tiên sẽ được xoay theo các hướng ngược nhau của nhau và ở trong cảnh quan trong khi trang thứ ba là một trang bình thường.Bây giờ, hãy để tìm hiểu làm thế nào bạn có thể hợp nhất nhiều tệp PDF thành một. Cách hợp nhất PDFSCó nhiều tình huống mà bạn sẽ muốn lấy hai hoặc nhiều tệp PDF và hợp nhất chúng lại với nhau thành một tệp PDF duy nhất. Ví dụ: bạn có thể có một trang bìa tiêu chuẩn cần phải đi vào nhiều loại báo cáo. Bạn có thể sử dụng Python để giúp bạn làm điều đó. Đối với ví dụ này, bạn có thể mở PDF và in một trang dưới dạng PDF riêng biệt. Sau đó làm điều đó một lần nữa, nhưng với một trang khác. Điều đó sẽ cung cấp cho bạn một vài đầu vào để sử dụng ví dụ như mục đích. Hãy cùng tiếp tục và viết một số mã mà bạn có thể sử dụng để hợp nhất các tệp PDF cùng nhau:
Bạn có thể sử dụng 8 khi bạn có danh sách các tệp PDF mà bạn muốn hợp nhất với nhau. Bạn cũng sẽ cần biết nơi lưu kết quả, vì vậy chức năng này lấy một danh sách các đường dẫn đầu vào và đường dẫn đầu ra.Sau đó, bạn lặp qua các đầu vào và tạo một đối tượng đầu đọc PDF cho mỗi đối tượng. Tiếp theo, bạn sẽ lặp lại tất cả các trang trong tệp PDF và sử dụng 6 để thêm từng trang đó vào chính nó.Khi bạn đã hoàn thành việc lặp lại trên tất cả các trang của tất cả các tệp PDF trong danh sách của bạn, bạn sẽ viết ra kết quả ở cuối. Một mục tôi muốn chỉ ra là bạn có thể nâng cao tập lệnh này một chút bằng cách thêm vào một loạt các trang sẽ được thêm vào nếu bạn không muốn hợp nhất tất cả các trang của mỗi PDF. Nếu bạn thích một thử thách, bạn cũng có thể tạo giao diện dòng lệnh cho chức năng này bằng mô -đun PythonTHER Hãy cùng tìm hiểu làm thế nào để làm ngược lại với sự hợp nhất! Cách phân chia PDFSCó những lúc bạn có thể có PDF mà bạn cần chia thành nhiều tệp PDF. Điều này đặc biệt đúng với các tệp PDF có chứa nhiều nội dung được quét, nhưng có rất nhiều lý do chính đáng để muốn chia PDF. Tại đây, cách bạn có thể sử dụng
Trong ví dụ này, bạn một lần nữa tạo một đối tượng đầu đọc PDF và lặp qua các trang của nó. Đối với mỗi trang trong PDF, bạn sẽ tạo một thể hiện nhà văn PDF mới và thêm một trang duy nhất vào đó. Sau đó, bạn sẽ viết trang đó ra một tệp được đặt tên duy nhất. Khi tập lệnh được hoàn thành, bạn nên có mỗi trang của PDF gốc chia thành các tệp PDF riêng biệt. Bây giờ, hãy để Lôi dành một chút thời gian để tìm hiểu làm thế nào bạn có thể thêm hình mờ vào tệp PDF của bạn. Cách thêm hình mờHình mờ đang xác định hình ảnh hoặc mẫu trên các tài liệu in và kỹ thuật số. Một số hình mờ chỉ có thể được nhìn thấy trong điều kiện ánh sáng đặc biệt. Lý do Watermarking rất quan trọng là nó cho phép bạn bảo vệ tài sản trí tuệ của mình, chẳng hạn như hình ảnh hoặc tệp PDF của bạn. Một thuật ngữ khác cho hình mờ là lớp phủ. Bạn có thể sử dụng Python và Hãy cùng học cách thêm một hình mờ ngay bây giờ:
Trong mã, bạn mở PDF Watermark và chỉ lấy trang đầu tiên từ tài liệu vì đó là nơi mà Watermark của bạn nên cư trú. Sau đó, bạn tạo một đối tượng đầu đọc PDF bằng cách sử dụng đối tượng 1 chung để viết ra PDF có hình mờ.Bước tiếp theo là lặp lại các trang trong 1 của bạn.Cuối cùng, bạn viết PDF mới được đánh dấu vào đĩa, và bạn đã hoàn thành! Chủ đề cuối cùng bạn sẽ tìm hiểu là cách Cách mã hóa PDF
Theo như tôi có thể nói, Bất kể, đây là cách bạn có thể thêm mật khẩu, vốn cũng sẽ mã hóa PDF:
Bước cuối cùng là gọi Sự kết luậnGói Trong hướng dẫn này, bạn đã học cách làm như sau:
Ngoài ra, hãy để mắt đến gói 5, có thể thực hiện nhiều điều tương tự mà PyPDF2 có thể làm.Đọc thêmNếu bạn muốn tìm hiểu thêm về việc làm việc với PDFS trong Python, bạn nên kiểm tra một số tài nguyên sau đây để biết thêm thông tin:
Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem nó cùng với hướng dẫn bằng văn bản để hiểu sâu hơn về sự hiểu biết của bạn: Cách làm việc với PDF trong Python This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: How to Work With a PDF in Python |