Đôi khi, nhà phát triển Python cần thu thập một số thông tin văn bản từ tệp PDF. Vì vậy, trích xuất văn bản từ PDF là một vấn đề bạn nên biết cách giải quyết với tư cách là nhà phát triển Python. Nếu bạn muốn tìm hiểu cách trích xuất văn bản từ tệp pdf, bài viết này là dành cho bạn. Trong bài viết này, tôi sẽ hướng dẫn bạn cách trích xuất văn bản từ pdf bằng Python
Trích xuất văn bản từ PDF bằng Python
Bạn phải biết cách thu thập văn bản từ pdf với tư cách là nhà phát triển Python. Kỹ năng này rất hữu ích khi làm việc với sơ yếu lý lịch. Trích xuất văn bản từ tệp pdf không phải là một nhiệm vụ khó khăn. Đối với tác vụ này, bạn cần cài đặt thư viện Python có tên là PyPDF2
Bạn có thể dễ dàng cài đặt thư viện Python này bằng cách sử dụng lệnh pip trong thiết bị đầu cuối hoặc dấu nhắc lệnh như được đề cập bên dưới
- cài đặt pip pypdf2
Sau khi cài đặt thư viện Python này, tất cả chúng ta đã sẵn sàng để trích xuất văn bản từ bất kỳ tệp pdf nào. Dưới đây là cách bạn có thể trích xuất văn bản từ bất kỳ tệp PDF nào bằng ngôn ngữ lập trình Python
import PyPDF2 pdf = open["Aman.pdf", "rb"] reader = PyPDF2.PdfFileReader[pdf] page = reader.getPage[0] print[page.extractText[]]
Ở dòng thứ tư của đoạn mã trên, phương thức getPage[] sẽ giúp bạn chỉ định số trang mà bạn muốn trích xuất văn bản từ đó
Tóm lược
Vì vậy, đây là cách bạn có thể thu thập văn bản từ tệp PDF bằng ngôn ngữ lập trình Python. Trích xuất văn bản từ PDF là một vấn đề bạn nên biết cách giải quyết với tư cách là nhà phát triển Python. Tôi hy vọng bạn thích bài viết này về trích xuất văn bản từ tệp PDF bằng Python. Vui lòng đặt câu hỏi có giá trị trong phần bình luận bên dưới
PDF là một cách phổ biến để chia sẻ văn bản. PDF là viết tắt của Định dạng Tài liệu Di động và sử dụng. phần mở rộng tệp pdf. Nó được tạo ra vào đầu những năm 1990 bởi Adobe Systems
Đọc tài liệu PDF bằng python có thể giúp bạn tự động hóa nhiều tác vụ
Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách trích xuất văn bản từ tệp PDF bằng Python
Bắt đầu nào
Đọc và trích xuất văn bản từ tệp PDF bằng Python
Với mục đích của hướng dẫn này, chúng tôi đang tạo một tệp PDF mẫu có 2 trang. Bạn có thể làm như vậy bằng bất kỳ trình xử lý Word nào như Microsoft Word hoặc Google Docs và lưu tệp dưới dạng PDF
Văn bản trên trang 1
Hello World. This is a sample PDF with 2 pages. This is the first page.
Văn bản ở trang 2
This is the text on Page 2.
Sử dụng PyPDF2 để trích xuất văn bản PDF
Bạn có thể sử dụng PyPDF2 để trích xuất văn bản từ PDF. Hãy xem nó hoạt động như thế nào
1. Cài đặt gói
Để cài đặt PyPDF2 trên hệ thống của bạn, hãy nhập lệnh sau trên thiết bị đầu cuối của bạn. Bạn có thể đọc thêm về trình quản lý gói pip
pip install pypdf2
2. Nhập PyPDF2
Mở sổ ghi chép python mới và bắt đầu nhập PyPDF2
import PyPDF2
3. Mở PDF ở chế độ đọc-nhị phân
Bắt đầu với việc mở tệp PDF ở chế độ đọc nhị phân bằng dòng mã sau
pdf = open['sample_pdf.pdf', 'rb']
Thao tác này sẽ tạo một đối tượng PdfFileReader cho tệp PDF của chúng ta và lưu nó vào biến 'pdf'
4. Sử dụng PyPDF2. PdfFileReader[] để đọc văn bản
Bây giờ bạn có thể sử dụng phương thức PdfFileReader[] từ PyPDF2 để đọc tệp
pdfReader = PyPDF2.PdfFileReader[pdf]
Để lấy văn bản từ trang đầu tiên của PDF, hãy sử dụng các dòng mã sau
page_one = pdfReader.getPage[0] print[page_one.extractText[]]
Chúng tôi nhận được đầu ra như
________số 8_______
Ở đây chúng tôi đã sử dụng phương thức getPage để lưu trữ trang dưới dạng một đối tượng. Sau đó, chúng tôi đã sử dụng phương thức extractText[] để lấy văn bản từ đối tượng trang
Văn bản chúng tôi nhận được có kiểu String
Tương tự để lấy trang thứ hai từ việc sử dụng PDF
page_one = pdfReader.getPage[1] print[page_one.extractText[]]
Chúng tôi nhận được đầu ra như
This is the text on Page 2.
Mã hoàn chỉnh để đọc văn bản PDF bằng PyPDF2
Mã hoàn chỉnh từ phần này được đưa ra dưới đây
This is the text on Page 2.0
Nếu bạn để ý, định dạng của trang đầu tiên hơi sai ở đầu ra ở trên. Điều này là do PyPDF2 không hiệu quả lắm khi đọc các tệp PDF
May mắn thay, Python có giải pháp thay thế tốt hơn cho PyPDF2. Chúng ta sẽ xem xét điều đó tiếp theo
Sử dụng PDFplumber để trích xuất văn bản
PDFplumber là một công cụ khác có thể trích xuất văn bản từ PDF. Nó mạnh hơn so với PyPDF2
1. Cài đặt gói
Hãy bắt đầu cài đặt PDFplumber
This is the text on Page 2.1
2. Nhập pdfplumber
Bắt đầu với việc nhập PDFplumber bằng dòng mã sau
This is the text on Page 2.2
3. Sử dụng PDFplumber để đọc pdf
Bạn có thể bắt đầu đọc các tệp PDF bằng PDFplumber với đoạn mã sau
This is the text on Page 2.3
Điều này sẽ nhận được văn bản từ trang đầu tiên của PDF của chúng tôi. Đầu ra đến như
This is the text on Page 2.4
Bạn có thể so sánh điều này với đầu ra của PyPDF2 và xem PDFplumber tốt hơn như thế nào khi định dạng
PDFplumber cũng cung cấp các tùy chọn để lấy thông tin khác từ PDF
Ví dụ: bạn có thể sử dụng. page_number để lấy số trang
This is the text on Page 2.5
đầu ra
This is the text on Page 2.6
Để tìm hiểu thêm về các phương pháp trong PDFPlumber, hãy tham khảo tài liệu chính thức của nó
Phần kết luận
Hướng dẫn này là về đọc văn bản từ PDF. Chúng tôi đã xem xét hai công cụ khác nhau và xem công cụ này tốt hơn công cụ kia như thế nào
Bây giờ bạn đã biết cách đọc văn bản từ PDF, bạn nên đọc hướng dẫn của chúng tôi về mã thông báo để bắt đầu với Xử lý ngôn ngữ tự nhiên