Python trích xuất văn bản từ pdf

Đôi khi, nhà phát triển Python cần thu thập một số thông tin văn bản từ tệp PDF. Vì vậy, trích xuất văn bản từ PDF là một vấn đề bạn nên biết cách giải quyết với tư cách là nhà phát triển Python. Nếu bạn muốn tìm hiểu cách trích xuất văn bản từ tệp pdf, bài viết này là dành cho bạn. Trong bài viết này, tôi sẽ hướng dẫn bạn cách trích xuất văn bản từ pdf bằng Python

Trích xuất văn bản từ PDF bằng Python

Bạn phải biết cách thu thập văn bản từ pdf với tư cách là nhà phát triển Python. Kỹ năng này rất hữu ích khi làm việc với sơ yếu lý lịch. Trích xuất văn bản từ tệp pdf không phải là một nhiệm vụ khó khăn. Đối với tác vụ này, bạn cần cài đặt thư viện Python có tên là PyPDF2

Bạn có thể dễ dàng cài đặt thư viện Python này bằng cách sử dụng lệnh pip trong thiết bị đầu cuối hoặc dấu nhắc lệnh như được đề cập bên dưới

  • cài đặt pip pypdf2

Sau khi cài đặt thư viện Python này, tất cả chúng ta đã sẵn sàng để trích xuất văn bản từ bất kỳ tệp pdf nào. Dưới đây là cách bạn có thể trích xuất văn bản từ bất kỳ tệp PDF nào bằng ngôn ngữ lập trình Python

import PyPDF2
pdf = open["Aman.pdf", "rb"]
reader = PyPDF2.PdfFileReader[pdf]
page = reader.getPage[0]
print[page.extractText[]]

Ở dòng thứ tư của đoạn mã trên, phương thức getPage[] sẽ giúp bạn chỉ định số trang mà bạn muốn trích xuất văn bản từ đó

Tóm lược

Vì vậy, đây là cách bạn có thể thu thập văn bản từ tệp PDF bằng ngôn ngữ lập trình Python. Trích xuất văn bản từ PDF là một vấn đề bạn nên biết cách giải quyết với tư cách là nhà phát triển Python. Tôi hy vọng bạn thích bài viết này về trích xuất văn bản từ tệp PDF bằng Python. Vui lòng đặt câu hỏi có giá trị trong phần bình luận bên dưới

PDF là một cách phổ biến để chia sẻ văn bản. PDF là viết tắt của Định dạng Tài liệu Di động và sử dụng. phần mở rộng tệp pdf. Nó được tạo ra vào đầu những năm 1990 bởi Adobe Systems

Đọc tài liệu PDF bằng python có thể giúp bạn tự động hóa nhiều tác vụ

Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách trích xuất văn bản từ tệp PDF bằng Python

Bắt đầu nào

Đọc và trích xuất văn bản từ tệp PDF bằng Python

Với mục đích của hướng dẫn này, chúng tôi đang tạo một tệp PDF mẫu có 2 trang. Bạn có thể làm như vậy bằng bất kỳ trình xử lý Word nào như Microsoft Word hoặc Google Docs và lưu tệp dưới dạng PDF

Văn bản trên trang 1

Hello World. 
This is a sample PDF with 2 pages. 
This is the first page. 

Văn bản ở trang 2

This is the text on Page 2. 

Sử dụng PyPDF2 để trích xuất văn bản PDF

Bạn có thể sử dụng PyPDF2 để trích xuất văn bản từ PDF. Hãy xem nó hoạt động như thế nào

1. Cài đặt gói

Để cài đặt PyPDF2 trên hệ thống của bạn, hãy nhập lệnh sau trên thiết bị đầu cuối của bạn. Bạn có thể đọc thêm về trình quản lý gói pip

pip install pypdf2

pypdf

2. Nhập PyPDF2

Mở sổ ghi chép python mới và bắt đầu nhập PyPDF2

import PyPDF2

3. Mở PDF ở chế độ đọc-nhị phân

Bắt đầu với việc mở tệp PDF ở chế độ đọc nhị phân bằng dòng mã sau

pdf = open['sample_pdf.pdf', 'rb']

Thao tác này sẽ tạo một đối tượng PdfFileReader cho tệp PDF của chúng ta và lưu nó vào biến 'pdf'

4. Sử dụng PyPDF2. PdfFileReader[] để đọc văn bản

Bây giờ bạn có thể sử dụng phương thức PdfFileReader[] từ PyPDF2 để đọc tệp

pdfReader = PyPDF2.PdfFileReader[pdf]

Để lấy văn bản từ trang đầu tiên của PDF, hãy sử dụng các dòng mã sau

page_one = pdfReader.getPage[0]
print[page_one.extractText[]]

Chúng tôi nhận được đầu ra như

________số 8_______

Ở đây chúng tôi đã sử dụng phương thức getPage để lưu trữ trang dưới dạng một đối tượng. Sau đó, chúng tôi đã sử dụng phương thức extractText[] để lấy văn bản từ đối tượng trang

Văn bản chúng tôi nhận được có kiểu String

Tương tự để lấy trang thứ hai từ việc sử dụng PDF

page_one = pdfReader.getPage[1]
print[page_one.extractText[]]

Chúng tôi nhận được đầu ra như

This is the text on Page 2. 

Mã hoàn chỉnh để đọc văn bản PDF bằng PyPDF2

Mã hoàn chỉnh từ phần này được đưa ra dưới đây

This is the text on Page 2. 
0

Nếu bạn để ý, định dạng của trang đầu tiên hơi sai ở đầu ra ở trên. Điều này là do PyPDF2 không hiệu quả lắm khi đọc các tệp PDF

May mắn thay, Python có giải pháp thay thế tốt hơn cho PyPDF2. Chúng ta sẽ xem xét điều đó tiếp theo

Sử dụng PDFplumber để trích xuất văn bản

PDFplumber là một công cụ khác có thể trích xuất văn bản từ PDF. Nó mạnh hơn so với PyPDF2

1. Cài đặt gói

Hãy bắt đầu cài đặt PDFplumber

This is the text on Page 2. 
1

thợ sửa ống nước

2. Nhập pdfplumber

Bắt đầu với việc nhập PDFplumber bằng dòng mã sau

This is the text on Page 2. 
2

3. Sử dụng PDFplumber để đọc pdf

Bạn có thể bắt đầu đọc các tệp PDF bằng PDFplumber với đoạn mã sau

This is the text on Page 2. 
3

Điều này sẽ nhận được văn bản từ trang đầu tiên của PDF của chúng tôi. Đầu ra đến như

This is the text on Page 2. 
4

Bạn có thể so sánh điều này với đầu ra của PyPDF2 và xem PDFplumber tốt hơn như thế nào khi định dạng

PDFplumber cũng cung cấp các tùy chọn để lấy thông tin khác từ PDF

Ví dụ: bạn có thể sử dụng. page_number để lấy số trang

This is the text on Page 2. 
5

đầu ra

This is the text on Page 2. 
6

Để tìm hiểu thêm về các phương pháp trong PDFPlumber, hãy tham khảo tài liệu chính thức của nó

Phần kết luận

Hướng dẫn này là về đọc văn bản từ PDF. Chúng tôi đã xem xét hai công cụ khác nhau và xem công cụ này tốt hơn công cụ kia như thế nào

Bây giờ bạn đã biết cách đọc văn bản từ PDF, bạn nên đọc hướng dẫn của chúng tôi về mã thông báo để bắt đầu với Xử lý ngôn ngữ tự nhiên

Cách dễ nhất để trích xuất văn bản từ PDF bằng Python là gì?

Công cụ chúng tôi đang sử dụng trong hướng dẫn này là PDF Plumber, một gói mã nguồn mở của python, rất tuyệt vời, đơn giản và mạnh mẽ. .
Nhập mô-đun của bạn. pip cài đặt pdfplumber -qimport pdfplumber. .
open['đường dẫn/đến/thư mục'].
trang[ ].
trích_văn[]

Python có thể trích xuất dữ liệu từ PDF không?

Có một vài thư viện Python mà bạn có thể trích xuất dữ liệu từ tệp PDF . Ví dụ: bạn có thể sử dụng thư viện PyPDF2 để trích xuất văn bản từ các tệp PDF trong đó văn bản ở dạng tuần tự hoặc được định dạng. e. trong dòng hoặc hình thức. Bạn cũng có thể trích xuất các bảng trong tệp PDF thông qua thư viện Camelot.

Có thể trích xuất văn bản từ PDF không?

Với tính năng nhận dạng ký tự quang học [OCR] trong Adobe Acrobat, bạn có thể trích xuất văn bản và chuyển đổi tài liệu được quét thành các tệp PDF có thể chỉnh sửa, có thể tìm kiếm ngay lập tức .

Chủ Đề