programming python

Hình ảnh Python thành văn bản

Chúng tôi thường xuyên nhận được tài liệu ở dạng hình ảnh hoặc PDF. Đôi khi chúng tôi cần trích xuất văn bản/dữ liệu từ ảnh và sao chép/dán không phải là một tùy chọn. Nếu chúng ta có nhiều giấy tờ, việc trích xuất dữ liệu từ ảnh là vô cùng khó khăn và tốn thời gian

Với Python OCR, các hệ thống có thể đọc văn bản từ hình ảnh, hóa đơn, tệp PDF, văn bản viết tay và tài liệu in. OCR, hay nhận dạng ký tự quang học, là một công nghệ thị giác máy tính. Văn bản có thể được trích xuất từ ảnh và hình ảnh có thể được chuyển đổi thành văn bản một cách đơn giản. EasyOCR là phương pháp cơ bản nhất để triển khai OCR. Đó là một thư viện Python có thể đọc văn bản từ ảnh bằng hơn 40 ngôn ngữ khác nhau. Nó cực kỳ đơn giản để triển khai chỉ với một vài dòng mã và tạo ra kết quả tốt

Khi nào nên sử dụng OCR

Khi gặp trường hợp phải xử lý các ảnh văn bản, tệp PDF và bản in ra giấy không thể chỉnh sửa, bạn sẽ mất một lượng thời gian và công sức đáng kể để hoàn thành công việc của mình. Sau đó, OCR có thể là giải pháp thay thế tốt hơn cho bạn, vì nó sẽ nhanh chóng giải quyết vấn đề của bạn bằng cách trích xuất văn bản từ các giấy tờ này thay vì thực hiện thủ công tương tự. Tăng hiệu quả công việc bằng cách tránh lỗi của con người

Cách sử dụng EasyOCR

EasyOCR cực kỳ đơn giản để sử dụng vì nó có ít phụ thuộc

Cài đặt gói EasyOCR trước bằng lệnh pip install easyocr

Khi cài đặt easyocr, hãy sử dụng lệnh nhập easyocr để nhập gói vào dự án của bạn

Sau đó, bạn có thể bắt đầu viết mã để trích xuất văn bản từ ảnh. Bằng cách cung cấp [‘en’] để xử lý bằng tiếng Anh, nó sẽ chỉ đọc văn bản tiếng Anh và bỏ qua phần còn lại của văn bản. Bạn có thể chuyển bất kỳ ngôn ngữ nào bạn thích và sau đó tải đường dẫn hình ảnh theo phương thức readtext [đường dẫn hình ảnh] để đọc văn bản

Và đó là cách bạn dễ dàng trích xuất văn bản từ một hình ảnh

Hãy để chúng tôi cố gắng trích xuất văn bản từ hình ảnh bên dưới

“nhập easyocr
người đọc = easyocr. Người đọc[[‘vi’]]
Kết quả = người đọc. văn bản đọc ['abc. png']
In[kết quả]”

ĐẦU RA. [[[[[272, 304], [446, 304], [446, 336], [272, 336]], 'Xin chào thế giới. ’, 0. 737285318007567]]

Loại đầu ra này có thể khó hiểu đối với những người không phải là nhà phát triển, do đó chúng tôi có thể làm cho nó đơn giản bằng cách chuyển tham số chi tiết là 0

“nhập easyocr
người đọc = easyocr. Người đọc[[‘vi’]]
Kết quả = người đọc. văn bản đọc ['abc. png’, chi tiết=0]
In[kết quả]”

ĐẦU RA. ['Chào thế giới. ’]

Đầu ra không hiển thị tọa độ của văn bản khi chúng tôi chuyển tham số chi tiết là 0. Nó chỉ hiển thị văn bản được yêu cầu. Trong mã này 'en' là ngôn ngữ tiếng Anh, chúng tôi có thể viết bất kỳ ngôn ngữ nào mà chúng tôi muốn trích xuất văn bản

Các trường hợp sử dụng OCR

Chuyển đổi văn bản viết tay thành văn bản có thể đọc được bằng máy
xử lý hóa đơn
Nhận biết biển báo giao thông
trích xuất PDF
Nhận dạng biển số
Quét tài liệu kỹ thuật số

Thuận lợi

Xử lý tài liệu dễ dàng và nhanh chóng
Giảm chi phí
Tăng sản lượng
Độ chính xác cao
Giảm khối lượng công việc của nhân viên
Thân thiện với môi trường- Khi đọc văn bản từ tài liệu và xử lý chúng, nó sẽ giảm việc sử dụng giấy tờ và tiết kiệm giấy tờ

Nhược điểm

OCR không thể đọc văn bản viết tay
Hình ảnh OCR cần nhiều dung lượng bộ nhớ
Hệ thống OCR khá đắt
Hệ thống OCR không chính xác 100%
OCR cần một hình ảnh chất lượng tốt để hoạt động tốt

OCR giúp giải quyết các vấn đề kinh doanh như thế nào?

OCR giúp Doanh nghiệp trở nên năng suất và tiết kiệm chi phí hơn bằng cách giúp dễ dàng xử lý tài liệu và số hóa chúng

Chuyển đổi Tài liệu thành dữ liệu có thể chỉnh sửa và có thể tìm kiếm- Chúng tôi có thể lấy bất kỳ loại tài liệu nào, đó có thể là tài liệu giấy, hình ảnh, qua email hoặc dữ liệu viết tay. OCR số hóa tất cả dữ liệu của bạn và giúp dễ dàng chỉnh sửa hoặc tìm kiếm thông tin chúng tôi đang tìm kiếm mà không tốn nhiều thời gian và công sức
Đẩy nhanh tốc độ xử lý văn bản
Cải thiện bảo mật dữ liệu- OCR sử dụng AI và Machine Learning để nhận dạng thông tin nhạy cảm và bảo vệ khỏi nhân viên trái phép truy cập thông tin
Giảm chi phí- OCR hỗ trợ Doanh nghiệp giảm chi phí bằng cách cải thiện độ chính xác của việc nhập Dữ liệu và tiết kiệm tiền chi cho việc nhập thủ công cũng như giảm sai sót
Truy xuất thông tin nhanh hơn- Nhân viên thường dành nhiều thời gian để truy xuất thông tin từ tài liệu. Khi tài liệu rất lớn, nó có thể rất hữu ích trong việc giúp nhân viên dễ tiếp cận thông tin hơn và đưa ra quyết định nhanh hơn để họ có thể tập trung vào các nhiệm vụ quan trọng hơn

Phần kết luận

EasyOCR là cách đơn giản và dễ dàng nhất để triển khai Nhận dạng ký tự quang học [OCR] với rất ít dòng mã. Xử lý hình ảnh trở nên đơn giản và nhanh chóng. Một lượng lớn văn bản có thể được xử lý nhanh chóng. Thông tin thu được thông qua OCR sau đó dễ hiểu và chính xác hơn. OCR chính xác hơn và mất ít thời gian hơn so với nhập thủ công. Nó góp phần cải thiện độ chính xác của hiệu suất

Nếu bạn muốn tìm hiểu thêm về các chủ đề như vậy hoặc nếu bạn cần tư vấn phần mềm, vui lòng liên hệ với chúng tôi theo địa chỉ info@ignatiuz. com

Làm cách nào để Python chuyển đổi hình ảnh thành văn bản bằng OCR với Tesseract?

Pytesseract hay Python-tesseract là công cụ Nhận dạng ký tự quang học [OCR] dành cho python. .

Đang tải Hình ảnh được lưu từ máy tính hoặc tải xuống bằng trình duyệt và sau đó tải tương tự. [Mọi hình ảnh có văn bản]

Nhị phân hóa hình ảnh [Chuyển đổi hình ảnh thành nhị phân]

Sau đó chúng tôi sẽ chuyển hình ảnh qua hệ thống OCR

Làm cách nào để trích xuất văn bản từ hình ảnh JPEG bằng Python?

Mã Python để trích xuất văn bản từ hình ảnh bằng Tesseract .

# nhận dạng văn bản nhập cv2 nhập pytesseract

# đọc ảnh img = cv2. imread['trích dẫn. jpg']

# cấu hình config = ['-l eng --oem 1 --psm 3']

# pytesseract pytesseract. pytesseract. tesseract_cmd = 'C. /Tệp chương trình/Tesseract-OCR/tesseract. exe'

Bạn có thể chuyển đổi hình ảnh thành văn bản?

Có những chương trình sử dụng Nhận dạng ký tự quang học [OCR] để phân tích các chữ cái và từ trong hình ảnh, sau đó chuyển đổi chúng thành văn bản . Có một số lý do khiến bạn có thể muốn sử dụng công nghệ OCR để sao chép văn bản từ hình ảnh hoặc PDF.

Tesseract trong Python là gì?

Python-tesseract là một công cụ nhận dạng ký tự quang học [OCR] cho python. Tức là nó sẽ nhận dạng và “đọc” chữ nhúng trong hình ảnh