Python OCR hình ảnh thành văn bản

Hãy tưởng tượng trường hợp trích xuất thông tin văn bản từ nhiều nguồn khác nhau cho dự án hiện tại mà bạn đang thực hiện, các nguồn khác nhau mà bạn có thể tìm thấy dữ liệu văn bản để trích xuất là gì? . Nhưng nếu bạn có thể trích xuất dữ liệu văn bản từ hình ảnh thì sao? . Tính năng này được sử dụng trên hầu hết các phần mềm hiện đại như Google Lens, Microsoft Math Calculator, v.v. Nhưng chúng ta có thể sử dụng nó cho mục đích riêng của mình không? . Python cùng với tesseract-OCR có thể được sử dụng để nhận dạng và trích xuất dữ liệu văn bản từ hình ảnh và chuyển đổi nó thành chuỗi. Ở đây chúng tôi sẽ triển khai OCR bằng python


Tesseract-OCR là gì?

Tesseract-OCR là một trong những công cụ Nhận dạng ký tự quang học mạnh nhất đang được điều hành bởi Google. Nó là một công cụ miễn phí mã nguồn mở hỗ trợ tất cả các loại hệ điều hành bao gồm Windows, Linux, macOS, v.v. Nó được xây dựng bằng nhiều chiến lược khác nhau như Thị giác máy tính, Học máy, Xử lý ngôn ngữ tự nhiên. Tesseract-OCR hỗ trợ tất cả các loại tệp hình ảnh bao gồm JPG, PNG, JPEG, BMP, JFIF. khiến nó trở thành một trong những công cụ OCR tốt nhất

Chúng ta có thể sử dụng OCR ở đâu?

OCR có thể hữu ích trong nhiều trường hợp như

  1. Trích xuất dữ liệu văn bản từ hình ảnh giúp tạo dữ liệu cho máy học và khoa học dữ liệu
  2. Chuyển đổi từ viết tay thành văn bản kỹ thuật số
  3. Lấy thông tin từ hộ chiếu và tài liệu

Cài đặt tesseract-OCR và pytesseract

Vì mục đích này, chúng tôi yêu cầu một mô-đun có tên "pytesseract" là trình bao bọc cho tesseract-OCR. Bạn có thể chỉ cần cài đặt pytesseract và tesseract-OCR bằng cách sử dụng pip


$ pip install pytesseract tesseract


Nếu bạn đang sử dụng hệ thống Windows, bạn sẽ cần cài đặt tesseract. tập tin exe riêng biệt. cài đặt nó từ liên kết này


Sau khi cài đặt thành công, đã đến lúc vào phần mã hóa


Ở đây, chúng tôi có một tệp hình ảnh đơn giản.  


lời chào hỏi. png
Bây giờ chúng ta sẽ chèn hình ảnh này vào đoạn mã để trích xuất văn bản được viết ở dạng chuỗi

import pytesseract


# Path were tesseract is installed

pytesseract.pytesseract.tesseract_cmd = 'C:/Users/Tesseract-OCR/Tesseract' 


# Converting image to string

image_to_text = str[pytesseract.image_to_string[r'C:/users/91759/Desktop/greeting.png']]


print[image_to_text]



Output:


Welcome to PyCodeMates


Trước tiên, chúng tôi đã nhập mô-đun "pytesseract" và khởi tạo đường dẫn nơi mô-đun tesseract được cài đặt [Lưu ý rằng mô-đun tesseract được cài đặt trong hệ thống của bạn có thể ở một đường dẫn khác]. Sau đó, tên và vị trí của hình ảnh của chúng tôi được chỉ định để chương trình có thể xác định nó. Cuối cùng, chúng tôi đã nhận được kết quả chính xác "Chào mừng bạn đến với PyCodeMates". Bạn có thể thắc mắc về sự dễ dàng triển khai Nhận dạng ký tự quang học của riêng mình trong ít nhất 5 dòng mã python. Nhưng nếu bạn muốn tìm hiểu thêm về điều này thì đây là một số tài liệu tham khảo

Chúng tôi thường xuyên nhận được tài liệu ở dạng hình ảnh hoặc PDF. Đôi khi chúng tôi cần trích xuất văn bản/dữ liệu từ ảnh và sao chép/dán không phải là một tùy chọn. Nếu chúng ta có nhiều giấy tờ, việc trích xuất dữ liệu từ ảnh là vô cùng khó khăn và tốn thời gian

Với Python OCR, các hệ thống có thể đọc văn bản từ hình ảnh, hóa đơn, tệp PDF, văn bản viết tay và tài liệu in. OCR, hay nhận dạng ký tự quang học, là một công nghệ thị giác máy tính. Văn bản có thể được trích xuất từ ​​ảnh và hình ảnh có thể được chuyển đổi thành văn bản một cách đơn giản. EasyOCR là phương pháp cơ bản nhất để triển khai OCR. Đó là một thư viện Python có thể đọc văn bản từ ảnh bằng hơn 40 ngôn ngữ khác nhau. Nó cực kỳ đơn giản để triển khai chỉ với một vài dòng mã và tạo ra kết quả tốt

Khi nào nên sử dụng OCR

Khi gặp phải tình huống phải xử lý các ảnh văn bản, tệp PDF và bản in ra giấy không thể chỉnh sửa, bạn sẽ mất rất nhiều thời gian và công sức để hoàn thành công việc của mình. Sau đó, OCR có thể là giải pháp thay thế tốt hơn cho bạn, vì nó sẽ nhanh chóng giải quyết vấn đề của bạn bằng cách trích xuất văn bản từ các giấy tờ này thay vì thực hiện tương tự theo cách thủ công. Tăng hiệu quả công việc bằng cách tránh lỗi của con người

Cách sử dụng EasyOCR

EasyOCR cực kỳ đơn giản để sử dụng vì nó có ít phụ thuộc

Cài đặt gói EasyOCR trước bằng lệnh pip install easyocr

Khi cài đặt easyocr, hãy sử dụng lệnh nhập easyocr để nhập gói vào dự án của bạn

Sau đó, bạn có thể bắt đầu viết mã để trích xuất văn bản từ ảnh. Bằng cách cung cấp [‘en’] để xử lý bằng tiếng Anh, nó sẽ chỉ đọc văn bản tiếng Anh và bỏ qua phần còn lại của văn bản. Bạn có thể chuyển bất kỳ ngôn ngữ nào bạn thích và sau đó tải đường dẫn hình ảnh theo phương thức readtext [đường dẫn hình ảnh] để đọc văn bản

Và đó là cách bạn dễ dàng trích xuất văn bản từ một hình ảnh

Hãy để chúng tôi cố gắng trích xuất văn bản từ hình ảnh bên dưới

“nhập easyocr
người đọc = easyocr. Người đọc[[‘vi’]]
Kết quả = người đọc. văn bản đọc ['abc. png']
In[kết quả]”

ĐẦU RA. [[[[[272, 304], [446, 304], [446, 336], [272, 336]], 'Xin chào thế giới. ’, 0. 737285318007567]]

Loại đầu ra này có thể khó hiểu đối với những người không phải là nhà phát triển, do đó chúng tôi có thể làm cho nó đơn giản bằng cách chuyển tham số chi tiết là 0

“nhập easyocr
người đọc = easyocr. Người đọc[[‘vi’]]
Kết quả = người đọc. văn bản đọc ['abc. png’, chi tiết=0]
In[kết quả]”

ĐẦU RA. ['Chào thế giới. ’]

Đầu ra không hiển thị tọa độ của văn bản khi chúng tôi chuyển tham số chi tiết là 0. Nó chỉ hiển thị văn bản được yêu cầu. Trong mã này 'en' là ngôn ngữ tiếng Anh, chúng tôi có thể viết bất kỳ ngôn ngữ nào mà chúng tôi muốn trích xuất văn bản

Các trường hợp sử dụng OCR

  • Chuyển đổi văn bản viết tay thành văn bản có thể đọc được bằng máy
  • xử lý hóa đơn
  • Nhận biết biển báo giao thông
  • trích xuất PDF
  • Nhận dạng biển số
  • Quét tài liệu kỹ thuật số

Thuận lợi

  • Xử lý tài liệu dễ dàng và nhanh chóng
  • Giảm chi phí
  • Tăng sản lượng
  • Độ chính xác cao
  • Giảm khối lượng công việc của nhân viên
  • Thân thiện với môi trường- Khi đọc văn bản từ tài liệu và xử lý chúng, nó sẽ giảm việc sử dụng giấy tờ và tiết kiệm giấy tờ

Nhược điểm

  • OCR không thể đọc văn bản viết tay
  • Hình ảnh OCR cần nhiều dung lượng bộ nhớ
  • Hệ thống OCR khá đắt
  • Hệ thống OCR không chính xác 100%
  • OCR cần một hình ảnh chất lượng tốt để hoạt động tốt

OCR giúp giải quyết các vấn đề kinh doanh như thế nào?

OCR giúp Doanh nghiệp trở nên năng suất và tiết kiệm chi phí hơn bằng cách giúp dễ dàng xử lý tài liệu và số hóa chúng

  • Chuyển đổi Tài liệu thành dữ liệu có thể chỉnh sửa và có thể tìm kiếm- Chúng tôi có thể lấy bất kỳ loại tài liệu nào, đó có thể là tài liệu giấy, hình ảnh, qua email hoặc dữ liệu viết tay. OCR số hóa tất cả dữ liệu của bạn và giúp dễ dàng chỉnh sửa hoặc tìm kiếm thông tin chúng tôi đang tìm kiếm mà không tốn nhiều thời gian và công sức
  • Đẩy nhanh tốc độ xử lý văn bản
  • Cải thiện bảo mật dữ liệu- OCR sử dụng AI và Machine Learning để nhận dạng thông tin nhạy cảm và bảo vệ khỏi nhân viên trái phép truy cập thông tin
  • Giảm chi phí- OCR hỗ trợ Doanh nghiệp giảm chi phí bằng cách cải thiện độ chính xác của việc nhập Dữ liệu và tiết kiệm tiền chi cho việc nhập thủ công cũng như giảm sai sót
  • Truy xuất thông tin nhanh hơn- Nhân viên thường dành nhiều thời gian để truy xuất thông tin từ tài liệu. Khi tài liệu rất lớn, nó có thể rất hữu ích trong việc giúp nhân viên dễ tiếp cận thông tin hơn và đưa ra quyết định nhanh hơn để họ có thể tập trung vào các nhiệm vụ quan trọng hơn

Phần kết luận

EasyOCR là cách đơn giản và dễ dàng nhất để triển khai Nhận dạng ký tự quang học [OCR] với rất ít dòng mã. Xử lý hình ảnh trở nên đơn giản và nhanh chóng. Một lượng lớn văn bản có thể được xử lý nhanh chóng. Thông tin thu được thông qua OCR sau đó dễ hiểu và chính xác hơn. OCR chính xác hơn và mất ít thời gian hơn so với nhập thủ công. Nó góp phần cải thiện độ chính xác của hiệu suất

Nếu bạn muốn tìm hiểu thêm về các chủ đề như vậy hoặc nếu bạn cần tư vấn phần mềm, vui lòng liên hệ với chúng tôi theo địa chỉ info@ignatiuz. com

Làm cách nào để chuyển đổi hình ảnh thành văn bản trong Python?

Hợp lý hóa hình ảnh của bạn thành văn bản bằng Python và OCR .
OCR là viết tắt của Nhận dạng ký tự đối tượng. .
Bước 2. Kiểm tra và xác nhận đường dẫn cài đặt gói tesseract. .
Bước 3. Cài đặt pytesseract bằng pip. .
Bước 4. Đặt đường dẫn tesseract trong tập lệnh [chỉ dành cho Windows].
Đừng quên nhấn vỗ tay nếu bạn thích nó. ]

Làm cách nào để python chuyển đổi hình ảnh thành văn bản bằng OCR với Tesseract?

Pytesseract hay Python-tesseract là công cụ Nhận dạng ký tự quang học [OCR] dành cho python. .
Đang tải Hình ảnh được lưu từ máy tính hoặc tải xuống bằng trình duyệt và sau đó tải tương tự. [Mọi hình ảnh có văn bản]
Nhị phân hóa hình ảnh [Chuyển đổi hình ảnh thành nhị phân]
Sau đó chúng tôi sẽ chuyển hình ảnh qua hệ thống OCR

Làm cách nào để phát hiện văn bản từ hình ảnh bằng Python?

Tesseract là công cụ OCR [nhận dạng ký tự quang học] mã nguồn mở cho phép trích xuất văn bản từ hình ảnh . Để sử dụng nó trong Python, chúng ta cũng sẽ cần thư viện pytesseract là trình bao bọc cho công cụ Tesseract.

Làm cách nào để nhận dạng văn bản viết tay từ hình ảnh trong Python?

Sử dụng Mạng nơ-ron hồi quy tích chập để nhận dạng hình ảnh văn bản dòng viết tay mà không cần phân đoạn trước thành các từ hoặc ký tự. Sử dụng Chức năng mất CTC để huấn luyện.

Chủ Đề