Python OCR hình ảnh thành văn bản
Hãy tưởng tượng trường hợp trích xuất thông tin văn bản từ nhiều nguồn khác nhau cho dự án hiện tại mà bạn đang thực hiện, các nguồn khác nhau mà bạn có thể tìm thấy dữ liệu văn bản để trích xuất là gì? . Nhưng nếu bạn có thể trích xuất dữ liệu văn bản từ hình ảnh thì sao? . Tính năng này được sử dụng trên hầu hết các phần mềm hiện đại như Google Lens, Microsoft Math Calculator, v.v. Nhưng chúng ta có thể sử dụng nó cho mục đích riêng của mình không? . Python cùng với tesseract-OCR có thể được sử dụng để nhận dạng và trích xuất dữ liệu văn bản từ hình ảnh và chuyển đổi nó thành chuỗi. Ở đây chúng tôi sẽ triển khai OCR bằng python Show
Tesseract-OCR là gì?Tesseract-OCR là một trong những công cụ Nhận dạng ký tự quang học mạnh nhất đang được điều hành bởi Google. Nó là một công cụ miễn phí mã nguồn mở hỗ trợ tất cả các loại hệ điều hành bao gồm Windows, Linux, macOS, v.v. Nó được xây dựng bằng nhiều chiến lược khác nhau như Thị giác máy tính, Học máy, Xử lý ngôn ngữ tự nhiên. Tesseract-OCR hỗ trợ tất cả các loại tệp hình ảnh bao gồm JPG, PNG, JPEG, BMP, JFIF. khiến nó trở thành một trong những công cụ OCR tốt nhất Chúng ta có thể sử dụng OCR ở đâu?OCR có thể hữu ích trong nhiều trường hợp như
Cài đặt tesseract-OCR và pytesseractVì mục đích này, chúng tôi yêu cầu một mô-đun có tên "pytesseract" là trình bao bọc cho tesseract-OCR. Bạn có thể chỉ cần cài đặt pytesseract và tesseract-OCR bằng cách sử dụng pip
Nếu bạn đang sử dụng hệ thống Windows, bạn sẽ cần cài đặt tesseract. tập tin exe riêng biệt. cài đặt nó từ liên kết này Sau khi cài đặt thành công, đã đến lúc vào phần mã hóa Ở đây, chúng tôi có một tệp hình ảnh đơn giản. Bây giờ chúng ta sẽ chèn hình ảnh này vào đoạn mã để trích xuất văn bản được viết ở dạng chuỗi
Trước tiên, chúng tôi đã nhập mô-đun "pytesseract" và khởi tạo đường dẫn nơi mô-đun tesseract được cài đặt (Lưu ý rằng mô-đun tesseract được cài đặt trong hệ thống của bạn có thể ở một đường dẫn khác). Sau đó, tên và vị trí của hình ảnh của chúng tôi được chỉ định để chương trình có thể xác định nó. Cuối cùng, chúng tôi đã nhận được kết quả chính xác "Chào mừng bạn đến với PyCodeMates". Bạn có thể thắc mắc về sự dễ dàng triển khai Nhận dạng ký tự quang học của riêng mình trong ít nhất 5 dòng mã python. Nhưng nếu bạn muốn tìm hiểu thêm về điều này thì đây là một số tài liệu tham khảo Chúng tôi thường xuyên nhận được tài liệu ở dạng hình ảnh hoặc PDF. Đôi khi chúng tôi cần trích xuất văn bản/dữ liệu từ ảnh và sao chép/dán không phải là một tùy chọn. Nếu chúng ta có nhiều giấy tờ, việc trích xuất dữ liệu từ ảnh là vô cùng khó khăn và tốn thời gian Với Python OCR, các hệ thống có thể đọc văn bản từ hình ảnh, hóa đơn, tệp PDF, văn bản viết tay và tài liệu in. OCR, hay nhận dạng ký tự quang học, là một công nghệ thị giác máy tính. Văn bản có thể được trích xuất từ ảnh và hình ảnh có thể được chuyển đổi thành văn bản một cách đơn giản. EasyOCR là phương pháp cơ bản nhất để triển khai OCR. Đó là một thư viện Python có thể đọc văn bản từ ảnh bằng hơn 40 ngôn ngữ khác nhau. Nó cực kỳ đơn giản để triển khai chỉ với một vài dòng mã và tạo ra kết quả tốt Khi nào nên sử dụng OCRKhi gặp phải tình huống phải xử lý các ảnh văn bản, tệp PDF và bản in ra giấy không thể chỉnh sửa, bạn sẽ mất rất nhiều thời gian và công sức để hoàn thành công việc của mình. Sau đó, OCR có thể là giải pháp thay thế tốt hơn cho bạn, vì nó sẽ nhanh chóng giải quyết vấn đề của bạn bằng cách trích xuất văn bản từ các giấy tờ này thay vì thực hiện tương tự theo cách thủ công. Tăng hiệu quả công việc bằng cách tránh lỗi của con người Cách sử dụng EasyOCREasyOCR cực kỳ đơn giản để sử dụng vì nó có ít phụ thuộc Cài đặt gói EasyOCR trước bằng lệnh pip install easyocr Khi cài đặt easyocr, hãy sử dụng lệnh nhập easyocr để nhập gói vào dự án của bạn Sau đó, bạn có thể bắt đầu viết mã để trích xuất văn bản từ ảnh. Bằng cách cung cấp [‘en’] để xử lý bằng tiếng Anh, nó sẽ chỉ đọc văn bản tiếng Anh và bỏ qua phần còn lại của văn bản. Bạn có thể chuyển bất kỳ ngôn ngữ nào bạn thích và sau đó tải đường dẫn hình ảnh theo phương thức readtext (đường dẫn hình ảnh) để đọc văn bản Và đó là cách bạn dễ dàng trích xuất văn bản từ một hình ảnh Hãy để chúng tôi cố gắng trích xuất văn bản từ hình ảnh bên dưới “nhập easyocr ĐẦU RA. [([[[272, 304], [446, 304], [446, 336], [272, 336]], 'Xin chào thế giới. ’, 0. 737285318007567)] Loại đầu ra này có thể khó hiểu đối với những người không phải là nhà phát triển, do đó chúng tôi có thể làm cho nó đơn giản bằng cách chuyển tham số chi tiết là 0 “nhập easyocr ĐẦU RA. ['Chào thế giới. ’] Đầu ra không hiển thị tọa độ của văn bản khi chúng tôi chuyển tham số chi tiết là 0. Nó chỉ hiển thị văn bản được yêu cầu. Trong mã này 'en' là ngôn ngữ tiếng Anh, chúng tôi có thể viết bất kỳ ngôn ngữ nào mà chúng tôi muốn trích xuất văn bản Các trường hợp sử dụng OCR
Thuận lợi
Nhược điểm
OCR giúp giải quyết các vấn đề kinh doanh như thế nào?OCR giúp Doanh nghiệp trở nên năng suất và tiết kiệm chi phí hơn bằng cách giúp dễ dàng xử lý tài liệu và số hóa chúng
Phần kết luậnEasyOCR là cách đơn giản và dễ dàng nhất để triển khai Nhận dạng ký tự quang học (OCR) với rất ít dòng mã. Xử lý hình ảnh trở nên đơn giản và nhanh chóng. Một lượng lớn văn bản có thể được xử lý nhanh chóng. Thông tin thu được thông qua OCR sau đó dễ hiểu và chính xác hơn. OCR chính xác hơn và mất ít thời gian hơn so với nhập thủ công. Nó góp phần cải thiện độ chính xác của hiệu suất Nếu bạn muốn tìm hiểu thêm về các chủ đề như vậy hoặc nếu bạn cần tư vấn phần mềm, vui lòng liên hệ với chúng tôi theo địa chỉ info@ignatiuz. com Làm cách nào để chuyển đổi hình ảnh thành văn bản trong Python?Hợp lý hóa hình ảnh của bạn thành văn bản bằng Python và OCR . OCR là viết tắt của Nhận dạng ký tự đối tượng. . Bước 2. Kiểm tra và xác nhận đường dẫn cài đặt gói tesseract. . Bước 3. Cài đặt pytesseract bằng pip. . Bước 4. Đặt đường dẫn tesseract trong tập lệnh (chỉ dành cho Windows). Đừng quên nhấn vỗ tay nếu bạn thích nó. ) Làm cách nào để python chuyển đổi hình ảnh thành văn bản bằng OCR với Tesseract?Pytesseract hay Python-tesseract là công cụ Nhận dạng ký tự quang học (OCR) dành cho python. . Đang tải Hình ảnh được lưu từ máy tính hoặc tải xuống bằng trình duyệt và sau đó tải tương tự. (Mọi hình ảnh có văn bản) Nhị phân hóa hình ảnh (Chuyển đổi hình ảnh thành nhị phân) Sau đó chúng tôi sẽ chuyển hình ảnh qua hệ thống OCR Làm cách nào để phát hiện văn bản từ hình ảnh bằng Python?Tesseract là công cụ OCR (nhận dạng ký tự quang học) mã nguồn mở cho phép trích xuất văn bản từ hình ảnh . Để sử dụng nó trong Python, chúng ta cũng sẽ cần thư viện pytesseract là trình bao bọc cho công cụ Tesseract.
Làm cách nào để nhận dạng văn bản viết tay từ hình ảnh trong Python?Sử dụng Mạng nơ-ron hồi quy tích chập để nhận dạng hình ảnh văn bản dòng viết tay mà không cần phân đoạn trước thành các từ hoặc ký tự. Sử dụng Chức năng mất CTC để huấn luyện. |