Được xuất bản lại bởi Plato

Người theo dõi: 0

Siêu dữ liệu sách và truy xuất bìa bằng OCR và API Google Sách

= Trước bài

Bài tiếp theo =>

tags: API, Google, con dao, Mã thấp

Với KNIME, việc trích xuất các phần thông tin quan trọng từ hình ảnh trở nên dễ dàng như ABC.

Bình luận

By Roberto Cadili, Nhà khoa học dữ liệu, KNIME & Lada Rudnitckaia, Nhà khoa học dữ liệu, KNIME

Hình 1: Ví dụ về các thông báo về ấn bản sách mà thông tin có thể được trích xuất nhờ OCR.

Hầu hết thời gian, dữ liệu thô mà chúng ta cần cho dự án khoa học dữ liệu của mình không được sắp xếp trong một bảng gọn gàng, có cấu trúc tốt và sâu sắc. Thay vào đó, điều này đôi khi được lưu trữ dưới dạng văn bản trong một tài liệu được quét. Sau đó, các từ trong tài liệu phải được trích xuất từng từ một để tạo thành một ô dữ liệu được định dạng văn bản. Đây là tác vụ được thực hiện bởi Nhận dạng ký tự quang học (OCR).

Khi bạn đọc các từ của bài viết này, có thể là văn bản hoặc số, mắt của bạn có thể xử lý chúng bằng cách nhận ra các mẫu sáng và tối tạo nên các ký tự (ví dụ: chữ cái, số, dấu câu, v.v.). Bộ não của bạn sau đó sẽ giải mã các kết hợp khác nhau của các ký tự và mẫu để nắm bắt ý nghĩa của các từ. Theo nghĩa đó, đôi mắt và bộ não của bạn là bộ máy OCR tinh vi và phức tạp nhất mà bạn có thể tưởng tượng, và chúng hoạt động mà bạn thậm chí không nhận ra.

Máy tính có khả năng tương tự, nhưng chúng phải giải quyết một hạn chế quan trọng: sự vắng mặt của mắt. Nếu chúng ta muốn máy tính xem và đọc một tài liệu văn bản thực, chúng ta cần nhập một tệp đồ họa được tạo bằng máy quét quang học hoặc máy ảnh kỹ thuật số. Đối với máy tính, không có sự khác biệt giữa tài liệu có được với một trong hai tùy chọn đó và ảnh chụp tháp Eiffel: cả hai đều được coi là tập hợp vô nghĩa của các ô vuông màu - còn được gọi là pixel - tạo thành bất kỳ hình ảnh đồ họa máy tính nào. Như vậy, phần sau chỉ là hình ảnh của văn bản mà chúng ta định đọc hơn là chính văn bản đó.

Đây là lúc OCR có thể có ích. Công nghệ mạnh mẽ này có thể trích xuất dữ liệu in, đánh máy hoặc viết tay, có thể là hóa đơn, danh thiếp, văn bản pháp lý hoặc bản in và chuyển đổi nó thành định dạng kỹ thuật số có thể tìm kiếm và chỉnh sửa. Mặc dù trong nhiều năm OCR được coi là một dịch vụ đắt tiền mà chỉ có rất ít công ty lớn có thể mua được, nhưng từ giữa những năm 2000 trở đi, chi phí của nó đã giảm dần trong khi độ chính xác và khả năng của nó đã phát triển để hỗ trợ hàng trăm ngôn ngữ và mã hóa ký tự ngày nay. , từ UTF-8 đến GB2312.

Lợi ích của việc có thể tìm kiếm và trích xuất văn bản từ hình ảnh có thể là vô giá. Ví dụ, trong ngành pháp lý hoặc kế toán, nó có thể tiết kiệm chi phí và thời gian đáng kể, vì nó cho phép truy xuất các phần văn bản hoặc số trong các bài báo hoặc báo cáo tài chính chỉ trong vài giây. So sánh quy trình này với chi phí thuê một nhóm người đọc qua hàng nghìn tài liệu chỉ để tìm một thông tin quan trọng duy nhất cho ta ý tưởng về cách OCR có thể mang lại lợi ích cho doanh nghiệp.

Gần đây hơn, công nghệ OCR đang trải qua một cuộc cách mạng thầm lặng khi các nhà cung cấp dịch vụ này đang kết hợp nó với AI. Do đó, không chỉ dữ liệu được thu thập, tìm kiếm và chỉnh sửa mà hệ thống AI còn thực sự hiểu nội dung để thực hiện các tác vụ cụ thể. Ví dụ: sau khi OCRing một văn bản, AI có thể cung cấp bản dịch của nó bằng cách sử dụng dịch máy thần kinh với sự can thiệp tối thiểu của con người. Một ví dụ cổ điển khác đến từ phần kiểm toán, nơi các hóa đơn gian lận có thể được nhận ra sau khi OCRing nội dung của tài liệu pdf, sử dụng các kỹ thuật phát hiện ngoại lệ. Và như thế. Sức mạnh tổng hợp này kết hợp những gì tốt nhất của cả hai thế giới để hợp lý hóa các quy trình và tăng năng suất cho các doanh nghiệp và khách hàng.

Trong trường hợp sử dụng được mô tả trong bài viết này, OCR được sử dụng để xác định một cuốn sách và sau đó để truy xuất siêu dữ liệu của cuốn sách đó từ kho lưu trữ Google Sách.

Cụ thể hơn, chúng ta sẽ xem xét:

OCR có thể được tiến hành như thế nào trong Nền tảng phân tích KNIME.
Cách chúng tôi có thể tích hợp bộ xử lý OCR của KNIME và API Google Sách cho trường hợp sử dụng là truy xuất siêu dữ liệu sách và bìa.

OCR trong Nền tảng phân tích KNIME

OCRing một hình ảnh có chứa văn bản trong KNIME là một nhiệm vụ rất dễ dàng. Tất cả những gì nó cần là cài đặt Xử lý ảnh KNIME - Tích hợp Tess4J phần mở rộng tại địa phương của bạn Nền tảng phân tích KNIMEvà để kéo và thả Tess4J vào trình chỉnh sửa quy trình làm việc của bạn.

Nút Tess4J tích hợp Thư viện Tesseract OCR, một trong những bộ xử lý OCR nguồn mở chính xác và được sử dụng rộng rãi nhất hiện có. Tesseract ban đầu được phát triển như một phần mềm độc quyền của Phòng thí nghiệm Hewlett-Packard vào đầu những năm 1990 và sau đó được tạo thành mã nguồn mở vào năm 2005. Kể từ đó, Google đã chấp nhận dự án và tài trợ cho sự phát triển của nó.

Nút Tess4J chạy trên Tesseract 3, hoạt động bằng cách nhận dạng các mẫu ký tự trong quy trình hai lần.

Trong lần vượt qua đầu tiên, động cơ sẽ cố gắng nhận ra từng ký tự riêng lẻ. Sau đó, nó chuyển các ký tự đã được nhận dạng với độ tin cậy cao trong lần chuyển đầu tiên đến bộ phân loại thích ứng làm dữ liệu đào tạo. Bằng cách này, bộ phân loại thích ứng có cơ hội học cách nhận dạng văn bản tiếp theo chính xác hơn.
Tuy nhiên, có thể xảy ra trường hợp trình phân loại thích ứng học thông tin hữu ích quá muộn để có thể đóng góp có ý nghĩa. Để giải quyết vấn đề này và tận dụng kiến thức mà bộ phân loại thích ứng thu được, công cụ vận hành một lần vượt qua thứ hai trong đó các ký tự không được nhận dạng đủ tốt sẽ được nhận dạng lại [1].

Tesseract 3 xử lý bất kỳ ký tự Unicode nào (được mã hóa bằng UTF-8) và có thể xử lý văn bản bằng nhiều ngôn ngữ và bố cục chữ viết: trái sang phải (ví dụ: tiếng Anh, tiếng Ý, tiếng Nga, v.v.), từ phải sang trái (ví dụ: Tiếng Ả Rập, tiếng Do Thái, tiếng Urdu, v.v.) và từ trên xuống dưới (ví dụ: tiếng Nhật, tiếng Hàn, tiếng Trung, v.v.) [2].

Khước từ. Người dùng Mac hiện không thể sử dụng nút Tess4J. Các nhà phát triển KNIME đang làm việc để khôi phục hoạt động trơn tru.

Trường hợp sử dụng: Lấy siêu dữ liệu và bìa sách

Bây giờ chúng ta đã có được hiểu biết cơ bản về cách OCR hoạt động trong Nền tảng phân tích KNIME, hãy cùng xem một trường hợp sử dụng thú vị. Giả sử rằng chúng tôi đã thu thập hình ảnh minh họa thông báo về ấn bản của một số cuốn sách và với thông tin này, chúng tôi muốn truy xuất siêu dữ liệu và bìa sách. Dữ liệu được truy xuất sau đó có thể được sử dụng để xây dựng một thư viện kỹ thuật số tùy chỉnh và đào tạo hệ thống giới thiệu sách.

Quy trình làm việc trong Hình 2 bao gồm tất cả các bước: từ đọc hình ảnh, OCRing, xử lý văn bản và trích xuất tham chiếu ISBN, đến siêu dữ liệu sách và truy xuất bìa và trực quan hóa. Chúng ta hãy xem xét các bước khác nhau một cách chi tiết.

Hình 2: Cái này quy trình làm việc thực hiện một tác vụ OCR đơn giản trên các thông báo về ấn bản sách và truy xuất siêu dữ liệu và bìa sách bằng API Google Sách.

1 - Đọc dữ liệu hình ảnh

Bước đầu tiên là nhập hình ảnh thông báo ấn bản sách vào KNIME. Thông báo về ấn bản là trang trong sách chứa thông tin về ấn bản hiện tại, chẳng hạn như thông báo bản quyền, thông báo pháp lý, thông tin xuất bản, lịch sử in và mã ISBN (Hình 1).

Metanode “Đọc dữ liệu hình ảnh” xử lý việc đó một cách dễ dàng và có lập trình (Hình 3). Chúng tôi xác định vị trí nơi các tệp hình ảnh được lưu trữ với Liệt kê các tệp / thư mục nút và sử dụng Trình đọc hình ảnh (Bảng) để nhập hình ảnh một cách duyên dáng. Trong nút Trình đọc ảnh (Bảng), chúng ta chỉ cần chỉ định “Cột đầu vào tệp”, nghĩa là cột có đường dẫn đến tệp nơi hình ảnh của chúng ta được lưu trữ. Tất cả các cấu hình khác có thể được để làm mặc định.

Trình đọc Hình ảnh (Bảng) là một phần của Xử lý hình ảnh KNINE và, giống như các nút khác trong tiện ích mở rộng này, nó cung cấp chế độ xem tương tác có chứa hình ảnh và siêu dữ liệu của nó bằng cách chỉ cần nhấp chuột phải vào nút, chọn “Chế độ xem: Trình xem hình ảnh” và nhấp đúp vào bất kỳ hình ảnh nào trong chế độ xem bảng.

Hình 3: Bên trong metanode “Đọc dữ liệu hình ảnh”. Nút Trình đọc Hình ảnh (Bảng) nhập hình ảnh vào quy trình làm việc và cho phép chúng tôi khám phá chúng một cách tương tác trong chế độ xem của nó.

2 - OCR

Sau khi đọc các tệp hình ảnh của các thông báo về ấn bản sách, chúng tôi có thể OCR chúng.

Cấu hình của nút Tess4J rất đơn giản và chỉ cần một vài cú nhấp chuột (Hình 4). bên trong Cài đặt , nút này cung cấp khả năng sửa bất kỳ hình ảnh xoay hoặc bị lệch nào bằng cách chọn hộp “Bỏ qua hình ảnh đầu vào” trong phần “Xử lý trước” của hộp thoại cấu hình. Bạn thường nên làm như vậy, vì các tệp đồ họa có thể không được căn chỉnh đúng cách. Hơn nữa, nút Tess4J tự động tạo ra một hình ảnh nhị phân phía sau mui xe.

Tiếp theo, chúng tôi chọn “Đường dẫn Tessdata”. Theo mặc định, điều này được đặt thành “Sử dụng nội bộ”, sau đó cho phép chúng tôi chọn ngôn ngữ của văn bản mà chúng tôi muốn xử lý. Trong cấu hình này, tiếng Anh là ngôn ngữ mặc định, nhưng nút Tess4J hỗ trợ các ngôn ngữ tự nhiên khác như tiếng Đan Mạch, tiếng Ý, tiếng Tây Ban Nha, tiếng Nga, tiếng Hy Lạp, tiếng Slovak, tiếng Đức và tiếng Pháp. Điều đáng nói là bằng cách chọn “Sử dụng bên ngoài”, chúng ta có thể mở rộng khả năng của nút Tess4J để bao gồm các ngôn ngữ không được hỗ trợ nội bộ. Thật vậy, chúng ta có thể chọn các mô hình ngôn ngữ dữ liệu được đào tạo bên ngoài của riêng mình bằng cách chỉ định thư mục nơi chúng được lưu trữ. Chúng tôi chọn “Sử dụng nội bộ” vì chúng tôi muốn dựa vào các mô hình nội bộ của Tess4J cho các tài liệu tiếng Anh của mình.

Trong phần “Cấu hình nhận dạng”, chúng tôi tìm thấy hai cấu hình danh sách thả xuống quan trọng nhất, đó là “Chế độ phân đoạn trang” và “Chế độ động cơ OCR”. Đầu tiên xác định cách trang của chúng tôi được phân đoạn.

Trong Hình 4, chúng tôi chọn “Full Auto Pageseg”, đảm bảo phân đoạn trang hoàn toàn tự động. Tùy thuộc vào trường hợp sử dụng cụ thể, chọn một chế độ khác trong số 13 chế độ có sẵn (ví dụ: “Một cột” hoặc “Văn bản thưa thớt”) có thể là một tùy chọn phù hợp hơn.

Cài đặt thứ hai yêu cầu chúng tôi chọn động cơ OCR. Ở đây, chúng tôi chọn “Tesseract Only”, đảm bảo thực thi nhanh nhất. Các tùy chọn khác bao gồm “Cube Only” - một chế độ nhận dạng thay thế cho Tesseract - chậm hơn nhưng thường tạo ra kết quả tốt hơn; hoặc “Tesseract And Cube”, kết hợp những gì tốt nhất của cả hai thế giới. Việc chọn công cụ này hay công cụ khác phụ thuộc mạnh mẽ vào chất lượng của hình ảnh và độ phức tạp của văn bản mà chúng ta muốn xử lý.

Ngoài các cài đặt cơ bản, nút Tess4J cung cấp một Cấu hình nâng cao tab nơi chúng tôi có thể xác định một tập hợp thông số điều khiển. Tab này làm cho nút cực kỳ linh hoạt và giúp người dùng chuyên nghiệp tùy chỉnh và tinh chỉnh công cụ Tesseract OCR theo nhu cầu cụ thể của họ. Tuy nhiên, đừng lo lắng, đối với hầu hết các trường hợp, các cấu hình cơ bản sẽ khiến bạn mất một khoảng thời gian dài!

Hình 4: Hộp thoại cấu hình của nút Tess4J.

Bên cạnh việc điều chỉnh cấu hình của nút Tess4J cho phù hợp với trường hợp sử dụng, bạn nên xử lý trước các hình ảnh đầu vào một cách kỹ lưỡng, nếu cần. Đặc biệt, Tesseract hoạt động tốt nhất khi hình ảnh được mở rộng đủ tỷ lệ sao cho số pixel của chiều cao x của các ký tự là ít nhất 20 pixel; hình ảnh được căn chỉnh chính xác và có độ phân giải đủ cao; và mọi đường viền tối sẽ bị xóa hoặc chúng có thể bị hiểu sai thành các ký tự [3]. Các Xử lý hình ảnh KNINE tiện ích mở rộng bao gồm một số nút để làm sạch, thao tác và chuyển đổi hình ảnh, và nhiều quy trình làm việc ví dụ có thể được tìm thấy trên Trung tâm KNIME.

Đầu ra của nút Tess4J là một bảng chứa văn bản được trích xuất dưới dạng kiểu dữ liệu Chuỗi, và do đó, nó có thể được tìm kiếm và chỉnh sửa.

3 - Xử lý văn bản để trích xuất ISBN

Sau khi hình ảnh được OCRed, văn bản chứa chúng cuối cùng cũng có thể được truy cập và truy xuất thông tin hữu ích.

Đặc biệt, các thông báo về ấn bản thường báo cáo mã ISBN được chỉ định cho sách. Mã ISBN là một mã định danh sách thương mại, dài 13 chữ số duy nhất (nó từng là 10 chữ số trước năm 2007), mã định danh sách thương mại và như vậy, nó được chỉ định cho từng ấn bản và biến thể riêng biệt của một ấn phẩm. Việc trích xuất mã ISBN cho phép chúng tôi đề cập đến từng cuốn sách một cách rõ ràng khi chúng tôi muốn truy xuất thông tin siêu dữ liệu. Để đạt được điều đó, chúng ta có thể dựa vào các nút có trong KNIME - Xử lý văn bản phần mở rộng, một số trong số đó được sử dụng trong metanode “trích xuất ISBN” (Hình 5).

Trong metanode “Làm sạch văn bản”, chúng tôi bắt đầu bằng cách chuyển đổi văn bản OCRed từ kiểu dữ liệu Chuỗi thành Tài liệu. Tiếp theo, chúng tôi chuyển văn bản thành chữ thường, loại bỏ dấu chấm câu, dấu cách trống, dấu gạch nối và thay thế các chữ cái “o” bằng “0” (số không) để sửa các ký tự bị nhận dạng sai trong mã ISBN.

Chúng tôi trích xuất các mã ISBN bằng cách cô lập 13 ký tự theo sau chuỗi “isbn” và sử dụng Công cụ quy tắc để kiểm tra xem các ký tự được trích xuất không chứa các giá trị bị thiếu và có độ dài dự kiến là 13 ký tự. Sau đó, chúng tôi khai thác khả năng của nút này để nối thêm một cột có nhãn trích xuất thành công là 1 và trích xuất không thành công là 0.

Hình 5: Bên trong metanode “trích xuất ISBN”.

4 - Truy xuất và hình dung thông tin

Trong bước cuối cùng, chúng tôi sử dụng mã ISBN để truy xuất thông tin về sách và bìa từ API Sách của Google. Metanode “Nhận siêu dữ liệu sách và bìa” đảm nhiệm việc đó (Hình 6). Tuy nhiên, chỉ có thể truy xuất siêu dữ liệu nếu mã ISBN được trích xuất thành công. Để đảm bảo xử lý trơn tru việc trích xuất ISBN thành công / không thành công, chúng tôi bao gồm một số nút kiểm soát quy trình làm việc. Bạn có thể tìm thấy một cái nhìn tổng quan sâu sắc trong Cheat Sheet: Kiểm soát và điều phối với Nền tảng phân tích KNIME.

Nếu mã ISBN được trích xuất thành công, chúng tôi sử dụng NHẬN Yêu cầu để gửi Yêu cầu GET tới API Sách của Google, một dịch vụ web RESTful miễn phí do Google cung cấp cho phép truy xuất một số thông tin khác như tên sách, phụ đề, tác giả, ngày xuất bản, mô tả, số lượng trang, ngôn ngữ, xếp hạng trung bình, số lượng xếp hạng và bìa. Hơn nữa, dịch vụ web RESTful này không yêu cầu tạo tài khoản nhà phát triển. Cấu hình của nút GET Request rất đơn giản. Nó yêu cầu lựa chọn đơn giản "cột URL" có ý nghĩa mà chúng tôi xây dựng trong Thao tác chuỗi nút bằng cách tham gia URL API Sách của Google với mã ISBN của mỗi thông báo về ấn bản. Tất cả các cấu hình khác có thể được để làm mặc định.

Sau đó, chúng tôi phân tích cú pháp đầu ra JSON của nút GET Request bằng cách sử dụng Đường dẫn JSON và tham gia siêu thông tin được trích xuất với bìa sách trước khi thu thập kết quả cuối cùng.

Cuối cùng, chúng tôi tạo thành phần “Hình ảnh hóa siêu dữ liệu sách và bìa” để có hình dung rõ ràng về thông tin và bìa sách đã truy xuất.

Trong thành phần, chúng tôi bao gồm Tiện ích con bộ lọc thanh trượt phạm vi tương tác để bật tính năng lọc sách động dựa trên tổng số xếp hạng trung bình (0-khủng khiếp; 5-tuyệt vời) được chỉ định bởi độc giả trên Google Sách và Chế độ xem Tile để hiển thị kết quả.

Sau đó, thành phần có được một chế độ xem bao gồm thanh trượt để chọn sách dựa trên xếp hạng trung bình và một bảng lưu trữ bìa và mô tả của các sách đã chọn. Đối với bài viết này, chúng tôi đã chọn trích xuất các sách có xếp hạng từ 3 đến 5 và kết quả được hiển thị trong Hình 6.

Hình 6: Thông tin thu thập được và bìa sách cho những cuốn sách có xếp hạng cao hơn 3.

Tổng kết

Trong bài viết này, chúng tôi đã minh họa cách có thể dễ dàng tiến hành OCR trong Nền tảng phân tích KNIME. Về phần này, chúng tôi đã trình bày về nút Tess4J và cung cấp chi tiết về hoạt động của thư viện Tesseract OCR mà nút này dựa trên đó.

Hơn nữa, chúng tôi đã chỉ ra một trường hợp sử dụng đơn giản trong đó OCR có thể là một nguồn tài nguyên hữu ích và mạnh mẽ. Chúng tôi đã trích xuất thông tin từ các thông báo về ấn bản sách – cụ thể là mã ISBN– để gửi Yêu cầu GET tới dịch vụ web RESTful của Google Sách. Điều này đã cho phép chúng tôi truy xuất siêu dữ liệu và bìa sách.

Với KNIME, OCRing hình ảnh để trích xuất các phần thông tin quan trọng trở nên dễ dàng như ABC. Hãy thử nó cho mình! Trường hợp sử dụng OCR của bạn là gì?

Quy trình làm việc được trình bày trong bài viết này có thể được tải xuống miễn phí từ Trung tâm KNIME.

dự án

[1] Smith, R. (2007). “Tổng quan về Công cụ Tesseract OCR”. Hội nghị Quốc tế lần thứ IX về Phân tích và Ghi nhận Tài liệu (ICDAR 2007), trang 629–633. Có thể truy cập tại:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/33418.pdf
[Đã truy cập: 15.07.2021].

[2] Dự án Tesseract OCR trên GitHub - https://github.com/tesseract-ocr/tesseract

[3] Tài liệu Tesseract OCR trên GitHub - https://tesseract-ocr.github.io/tessdoc/

Roberto Cadili là một nhà khoa học dữ liệu tại KNIME, người đam mê NLP và người yêu lịch sử. Trình chỉnh sửa mã thấp cho Khoa học dữ liệu nâng cao.

Lada Rudnitckaia là một nhà khoa học dữ liệu tại KNIME.

Như lần đầu tiên được xuất bản trong Mã thấp cho Khoa học dữ liệu nâng cao.

Nguyên. Đăng lại với sự cho phép.

Liên quan: