เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ข้อมูลเมตาของหนังสือและการดึงข้อมูลปกโดยใช้ OCR และ Google Books API

= โพสต์ก่อนหน้า

โพสต์ถัดไป =>

คีย์เวิร์ด: API, Google, ไนม์, โลว์โค้ด

ด้วย KNIME ที่ดึงข้อมูลที่สำคัญจากภาพกลายเป็นเรื่องง่ายเหมือน ABC

ความคิดเห็น

By โรแบร์โต กาดิลี, นักวิทยาศาสตร์ข้อมูล, KNIME & ลดา รัดนิตกาย, นักวิทยาศาสตร์ข้อมูล, KNIME

รูปที่ 1: ตัวอย่างประกาศฉบับหนังสือที่สามารถดึงข้อมูลได้ด้วย OCR

โดยส่วนใหญ่ ข้อมูลดิบที่เราต้องการสำหรับโครงการวิทยาศาสตร์ข้อมูลของเราไม่ได้จัดอยู่ในตารางที่เป็นระเบียบเรียบร้อย มีโครงสร้างที่ดี และให้ข้อมูลเชิงลึก แต่บางครั้งสิ่งนี้จะถูกจัดเก็บเป็นข้อความในเอกสารที่สแกน คำในเอกสารจะต้องแยกออกมาทีละคำเพื่อสร้างเซลล์ข้อมูลที่จัดรูปแบบข้อความ นี่เป็นงานที่ดำเนินการโดย Optical Character Recognition (OCR)

ในขณะที่คุณอ่านข้อความในบทความนี้ ไม่ว่าจะเป็นข้อความหรือตัวเลข ดวงตาของคุณสามารถประมวลผลได้ด้วยการจดจำรูปแบบแสงและความมืดที่ประกอบเป็นตัวอักษร (เช่น ตัวอักษร ตัวเลข เครื่องหมายวรรคตอน ฯลฯ) จากนั้นสมองของคุณจะถอดรหัสอักขระและรูปแบบต่างๆ รวมกันเพื่อทำความเข้าใจความหมายของคำ ในแง่นั้น ดวงตาและสมองของคุณคือกลไก OCR ที่ซับซ้อนและละเอียดที่สุดที่คุณจะจินตนาการได้ และพวกมันทำงานโดยที่คุณไม่แม้แต่จะสังเกตเห็น

คอมพิวเตอร์มีความสามารถที่คล้ายคลึงกัน แต่ก็ต้องจัดการกับข้อจำกัดที่สำคัญ นั่นคือ การไม่ลืมตา หากเราต้องการให้คอมพิวเตอร์เห็นและอ่านเอกสารข้อความจริง เราต้องป้อนไฟล์กราฟิกที่สร้างด้วยเครื่องสแกนออปติคัลหรือกล้องดิจิตอล เท่าที่คอมพิวเตอร์มีความกังวล ไม่มีความแตกต่างระหว่างเอกสารที่ได้มาด้วยตัวเลือกเหล่านี้และรูปถ่ายของหอไอเฟล: ทั้งสองถือเป็นคอลเล็กชันของสี่เหลี่ยมสีที่ไร้ความหมายหรือที่เรียกว่าพิกเซลซึ่งเป็นภาพกราฟิกคอมพิวเตอร์ อย่างหลังเป็นเพียงรูปภาพของข้อความที่เราตั้งใจจะอ่านมากกว่าตัวหนังสือเอง

นี่คือจุดที่ OCR มีประโยชน์ เทคโนโลยีอันทรงพลังนี้สามารถดึงข้อมูลที่พิมพ์ พิมพ์ หรือเขียนด้วยลายมือ ไม่ว่าจะเป็นใบแจ้งหนี้ นามบัตร ข้อความทางกฎหมาย หรืองานพิมพ์ และแปลงเป็นรูปแบบดิจิทัลที่ค้นหาและแก้ไขได้ แม้ว่าเป็นเวลาหลายปีที่ OCR ถูกมองว่าเป็นบริการที่มีราคาแพง ซึ่งมีบริษัทขนาดใหญ่เพียงไม่กี่แห่งเท่านั้นที่สามารถจ่ายได้ ตั้งแต่กลางปี 2000 เป็นต้นมา ต้นทุนของ OCR ก็ค่อยๆ ลดลง ในขณะที่ความแม่นยำและความสามารถได้พัฒนาขึ้นเพื่อรองรับภาษาและการเข้ารหัสอักขระหลายร้อยตัวในปัจจุบัน จาก UTF-8 ถึง GB2312

ประโยชน์ของความสามารถในการค้นหาและดึงข้อความจากรูปภาพนั้นประเมินค่าไม่ได้ ตัวอย่างเช่น ในอุตสาหกรรมกฎหมายหรือการบัญชี สามารถแสดงถึงการประหยัดเวลาและต้นทุนได้อย่างมาก เนื่องจากช่วยให้สามารถดึงข้อความหรือตัวเลขบางส่วนในบทความหรืองบการเงินได้ในเวลาไม่กี่วินาที การเปรียบเทียบกระบวนการนี้กับค่าใช้จ่ายในการจ้างกลุ่มคนเพื่ออ่านเอกสารหลายพันฉบับเพื่อค้นหาข้อมูลที่สำคัญเพียงชิ้นเดียว ให้แนวคิดว่า OCR จะเป็นประโยชน์ต่อธุรกิจได้อย่างไร

ไม่นานมานี้ เทคโนโลยี OCR กำลังอยู่ในการปฏิวัติอย่างเงียบๆ เนื่องจากผู้ให้บริการนี้กำลังรวมเอาเทคโนโลยีนี้เข้ากับ AI ด้วยเหตุนี้ ข้อมูลจึงไม่เพียงแต่ถูกดักจับ ทำให้ค้นหาและแก้ไขได้ แต่ระบบ AI นั้นเข้าใจเนื้อหาจริงๆ เพื่อดำเนินงานเฉพาะ ตัวอย่างเช่น หลังจาก OCRing ข้อความ AI สามารถให้การแปลโดยใช้การแปลด้วยเครื่องประสาทโดยมีการแทรกแซงของมนุษย์น้อยที่สุด อีกตัวอย่างหนึ่งที่คลาสสิกมาจากส่วนการตรวจสอบ ซึ่งสามารถรับรู้ใบแจ้งหนี้ที่เป็นการฉ้อโกงได้หลังจาก OCRing เนื้อหาของเอกสาร pdf โดยใช้เทคนิคการตรวจหาสิ่งผิดปกติ และอื่นๆ. การทำงานร่วมกันนี้ผสมผสานสิ่งที่ดีที่สุดของทั้งสองโลกเข้าด้วยกันเพื่อปรับปรุงกระบวนการและเพิ่มประสิทธิภาพสำหรับธุรกิจและลูกค้า

ในกรณีการใช้งานที่อธิบายไว้ในบทความนี้ OCR ใช้เพื่อระบุหนังสือแล้วดึงข้อมูลเมตาของหนังสือจากที่เก็บ Google หนังสือ

โดยเฉพาะอย่างยิ่งเราจะดูที่:

OCR สามารถดำเนินการได้อย่างไรใน แพลตฟอร์มการวิเคราะห์ KNIME.
วิธีที่เราสามารถผสานรวมตัวประมวลผล OCR ของ KNIME และ Google Books API สำหรับกรณีใช้งานในการดึงข้อมูลเมตาของหนังสือและหน้าปก

OCR ในแพลตฟอร์มการวิเคราะห์ KNIME

OCRing รูปภาพที่มีข้อความใน KNIME เป็นเรื่องง่ายมาก ทั้งหมดก็จะเป็นการติดตั้ง การประมวลผลภาพ KNIME — Tess4J Integration ส่วนขยายในพื้นที่ของคุณ แพลตฟอร์มการวิเคราะห์ KNIMEและเพื่อลาก&ปล่อย เทส4เจ โหนดบนตัวแก้ไขเวิร์กโฟลว์ของคุณ

โหนด Tess4J รวม ห้องสมุด Tesseract OCRซึ่งเป็นหนึ่งในโปรเซสเซอร์ OCR โอเพ่นซอร์สที่ใช้กันอย่างแพร่หลายและแม่นยำที่สุดที่มีอยู่ เดิมที Tesseract ได้รับการพัฒนาเป็นซอฟต์แวร์ที่เป็นกรรมสิทธิ์โดย Hewlett-Packard Laboratories ในช่วงต้นทศวรรษ 1990 และต่อมาได้กลายเป็นโอเพ่นซอร์สในปี 2005 ตั้งแต่นั้นมา Google ได้นำโครงการนี้ไปใช้และสนับสนุนการพัฒนา

โหนด Tess4J ทำงานบน Tesseract 3 ซึ่งทำงานโดยการจดจำรูปแบบอักขระในโพรซีเดอร์สองรอบ

ในรอบแรก เครื่องยนต์จะพยายามจดจำตัวละครแต่ละตัว จากนั้นจะส่งผ่านอักขระที่ได้รับการยอมรับด้วยความมั่นใจสูงในการส่งครั้งแรกไปยังตัวแยกประเภทแบบปรับได้เป็นข้อมูลการฝึกอบรม ด้วยวิธีนี้ ตัวแยกประเภทแบบปรับได้มีโอกาสที่จะเรียนรู้วิธีจดจำข้อความที่ตามมาได้แม่นยำยิ่งขึ้น
อย่างไรก็ตาม ตัวแยกประเภทแบบปรับเปลี่ยนได้อาจเรียนรู้ข้อมูลที่เป็นประโยชน์ช้าเกินไปที่จะให้ความช่วยเหลือที่มีความหมาย เพื่อแก้ปัญหานี้และใช้ประโยชน์จากความรู้ที่ได้รับจากตัวแยกประเภทที่ปรับเปลี่ยนได้ เอ็นจิ้นจะดำเนินการรอบที่สองโดยที่ตัวละครที่ไม่รู้จักดีพอจะถูกจดจำอีกครั้ง [1]

Tesseract 3 จัดการอักขระ Unicode ใดๆ (เข้ารหัสด้วย UTF-8) และสามารถประมวลผลข้อความในภาษาต่างๆ และรูปแบบการเขียนได้: จากซ้ายไปขวา (เช่น อังกฤษ อิตาลี รัสเซีย ฯลฯ) จากขวาไปซ้าย (เช่น อารบิก ฮิบรู อูรดู เป็นต้น) และจากบนลงล่าง (เช่น ญี่ปุ่น เกาหลี จีน ฯลฯ) [2]

คำปฏิเสธ ผู้ใช้ Mac ไม่สามารถใช้โหนด Tess4J ได้ นักพัฒนา KNIME กำลังทำงานเพื่อคืนค่าการทำงานที่ราบรื่น

ใช้กรณี: การดึงข้อมูลเมตาของหนังสือและปก

ตอนนี้เราเข้าใจพื้นฐานแล้วว่า OCR ทำงานอย่างไรในแพลตฟอร์ม KNIME Analytics แล้ว มาดูกรณีการใช้งานที่น่าสนใจกัน สมมติว่าเราได้รวบรวมรูปภาพที่แสดงประกาศฉบับของหนังสือหลายเล่ม และด้วยข้อมูลนี้ เราต้องการดึงข้อมูลเมตาของหนังสือและหน้าปก ข้อมูลที่ดึงมานั้นสามารถนำมาใช้ได้ เช่น เพื่อสร้างห้องสมุดดิจิทัลที่ปรับแต่งเองและฝึกอบรมระบบผู้แนะนำหนังสือ

เวิร์กโฟลว์ในรูปที่ 2 ครอบคลุมขั้นตอนทั้งหมด ตั้งแต่การอ่านภาพ OCRing การประมวลผลข้อความ และการแยกการอ้างอิง ISBN ไปจนถึงข้อมูลเมตาของหนังสือ การดึงข้อมูลและการแสดงภาพ มาดูขั้นตอนต่าง ๆ โดยละเอียดกัน

รูปที่ 2: นี่ เวิร์กโฟลว์ ทำงาน OCR อย่างง่ายในการแจ้งรุ่นหนังสือ และดึงข้อมูลเมตาของหนังสือและปกโดยใช้ Google Books API

1 — อ่านข้อมูลภาพ

ขั้นตอนแรกคือการนำเข้ารูปภาพประกาศฉบับหนังสือเข้าสู่ KNIME ประกาศฉบับคือหน้าในหนังสือที่มีข้อมูลเกี่ยวกับฉบับปัจจุบัน เช่น ประกาศเกี่ยวกับลิขสิทธิ์ ประกาศทางกฎหมาย ข้อมูลการตีพิมพ์ ประวัติการพิมพ์ และรหัส ISBN (ภาพที่ 1)

Metanode “Read image data” จะดูแลมันด้วยวิธีที่ง่ายและเป็นโปรแกรม (ภาพที่ 3) เราระบุตำแหน่งที่จัดเก็บไฟล์ภาพด้วย แสดงรายการไฟล์/โฟลเดอร์ โหนดและใช้ โปรแกรมอ่านรูปภาพ (ตาราง) โหนดเพื่อนำเข้ารูปภาพอย่างสง่างาม ในโหนด Image Reader (Table) เราจำเป็นต้องระบุ "คอลัมน์อินพุตไฟล์" เท่านั้น กล่าวคือคอลัมน์ที่มีพาธไปยังไฟล์ที่จัดเก็บรูปภาพของเรา การกำหนดค่าอื่นๆ ทั้งหมดสามารถปล่อยให้เป็นค่าเริ่มต้นได้

Image Reader (ตาราง) เป็นส่วนหนึ่งของ KNINE การประมวลผลภาพ ส่วนขยายและเช่นเดียวกับโหนดอื่น ๆ ในส่วนขยายนี้ มีมุมมองแบบโต้ตอบที่มีรูปภาพและข้อมูลเมตาโดยเพียงแค่คลิกขวาที่โหนด เลือก "มุมมอง: โปรแกรมดูรูปภาพ" และดับเบิลคลิกที่รูปภาพใด ๆ ในมุมมองตาราง

รูปที่ 3: ภายใน metanode "อ่านข้อมูลภาพ" โหนด Image Reader (Table) นำเข้ารูปภาพเข้าสู่เวิร์กโฟลว์และช่วยให้เราสามารถสำรวจแบบโต้ตอบในมุมมองได้

2 — โอซีอาร์

หลังจากอ่านในไฟล์ภาพของหนังสือแจ้งฉบับแล้ว เราสามารถ OCR ได้

การกำหนดค่าโหนด Tess4J นั้นง่ายมากและต้องการเพียงไม่กี่คลิก (ภาพที่ 4) ใน การตั้งค่า แท็บ โหนดเสนอความเป็นไปได้ในการแก้ไขการหมุนหรือภาพบิดเบี้ยวโดยการเลือกช่อง "ภาพอินพุต Deskew" ในส่วน "การประมวลผลล่วงหน้า" ของกล่องโต้ตอบการกำหนดค่า โดยปกติแล้ว ขอแนะนำให้ทำเช่นนั้น เนื่องจากไฟล์กราฟิกอาจไม่ได้รับการจัดตำแหน่งอย่างเหมาะสม ยิ่งไปกว่านั้น โหนด Tess4J จะสร้างภาพไบนารีหลังฮูดโดยอัตโนมัติ

ต่อไปเราเลือก "เส้นทาง Tessdata" โดยค่าเริ่มต้น ค่านี้จะตั้งเป็น "ใช้ภายใน" ซึ่งช่วยให้เราเลือกภาษาของข้อความที่เราต้องการประมวลผลได้ ในการกำหนดค่านี้ ภาษาอังกฤษเป็นภาษาเริ่มต้น แต่โหนด Tess4J รองรับภาษาธรรมชาติอื่นๆ เช่น เดนมาร์ก อิตาลี สเปน รัสเซีย กรีก สโลวัก เยอรมัน และฝรั่งเศส เป็นมูลค่าการกล่าวขวัญว่าเมื่อเลือก "ใช้ภายนอก" เราสามารถขยายขีดความสามารถของโหนด Tess4J เพื่อรวมภาษาที่ไม่รองรับภายในได้ อันที่จริง เราสามารถเลือกโมเดลภาษาข้อมูลที่ได้รับการฝึกอบรมจากภายนอกโดยระบุไดเร็กทอรีที่เก็บไว้ เราเลือก "ใช้ภายใน" เนื่องจากเราต้องการใช้ Tess4J รุ่นภายในสำหรับเอกสารภาษาอังกฤษของเรา

ในส่วน "การกำหนดค่าการรับรู้" เราพบการกำหนดค่ารายการแบบหล่นลงที่สำคัญที่สุดสองรายการ ได้แก่ "โหมดการแบ่งส่วนหน้า" และ "โหมด OCR Engine" ขั้นแรกกำหนดวิธีการแบ่งหน้าของเรา

ในรูปที่ 4 เราเลือก "Full Auto Pageseg" ซึ่งช่วยให้มั่นใจได้ว่าการแบ่งส่วนหน้าอัตโนมัติโดยสมบูรณ์ ขึ้นอยู่กับกรณีการใช้งานเฉพาะ การเลือกโหมดอื่นจาก 13 โหมดที่มี (เช่น "คอลัมน์เดียว" หรือ "ข้อความกระจัดกระจาย") อาจเป็นตัวเลือกที่เหมาะสมกว่า

การตั้งค่าที่สองขอให้เราเลือกเอ็นจิ้น OCR ที่นี่เราเลือก "Tesseract เท่านั้น" ซึ่งช่วยให้ดำเนินการได้เร็วที่สุด ตัวเลือกอื่นๆ ได้แก่ "Cube Only" ซึ่งเป็นโหมดการจดจำทางเลือกสำหรับ Tesseract ซึ่งช้ากว่าแต่มักจะให้ผลลัพธ์ที่ดีกว่า หรือ “Tesseract And Cube” ที่รวมเอาสิ่งที่ดีที่สุดของทั้งสองโลก การเลือกเครื่องมืออย่างใดอย่างหนึ่งขึ้นอยู่กับคุณภาพของภาพและความซับซ้อนของข้อความที่เราต้องการประมวลผล

นอกเหนือจากการตั้งค่าพื้นฐานแล้ว โหนด Tess4J ยังเสนอ an การกำหนดค่าขั้นสูง แท็บที่เราสามารถกำหนดชุดของ พารามิเตอร์ควบคุม. แท็บนี้ทำให้โหนดมีความยืดหยุ่นอย่างมาก และช่วยให้ผู้ใช้ที่เชี่ยวชาญในการปรับแต่งและปรับแต่งเอ็นจิ้น Tesseract OCR ให้ตรงตามความต้องการเฉพาะของพวกเขา ไม่ต้องกังวล ในกรณีส่วนใหญ่ การกำหนดค่าพื้นฐานจะพาคุณไปไกล!

รูปที่ 4: ไดอะล็อกการกำหนดค่าของโหนด Tess4J

นอกจากการปรับแต่งการกำหนดค่าของโหนด Tess4J ให้เป็นกรณีใช้งานในมือแล้ว แนวทางปฏิบัติที่ดีในการประมวลผลภาพอินพุตล่วงหน้าอย่างละเอียด หากจำเป็น โดยเฉพาะอย่างยิ่ง Tesseract ทำงานได้ดีที่สุดเมื่อรูปภาพได้รับการขยายขนาดเพียงพอเพื่อให้จำนวนพิกเซลของความสูง x ของอักขระอย่างน้อย 20 พิกเซล; ภาพถูกจัดแนวอย่างถูกต้องและมีความละเอียดสูงเพียงพอ และขอบมืดใดๆ จะถูกลบออก หรืออาจถูกตีความผิดว่าเป็นอักขระ [3] NS KNINE การประมวลผลภาพ ส่วนขยายประกอบด้วยหลายโหนดสำหรับการทำความสะอาด การปรับแต่งและการแปลงภาพ และอื่นๆ อีกมากมาย ตัวอย่างเวิร์กโฟลว์ สามารถพบได้ใน KNIME ฮับ.

ผลลัพธ์ของโหนด Tess4J คือตารางที่มีข้อความที่แยกออกมาเป็นประเภทข้อมูลสตริง จึงสามารถค้นหาและแก้ไขได้

3 — การประมวลผลข้อความสำหรับการแยก ISBN

เมื่อรูปภาพเป็น OCRed ข้อความที่มีอยู่จะสามารถเข้าถึงและดึงข้อมูลที่เป็นประโยชน์ได้ในที่สุด

โดยเฉพาะอย่างยิ่ง ประกาศฉบับมักจะรายงานรหัส ISBN ที่กำหนดให้กับหนังสือ รหัส ISBN มีความยาว 13 หลักที่ไม่ซ้ำกัน (แต่เดิมมีความยาว 10 หลักก่อนปี 2007) ตัวระบุหนังสือเชิงพาณิชย์ จึงกำหนดให้กับแต่ละฉบับและรูปแบบต่างๆ ของสิ่งพิมพ์แยกกัน การแยกรหัส ISBN ช่วยให้เราสามารถอ้างอิงหนังสือแต่ละเล่มได้อย่างชัดเจนเมื่อเราต้องการดึงข้อมูลเมตา เพื่อให้บรรลุเป้าหมายนั้น เราสามารถพึ่งพาโหนดที่รวมอยู่ใน KNIME — การประมวลผลข้อความ ส่วนขยาย ซึ่งบางส่วนใช้ในเมตาโหนด "การแยก ISBN" (รูปที่ 5)

ในเมตาโหนด "การล้างข้อความ" เราเริ่มต้นด้วยการแปลงข้อความ OCRed จากประเภทข้อมูลสตริงเป็นเอกสาร ต่อไป เราจะแปลงข้อความเป็นตัวพิมพ์เล็ก ลบเครื่องหมายวรรคตอน ช่องว่าง ขีดกลาง และแทนที่ตัวอักษร "o" ด้วย "0" (ศูนย์) เพื่อแก้ไขอักขระที่จำผิดในรหัส ISBN

เราแยกรหัส ISBN โดยแยกอักขระ 13 ตัวที่ตามหลังสตริง “isbn” และใช้เครื่องหมาย เครื่องยนต์กฎ โหนดเพื่อตรวจสอบว่าอักขระที่แยกออกมาไม่มีค่าที่ขาดหายไปและมีความยาวตามที่คาดไว้คือ 13 อักขระ จากนั้นเราจะใช้ประโยชน์จากความสามารถของโหนดนี้ในการผนวกคอลัมน์ที่ระบุว่าการดึงข้อมูลสำเร็จเป็น 1 และการดึงข้อมูลที่ไม่สำเร็จเป็น 0

รูปที่ 5: ภายใน metanode “การแยก ISBN”

4 — การดึงข้อมูลเมตาและการแสดงข้อมูล

ในขั้นตอนสุดท้าย เราใช้รหัส ISBN เพื่อดึงข้อมูล meta ของหนังสือและหน้าปกจาก Google Books API เมตาโหนด “รับข้อมูลเมตาของหนังสือและครอบคลุม” จะดูแลเรื่องนั้น (รูปที่ 6) อย่างไรก็ตาม การดึงข้อมูลเมตาจะทำได้ก็ต่อเมื่อแยกรหัส ISBN สำเร็จเท่านั้น เพื่อให้แน่ใจว่าการจัดการการแยก ISBN ที่สำเร็จ/ไม่สำเร็จเป็นไปอย่างราบรื่น เราได้รวมโหนดควบคุมเวิร์กโฟลว์ไว้หลายโหนด คุณสามารถดูภาพรวมที่ชาญฉลาดได้ใน Cheat Sheet: ควบคุมและประสานด้วย KNIME Analytics Platform.

หากแยกรหัส ISBN สำเร็จ เราใช้ รับคำขอ โหนดเพื่อส่งคำขอ GET ไปยัง Google หนังสือ APIซึ่งเป็นบริการเว็บ RESTful ฟรีที่ขับเคลื่อนโดย Google ซึ่งช่วยให้สามารถดึงข้อมูลเมตาฟอร์มต่างๆ เช่น ชื่อหนังสือ คำบรรยาย ผู้แต่ง วันที่พิมพ์ คำอธิบาย จำนวนหน้า ภาษา เรตติ้งเฉลี่ย จำนวนเรตติ้ง และหน้าปก นอกจากนี้ บริการเว็บ RESTful นี้ไม่ต้องการการสร้างบัญชีนักพัฒนาซอฟต์แวร์ การกำหนดค่าของโหนด GET Request นั้นตรงไปตรงมามาก ต้องมีการเลือกอย่างง่ายของ "คอลัมน์ URL" ที่มีความหมายซึ่งเราสร้างใน การจัดการสตริง โหนดโดยเข้าร่วม Google หนังสือ API URL พร้อมรหัส ISBN ของประกาศแต่ละฉบับ การกำหนดค่าอื่นๆ ทั้งหมดสามารถปล่อยให้เป็นค่าเริ่มต้นได้

จากนั้นเราจะแยกวิเคราะห์เอาต์พุต JSON ของโหนด GET Request โดยใช้ตัว เส้นทาง JSON โหนดและเข้าร่วม metaformation ที่แยกออกมาพร้อมปกหนังสือก่อนรวบรวมผลลัพธ์สุดท้าย

สุดท้าย เราสร้างองค์ประกอบ "แสดงข้อมูลเมตาของหนังสือและหน้าปก" เพื่อให้เห็นภาพชัดเจนของรูปแบบและหน้าปกหนังสือที่ดึงมา

ในองค์ประกอบ เราห่อ วิดเจ็ตตัวกรองแถบเลื่อนช่วงโต้ตอบ โหนดเพื่อเปิดใช้งานการกรองหนังสือแบบไดนามิกตามจำนวนการให้คะแนนเฉลี่ย (0 แย่มาก 5 ยอดเยี่ยม) ที่กำหนดโดยผู้อ่านใน Google หนังสือและ มุมมองกระเบื้อง โหนดเพื่อแสดงผลลัพธ์

จากนั้นส่วนประกอบจะได้รับมุมมองรวมถึงตัวเลื่อนเพื่อเลือกหนังสือตามคะแนนเฉลี่ยและตารางที่มีปกและคำอธิบายของหนังสือที่เลือก สำหรับบทความนี้ เราได้เลือกคัดแยกหนังสือที่มีเรตติ้งระหว่าง 3 ถึง 5 และผลลัพธ์จะแสดงในรูปที่ 6

รูปที่ 6: ดึงข้อมูลเมตาฟอร์เมชั่นและปกหนังสือสำหรับหนังสือที่มีเรตติ้งสูงกว่า 3

สรุป

ในบทความนี้ เราได้แสดงให้เห็นว่า OCR สามารถดำเนินการได้อย่างง่ายดายในแพลตฟอร์ม KNIME Analytics ได้อย่างไร ด้วยเหตุนี้ เราได้นำเสนอโหนด Tess4J และให้รายละเอียดเกี่ยวกับการทำงานของไลบรารี Tesseract OCR ที่ใช้โหนดนี้

นอกจากนี้ เราได้แสดงให้เห็นกรณีการใช้งานง่ายๆ ซึ่ง OCR สามารถเป็นทรัพยากรที่มีประสิทธิภาพและมีประโยชน์ เราได้ดึงข้อมูลจากประกาศฉบับหนังสือ โดยเฉพาะรหัส ISBN เพื่อส่งคำขอ GET ไปยังบริการเว็บ RESTful ของ Google หนังสือ ซึ่งทำให้เราสามารถดึงข้อมูลเมตาและปกหนังสือได้

ด้วย KNIME การ OCRing รูปภาพเพื่อดึงข้อมูลที่สำคัญจะกลายเป็นเรื่องง่ายเหมือนกับ ABC ลองด้วยตัวคุณเอง! กรณีการใช้งาน OCR ของคุณคืออะไร?

เวิร์กโฟลว์ที่นำเสนอในบทความนี้สามารถดาวน์โหลดได้ฟรีจาก KNIME ฮับ.

อ้างอิง

[1] สมิธ, อาร์. (2007). “ภาพรวมของ Tesseract OCR Engine” การประชุมนานาชาติครั้งที่เก้าเกี่ยวกับการวิเคราะห์และการรับรู้เอกสาร (ICDAR 2007), หน้า 629–633. สามารถเข้าถึงได้ที่:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/33418.pdf
[ดึงข้อมูล: 15.07.2021]

[2] โครงการ Tesseract OCR บน GitHub — https://github.com/tesseract-ocr/tesseract

[3] เอกสาร Tesseract OCR บน GitHub — https://tesseract-ocr.github.io/tessdoc/

โรแบร์โต กาดิลี เป็นนักวิทยาศาสตร์ข้อมูลที่ KNIME ผู้คลั่งไคล้ NLP และผู้รักประวัติศาสตร์ Editor สำหรับ Low Code สำหรับ Advanced Data Science

ลดา รัดนิตกาย เป็นนักวิทยาศาสตร์ข้อมูลที่ KNIME

เผยแพร่ครั้งแรกใน รหัสต่ำสำหรับวิทยาศาสตร์ข้อมูลขั้นสูง.

Original. โพสต์ใหม่โดยได้รับอนุญาต

ที่เกี่ยวข้อง