OCR For PDFs - Plato AiStream V2.1

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

บทนำ

นับตั้งแต่มีการใช้คอมพิวเตอร์อย่างแพร่หลายในทศวรรษ 1970 ตามมาด้วยการประดิษฐ์ PDF ในปี 1993 การจัดเก็บไฟล์ข้อความในรูปแบบดิจิทัลได้ค่อยๆ ครอบงำกระดาษแบบดั้งเดิมอย่างค่อยเป็นค่อยไปแต่อย่างต่อเนื่อง ความได้เปรียบที่ไม่มีใครเทียบได้นี้ถูกสร้างขึ้นและปรับปรุงเพิ่มเติมด้วยความสะดวกสบายของอินเทอร์เน็ตที่ช่วยให้สามารถส่งไฟล์ข้อความดิจิทัลไปทั่วโลกได้อย่างง่ายดายในเวลาไม่กี่วินาที ในปัจจุบัน ไม่เพียงแต่ข้อความที่เข้ารหัสด้วยเครื่องจะบันทึกและแชร์ผ่าน PDF เท่านั้น แม้แต่เอกสารที่เขียนด้วยลายมือก็จะถูกสแกนเป็นรูปแบบดังกล่าวเพื่อการประมวลผลและการแจกจ่ายต่อไป

อย่างไรก็ตาม แนวโน้มที่เกิดขึ้นใหม่นี้ได้ให้ความกระจ่างแก่ขอบเขตการวิจัยใหม่และที่กำลังดำเนินอยู่ในปัจจุบัน นั่นก็คือ PDF Optical Character Recognition (OCR) OCR เป็นกระบวนการแปลงข้อความที่สแกนหรือเขียนด้วยลายมือเป็นข้อความที่เข้ารหัสด้วยเครื่อง เพื่อให้โปรแกรมนำไปใช้ต่อไปเพื่อการประมวลผลและการวิเคราะห์เพิ่มเติม แม้ว่าการใช้งาน OCR จะใช้งานได้กว้างๆ (ตั้งแต่รูปภาพป้ายถนนไปจนถึงเอกสารข้อความที่เป็นทางการ) บทความนี้จะเจาะลึกเกี่ยวกับขอบเขตของ PDF OCR โดยเฉพาะ โดยเฉพาะ PDF ของกระดาษที่สแกนและเขียนด้วยลายมือ และอภิปรายการเทคโนโลยีและโปรแกรมในภาษาต่างๆ เพื่อดำเนินการ งาน. ภาพรวมโดยละเอียดและการเปรียบเทียบซอฟต์แวร์ในตลาดหลายตัวสำหรับ PDF OCR มีการนำเสนอเพิ่มเติมเพื่อใช้อ้างอิง

กำลังมองหาโซลูชัน OCR เพื่อดึงข้อมูลจาก PDF อยู่ใช่ไหม? ให้นาโนเน็ต™ การหมุนเพื่อความแม่นยำที่สูงขึ้น ความยืดหยุ่นที่มากขึ้น หลังการประมวลผล และการผสานรวมที่หลากหลาย!

ความก้าวหน้าในโซลูชั่น OCR

ก่อนที่จะหารือเกี่ยวกับรหัส รายละเอียด และประโยชน์ของ OCR เราจะอธิบายแนวคิดเกี่ยวกับวิธีการทำงานของ OCR ก่อนโดยแนะนำความก้าวหน้าในเทคโนโลยีที่เกี่ยวข้อง

OCR แบบดั้งเดิม

การแปลงเอกสารที่สแกนทางอิเล็กทรอนิกส์เพื่อการคำนวณเพิ่มเติม ก่อนที่การเรียนรู้เชิงลึกจะบรรลุความแม่นยำที่จำเป็นสำหรับงานดังกล่าว มักจะดำเนินการด้วยสี่ขั้นตอนง่ายๆ:

รวบรวมฐานข้อมูลของตัวละครที่รู้จัก
ใช้โฟโตเซนเซอร์เพื่อรวบรวมและแยกตัวอักษรแต่ละตัวออกจากเอกสารที่สแกน
เปรียบเทียบชุดคุณลักษณะที่ได้รับจากโฟโตเซ็นเซอร์กับคุณลักษณะทางกายภาพจากฐานข้อมูล
แปลงคุณลักษณะแต่ละชุดให้เป็นอักขระที่รู้จักและมีความคล้ายคลึงกันสูงสุด

แม้ว่าวิธีการแบบเดิมๆ ดูเหมือนจะได้ผลเป็นส่วนใหญ่ แต่ก็มีความเสี่ยงที่จะถูกจำกัดตามกฎโดยธรรมชาติ ขั้นตอนกลางที่สำคัญขั้นตอนหนึ่งของ OCR คือการแยกตัวอักษรหรือเครื่องหมายเดี่ยวๆ ออกจากชุด/กลุ่มข้อความได้สำเร็จ การแยกนี้ต้องใช้เทมเพลตหรือกฎบางอย่าง (เช่น ขนาด/สไตล์แบบอักษรที่กำหนดไว้ล่วงหน้า) เพื่อให้มีความแม่นยำสูง การกำหนดกฎเกณฑ์มากขึ้นเรื่อยๆ เพื่อเพิ่มความแม่นยำจะทำให้เกิดปัญหาในการปรับ OCR มากเกินไป หรือแก้ไขเฉพาะรูปแบบการเขียนที่เฉพาะเจาะจงเท่านั้น ความไม่สอดคล้องกันของแสงในระหว่างกระบวนการสแกนยังทำให้เกิดข้อผิดพลาดเมื่อ OCR เป็นไปตามกฎอย่างสมบูรณ์

นอกจากนี้ การเปรียบเทียบคุณลักษณะตามกฎยังไม่เพียงพอเมื่อต้องรับมือกับลายมือ แบบอักษรที่สร้างโดยคอมพิวเตอร์ส่วนใหญ่ได้รับการแก้ไขแล้วด้วยคุณลักษณะที่มักจะชัดเจนและเปรียบเทียบข้ามได้ง่าย แบบอักษรที่เขียนด้วยลายมือนั้นตรงกันข้ามโดยสิ้นเชิง โดยมีรูปแบบไม่จำกัด ดังนั้นจึงจำแนกได้ยากกว่ามาก เนื่องจากแต่ละครั้งที่ตัวละครที่สร้างขึ้นด้วยมือมีความแตกต่างกันเล็กน้อย จึงไม่สามารถรวมตัวละครทั้งหมดไว้เป็นส่วนหนึ่งของฐานข้อมูลได้เช่นกัน ซึ่งมักต้องใช้ OCR เพื่อทำอัลกอริธึมที่ซับซ้อนมากขึ้น นอกเหนือจากการจับคู่แอตทริบิวต์ที่ไร้เดียงสา

ในที่สุด อุปสรรคของหลายภาษาก็มีอยู่ในแนวทางดั้งเดิมเช่นกัน ภาษาต่างๆ มากมายใช้สัญลักษณ์ที่คล้ายกันหรือเหมือนกันด้วยซ้ำ หากเราจัดเก็บสัญลักษณ์ทั้งหมดไว้ในฐานข้อมูล เราจะไม่สามารถบอกความแตกต่างระหว่างสัญลักษณ์ทั้งสองได้โดยเพียงแค่ดำเนินการจับคู่แอตทริบิวต์ ซึ่งท้ายที่สุดแล้วทำให้วิธีการแบบเดิมมักจำกัดอยู่เพียงภาษาเดียวต่อแบบจำลอง

ในแง่ของยุคการเรียนรู้เชิงลึกเมื่อเร็ว ๆ นี้ ซึ่งต้องขอบคุณความสามารถในการคำนวณด้วยฮาร์ดแวร์ที่เติบโตอย่างรวดเร็ว OCR รุ่นใหม่ ๆ ได้รวมโมเดลการเรียนรู้ทั้งในระหว่างกระบวนการแยกข้อความและในขั้นตอนของการตีความ

เอ็นจิ้น OCR ที่ใช้การเรียนรู้เชิงลึก

การเรียนรู้เชิงลึกซึ่งเป็นสาขาหลักของขอบเขตการเรียนรู้ของเครื่อง ได้รับความนิยมอย่างมากด้วยความช่วยเหลือจากนักวิทยาศาสตร์ที่มีชื่อเสียงจำนวนมากที่ผลักดันให้มันก้าวไปสู่แถวหน้า ในทางวิศวกรรมแบบดั้งเดิม เป้าหมายของเราคือการออกแบบระบบ/ฟังก์ชันที่สร้างเอาต์พุตจากอินพุตที่กำหนด ในทางกลับกัน การเรียนรู้เชิงลึกนั้นอาศัยอินพุตและเอาท์พุตเพื่อค้นหาความสัมพันธ์ระดับกลางที่สามารถขยายไปยังข้อมูลที่มองไม่เห็นใหม่ๆ ผ่านสิ่งที่เรียกว่า เครือข่ายประสาท.

โครงข่ายประสาทเทียมหรือเพอร์เซปตรอนหลายชั้น เลียนแบบวิธีที่สมองมนุษย์เรียนรู้ แต่ละโหนด ได้แก่ เซลล์ประสาท ภายในเครือข่ายเป็นเหมือนเซลล์ประสาททางชีววิทยาที่ได้รับข้อมูลเพื่อ "กระตุ้น" ชุดของเซลล์ประสาทก่อตัวเป็นชั้น และหลายชั้นซ้อนกันจนกลายเป็นเครือข่าย ซึ่งใช้ข้อมูลเพื่อสร้างการทำนาย การทำนายสามารถมีได้ในทุกรูปแบบ ตั้งแต่การทำนายคลาสสำหรับปัญหาการจำแนกไปจนถึงกรอบขอบเขตของรายการในงานการตรวจจับวัตถุ ซึ่งทั้งหมดนี้ประสบความสำเร็จอย่างล้ำสมัยเมื่อเทียบกับงานเขียนก่อนหน้า ในงานของ OCR นั้น เอาท์พุตสองประเภทพร้อมกับเครือข่ายสองประเภทจะถูกนำไปใช้อย่างมาก

Convolutional Neural Networks (ซีเอ็นเอ็น) – CNN เป็นหนึ่งในชุดเครือข่ายที่โดดเด่นที่สุดที่ใช้ในปัจจุบัน โดยเฉพาะอย่างยิ่งในขอบเขตของการมองเห็นคอมพิวเตอร์ ประกอบด้วยเคอร์เนลแบบบิดหลายอันที่เลื่อนผ่านรูปภาพเพื่อแยกคุณสมบัติต่างๆ เมื่อรวมกับเลเยอร์เครือข่ายแบบดั้งเดิมในตอนท้าย CNN ก็ประสบความสำเร็จอย่างมากในการดึงคุณสมบัติจากรูปภาพที่กำหนดเพื่อทำการคาดการณ์ กระบวนการนี้สามารถถ่ายโอนไปยังงานค้นหากรอบขอบเขตและการตรวจจับคุณลักษณะของอักขระเพิ่มเติมเพื่อจำแนกประเภทเพิ่มเติมในกระบวนการ OCR
ความทรงจำระยะสั้นระยะยาว (LSTM) – LSTM เป็นตระกูลเครือข่ายที่ใช้กับอินพุตลำดับเป็นหลัก สัญชาตญาณนั้นเรียบง่าย — สำหรับข้อมูลตามลำดับใดๆ (เช่น สภาพอากาศ หุ้น) ผลลัพธ์ใหม่อาจขึ้นอยู่กับผลลัพธ์ก่อนหน้าเป็นอย่างมาก และด้วยเหตุนี้ มันจะเป็นประโยชน์ในการป้อนผลลัพธ์ก่อนหน้าอย่างต่อเนื่องโดยเป็นส่วนหนึ่งของคุณสมบัติอินพุตในการดำเนินการคาดการณ์ใหม่ . ในกรณีของ OCR ตัวอักษรที่ตรวจพบก่อนหน้านี้อาจช่วยได้มากในการช่วยคาดเดาตัวอักษรถัดไป เนื่องจากชุดอักขระมักจะสมเหตุสมผลเมื่อนำมารวมกัน (เช่น ตัวอักษรภาษาอังกฤษ “g” มักจะอยู่หลัง “do” กว่าเลข “9” แม้ว่าจะมีคุณลักษณะคล้ายกันก็ตาม)

นอกจากงานหลักใน OCR ที่รวมเอาการเรียนรู้เชิงลึกแล้ว ขั้นตอนก่อนการประมวลผลจำนวนมากเพื่อกำจัดแนวทางที่อิงตามกฎยังได้รับผลประโยชน์จากเทคโนโลยีโครงข่ายประสาทเทียมที่เจริญรุ่งเรืองอีกด้วย:

ดีนอยส์ซิ่ง – เมื่อสแกนเอกสารอย่างไม่เหมาะสม วิธีการตามกฎเกณฑ์อาจล้มเหลวได้ง่าย แนวทางล่าสุดที่นำมาใช้โดยเทคโนโลยี OCR คือการใช้ Generative Adversarial Network (GAN) เพื่อ "ปฏิเสธ" อินพุต GAN ประกอบด้วยสองเครือข่าย เครื่องกำเนิดและเครื่องแยกแยะ ตัวสร้างจะสร้างอินพุตใหม่อย่างต่อเนื่องเพื่อให้ผู้แยกแยะแยกแยะระหว่างอินพุตจริงและอินพุตที่สร้างขึ้น ช่วยให้ตัวสร้างสามารถปรับปรุงการสร้างเนื้อหาในอุดมคติได้อย่างต่อเนื่อง ในกรณีนี้ GAN ได้รับการฝึกอบรมจากเอกสารที่มีการดีนอยซ์และมีสัญญาณรบกวนคู่หนึ่ง และเป้าหมายสำหรับเครื่องกำเนิดไฟฟ้าคือการสร้างเอกสารลดสัญญาณรบกวนให้ใกล้เคียงกับความจริงจากพื้นดินมากที่สุด ในระหว่างขั้นตอนการสมัคร GAN หากได้รับการฝึกอบรมมาเป็นอย่างดี ก็จะสามารถนำมาใช้กับทุกอินพุตเพื่อปรับแต่งเอกสารที่สแกนได้ไม่ดี
เอกสารประจำตัว – งาน OCR โดยเฉพาะงาน OCR บน PDF มักจะใช้เพื่อวัตถุประสงค์ในการดึงข้อมูลจากแบบฟอร์มและเอกสารอย่างเหมาะสม ดังนั้นการทราบประเภทของเอกสารที่เครื่อง OCR กำลังประมวลผลอยู่อาจเพิ่มความแม่นยำในการดึงข้อมูลได้อย่างมาก ศิลปะสมัยใหม่ได้รวมเครือข่ายสยามหรือเครือข่ายเปรียบเทียบเพื่อเปรียบเทียบเอกสารกับรูปแบบเอกสารที่มีอยู่เดิม ทำให้กลไก OCR ดำเนินการจำแนกเอกสารล่วงหน้าได้ ขั้นตอนพิเศษนี้แสดงให้เห็นอย่างชัดเจนเพื่อปรับปรุงความแม่นยำในการดึงข้อความ

โดยสรุป ความก้าวหน้าของ OCR ได้รับประโยชน์อย่างดีจากการเติบโตแบบทวีคูณของความสามารถของฮาร์ดแวร์และการเรียนรู้เชิงลึก ขณะนี้ PDF OCR ได้รับความแม่นยำตามมาตรฐานอันน่าทึ่งสำหรับการใช้งานจำนวนมาก

การประยุกต์ใช้ซอฟต์แวร์ PDF OCR

เป้าหมายหลักของ OCR คือการดึงข้อมูลจากรูปแบบที่ไม่มีโครงสร้าง ไม่ว่าจะเป็นตัวเลขหรือตัวเลขจริง หากการดึงข้อมูลสำเร็จและมีความแม่นยำสูง โปรแกรมสามารถใช้ OCR สำหรับงานด้านแรงงาน เช่น การจดจำและการตีความข้อความ โดยเฉพาะสำหรับการวิเคราะห์เชิงตัวเลขและบริบท

การวิเคราะห์ข้อมูลเชิงตัวเลข

เมื่อ PDF มีข้อมูลตัวเลข OCR จะช่วยแยกข้อมูลเหล่านั้นเพื่อทำการวิเคราะห์ทางสถิติ โดยเฉพาะอย่างยิ่ง OCR ด้วยความช่วยเหลือของการแยกตารางหรือคู่คีย์-ค่า (KVP) สามารถนำไปใช้เพื่อค้นหาตัวเลขที่มีความหมายจากภูมิภาคต่างๆ ของข้อความที่กำหนด จากนั้นเราสามารถนำวิธีการทางสถิติหรือแม้แต่การเรียนรู้ของเครื่อง (เช่น KNN, K-Means, การถดถอยเชิงเส้น/ลอจิสติก) มาใช้กับแบบจำลองของแอปพลิเคชันต่างๆ

การตีความข้อมูลข้อความ

ในทางกลับกัน การประมวลผลข้อมูลข้อความอาจต้องใช้ขั้นตอนการคำนวณมากขึ้น โดยมีเป้าหมายสูงสุดสำหรับโปรแกรมที่จะเข้าใจ "ความหมาย" ที่อยู่เบื้องหลังคำต่างๆ กระบวนการตีความข้อมูลข้อความเป็นความหมายเชิงความหมายเรียกว่าการประมวลผลภาษาธรรมชาติ (NLP)

ประโยชน์ของ PDF OCR

PDF OCR ตอบสนองวัตถุประสงค์มากมายในระดับแอปพลิเคชัน ส่วนต่อไปนี้จะอธิบายตัวอย่างการใช้งานตั้งแต่ขนาดเล็กจนถึงการใช้งานส่วนบุคคลไปจนถึงขนาดใหญ่ในองค์กร

กรณีการใช้งานส่วนบุคคล

PDF OCR มอบความสะดวกสบายอย่างมากเมื่อต้องรับมือกับงานที่น่ารำคาญ เช่น การสแกน ID และการเงินส่วนบุคคล

รหัสส่วนบุคคลมักจะต้องแปลงเป็นรูปแบบ PDF เพื่อส่งไปยังแอปพลิเคชันต่างๆ เอกสารระบุตัวตนเหล่านี้ประกอบด้วยข้อมูล เช่น วันเดือนปีเกิดและหมายเลขประจำตัว ซึ่งมักจะต้องพิมพ์ซ้ำๆ เพื่อวัตถุประสงค์ที่แตกต่างกัน ดังนั้น PDF OCR ที่มีความแม่นยำสูงซึ่งจะค้นหาฟิลด์ที่ตรงกันและค่าที่เกี่ยวข้องทั่วทั้ง ID จะมีประโยชน์มาก ช่วยในการปฏิบัติงานด้วยตนเองเล็กน้อย สิ่งเดียวที่ต้องใช้คือเพียงตรวจสอบซ้ำอีกครั้งว่ามีความไม่สอดคล้องกันหรือไม่

การจัดหาเงินทุนส่วนบุคคลเป็นอีกกระบวนการหนึ่งที่ต้องใช้แรงงานคนจำนวนมาก แม้ว่าการพัฒนาใน Excel และสเปรดชีตได้ช่วยบรรเทางานต่างๆ เช่น การจัดทำงบประมาณส่วนบุคคลแล้ว แต่ OCR และการดึงข้อมูลในใบแจ้งหนี้ PDF ก็สามารถเร่งกระบวนการให้เร็วขึ้นได้ ข้อมูลนี้สามารถใส่ลงในสเปรดชีตเพื่อการวิเคราะห์ได้โดยอัตโนมัติตามที่กล่าวไว้ในหัวข้อก่อนหน้าที่จะดำเนินการ เราสามารถใช้เวลาที่สำคัญในการคิดแผนทางการเงินที่ดีขึ้นได้อย่างง่ายดาย

กรณีการใช้งานทางธุรกิจ

ทั้งองค์กรขนาดใหญ่และองค์กรขนาดเล็กต้องจัดการกับเอกสารหลายพันฉบับตามรูปแบบที่คล้ายคลึงกัน ซึ่งใช้แรงงานเข้มข้นสูงและยังไม่เกิดประสิทธิผล (กล่าวคือ แรงงานทั้งหมดถูกใช้กับสิ่งที่ต้องใช้การระดมความคิดน้อยกว่า) การจำแนกประเภทเอกสารอัตโนมัติและการรวบรวม/การวิเคราะห์แบบสำรวจคือสิ่งที่ OCR มีประโยชน์

OCR ช่วยให้คอมพิวเตอร์แปลงข้อความที่สแกนเป็นข้อความที่เข้ารหัสด้วยเครื่อง เนื้อหาของข้อความที่แปลงแล้วสามารถนำมาใช้ในการจำแนกเอกสารได้ ไม่ว่าจะเป็นการสมัครสำหรับบทบาทที่แตกต่างกันหรือแบบฟอร์มที่รอการอนุมัติ หากได้รับการฝึกอบรมมาเป็นอย่างดี OCR จะทำให้เกิดข้อผิดพลาดน้อยที่สุดซึ่งอาจเกิดขึ้นบ่อยครั้งเนื่องจากความเหนื่อยล้าของมนุษย์อย่างหลีกเลี่ยงไม่ได้ จากมุมมองทางธุรกิจ ค่าใช้จ่ายด้านแรงงานอาจลดลงอย่างมากเช่นกัน

ในแง่ของแบบสำรวจหรือคำติชม ซึ่งมักกำหนดให้องค์กรต้องปรับปรุงผลิตภัณฑ์หรือแผนปัจจุบัน OCR ก็มีบทบาทสำคัญเช่นกัน สามารถดึงข้อมูลได้อย่างรวดเร็วและประเมินอย่างกว้างขวางเพื่อการวิเคราะห์ทางสถิติ หากออกแบบมาอย่างดี แม้แต่ข้อความที่เขียนด้วยลายมือก็อาจถูกแยกและวิเคราะห์โดยอัตโนมัติ

กวดวิชาง่ายๆ

PDF OCR สามารถตั้งโปรแกรมเองได้อย่างง่ายดาย ต่อไปนี้เป็นไปป์ไลน์ง่ายๆ สำหรับดำเนินการ OCR บน PDF

การแปลง PDF เป็นรูปภาพ

มีไลบรารีและ API จำนวนมากในหลายภาษาที่รองรับ OCR ที่ได้รับการฝึกล่วงหน้า อย่างไรก็ตาม ส่วนใหญ่จะดำเนินการด้วยรูปภาพ ไม่ใช่ PDF โดยตรง ดังนั้น เพื่อให้ขั้นตอนต่อไปนี้ง่ายขึ้น เราสามารถประมวลผล PDF ล่วงหน้าเป็นรูปแบบภาพก่อนที่จะดำเนินการจดจำอักขระ

หนึ่งในห้องสมุดที่ใช้บ่อยที่สุดในการทำเช่นนั้นคือ pdf2 ภาพ ไลบรารี่สำหรับ Python ซึ่งสามารถติดตั้งได้ง่ายๆ ผ่านคำสั่งต่อไปนี้:

pip install pdf2image

หลังจากนั้นเราสามารถนำเข้า libary และใช้โค้ดสองบรรทัดใดก็ได้เพื่อรับรูปภาพในรูปแบบ PIL ดังต่อไปนี้:

from pdf2image import convert_from_path, convert_from_bytes
from pdf2image.exceptions import ( PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
) images = convert_from_path('/home/belval/example.pdf')
images = convert_from_bytes(open('/home/belval/example.pdf','rb').read())

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับรหัส คุณสามารถดูเอกสารอย่างเป็นทางการใน https://pypi.org/project/pdf2image/

ภาพOCR

มี API มากมายจากบริษัทเทคโนโลยีขนาดใหญ่ที่มี OCR ที่มีความแม่นยำสูง เนื่องจากข้อสันนิษฐานว่า PDF มักจะเต็มไปด้วยข้อมูลข้อความหนาแน่น วิธีที่เหมาะสมที่สุดในการดำเนินการ OCR ดังกล่าวคือการใช้ Google Vision API โดยเฉพาะอย่างยิ่ง Document_Text_คำอธิบายประกอบ ทำงานตามที่ได้รับการออกแบบมาโดยเฉพาะเพื่อวัตถุประสงค์ดังกล่าว โดยเฉพาะ Document_Text_คำอธิบายประกอบ ส่งรหัสไปยังเครื่องมือ OCR ซึ่ง Google ออกแบบมาสำหรับข้อความหนาแน่นรวมถึงลายมือในภาษาต่างๆ

Google Vision API ทั้งหมดนั้นติดตั้งง่าย อาจมีการอ้างอิงถึงคำแนะนำอย่างเป็นทางการเกี่ยวกับ https://cloud.google.com/vision/docs/quickstart-client-libraries สำหรับขั้นตอนการตั้งค่าโดยละเอียด

หลังจากนั้นเราสามารถใช้รหัสต่อไปนี้เพื่อดึงข้อมูล OCR:

def detect_document(path): """Detects document features in an image.""" from google.cloud import vision import io client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.document_text_detection(image=image) for page in response.full_text_annotation.pages: for block in page.blocks: print('nBlock confidence: {}n'.format(block.confidence)) for paragraph in block.paragraphs: print('Paragraph confidence: {}'.format( paragraph.confidence)) for word in paragraph.words: word_text = ''.join([ symbol.text for symbol in word.symbols ]) print('Word text: {} (confidence: {})'.format( word_text, word.confidence)) for symbol in word.symbols: print('tSymbol: {} (confidence: {})'.format( symbol.text, symbol.confidence)) if response.error.message: raise Exception( '{}nFor more info on error messages, check: ' 'https://cloud.google.com/apis/design/errors'.format( response.error.message))

นอกจากนี้ Google Vision API ยังรองรับหลายภาษา เช่น Java และ Go สามารถดึงรหัสเพิ่มเติมเกี่ยวกับการใช้งาน Google API ได้ที่นี่: https://cloud.google.com/vision

นอกจากนี้ยังมีบริการ OCR/API อื่นๆ จาก Amazon และ Microsoft และคุณสามารถใช้ . ได้ตลอดเวลา ไพเทสเซอร์แรค ห้องสมุดเพื่อฝึกโมเดลของคุณเพื่อวัตถุประสงค์เฉพาะ

การเปรียบเทียบ

ปัจจุบันมี PDF OCR จำนวนมากในตลาด แม้ว่าบางรายการจะฟรี รวดเร็ว และใช้งานออนไลน์ได้ทันที แต่บางรายการก็มีผลิตภัณฑ์ที่แม่นยำและได้รับการออกแบบที่ดีกว่าสำหรับการใช้งานระดับมืออาชีพ ที่นี่เราจะอธิบายตัวเลือกบางประการ รวมถึงข้อดีและข้อเสีย

OCR PDF ออนไลน์

เมื่อใช้ PDF OCR เพื่อการใช้งานส่วนตัวในการแปลงอย่างรวดเร็ว แบบฟรีและรวดเร็วอาจเป็นที่ต้องการมากกว่าความแม่นยำ มีบริการ PDF OCR ออนไลน์มากมายที่ตอบสนองความต้องการเหล่านี้ คุณสามารถอัปโหลดเอกสาร PDF และแปลงเป็นข้อความได้อย่างรวดเร็วและสะดวกสบาย

อย่างไรก็ตาม ปัญหาหลักในเรื่องนี้ก็คือการควบคุมคุณภาพของ OCR ซอฟต์แวร์ OCR ออนไลน์ฟรีเหล่านี้ แม้ว่าจะทำงานได้ดีเกือบตลอดเวลา แต่ก็ไม่ได้ผูกมัดที่จะส่งมอบผลลัพธ์ที่มีคุณภาพดีที่สุดในแต่ละครั้ง เมื่อเทียบกับซอฟต์แวร์ออฟไลน์อื่นๆ ที่ต้องมีการบำรุงรักษาอย่างต่อเนื่อง

ซอฟต์แวร์ออฟไลน์

ปัจจุบันมีบริษัทหลายแห่งที่ให้บริการ PDF OCR ที่มีความแม่นยำสูง ต่อไปนี้เราจะดูตัวเลือกต่างๆ ของ PDF OCR ที่เชี่ยวชาญด้านต่างๆ รวมถึงต้นแบบการวิจัยล่าสุดบางส่วนที่ดูเหมือนจะให้ผลลัพธ์ที่น่าหวัง:

มีบริการ OCR หลายอย่างที่มุ่งเป้าไปที่งานต่างๆ เช่น รูปภาพในป่า เราข้ามบริการเหล่านั้นเนื่องจากขณะนี้เรากำลังมุ่งเน้นไปที่การอ่านเอกสาร PDF เท่านั้น

ABBYY – ABBYY FineReader PDF เป็น OCR ที่พัฒนาโดย ABBYY ซอฟต์แวร์นี้มี UI ที่เป็นมิตรซึ่งใช้สำหรับการอ่าน PDF และการแปลงข้อความ อย่างไรก็ตาม ด้วยลักษณะที่ไม่ใช่วิศวกรรม (ลูกค้าเป้าหมายคือผู้เชี่ยวชาญด้านเทคโนโลยีในสาขาอื่นๆ ที่ต้องการ PDF OCR) การรวมเข้ากับโปรแกรมอื่นเพื่อการประมวลผลต่อไปจึงเป็นเรื่องยากมากขึ้น
โคแฟกซ์ – เช่นเดียวกับ ABBYY Kofax เป็นโปรแกรมอ่าน PDF ที่เป็นมิตรที่ต้องซื้อ ราคาคงที่สำหรับการใช้งานส่วนบุคคลพร้อมส่วนลดสำหรับองค์กรขนาดใหญ่ นอกจากนี้ยังมีความช่วยเหลือตลอด 24 ชั่วโมงทุกวันในกรณีที่เกิดปัญหาทางเทคนิค
ผู้อ่านลึก – Deep Reader เป็นงานวิจัยที่ตีพิมพ์ในการประชุม ACCV Conference 2019 โดยได้รวมเอาสถาปัตยกรรมเครือข่ายที่ล้ำสมัยหลายตัวเพื่อดำเนินการต่างๆ เช่น การจับคู่เอกสาร การดึงข้อความ และการลดสัญญาณรบกวนของรูปภาพ มีคุณลักษณะเพิ่มเติม เช่น ตารางและการแยกคู่คีย์-ค่าที่ช่วยให้สามารถดึงข้อมูลและบันทึกข้อมูลในลักษณะที่มีการจัดระเบียบได้
นาโนเน็ต™ – Nanonets™ PDF OCR ใช้การเรียนรู้เชิงลึก ดังนั้นจึงเป็นเทมเพลตและกฎที่เป็นอิสระอย่างสมบูรณ์ Nanonets ไม่เพียงแต่สามารถทำงานกับ PDF บางประเภทเท่านั้น แต่ยังนำไปใช้กับเอกสารประเภทใดก็ได้สำหรับการดึงข้อความอีกด้วย

สรุป

โดยสรุป ในบทความนี้ เราได้อธิบายพื้นฐานของวิธีการทำงานของ OCR รวมถึงลำดับเวลาของการพัฒนา OCR ตามด้วยบทช่วยสอนง่ายๆ และกรณีการใช้งาน นอกจากนี้เรายังนำเสนอชุดตัวเลือกที่ใช้ได้สำหรับ PDF OCR รวมถึงข้อดีและข้อเสียสำหรับการใช้งานต่อไป

ที่มา: https://nanonets.com/blog/pdf-ocr/

ประทับเวลา: May 30, 2021