التعرف الضوئي على الحروف لملفات PDF

عقدة المصدر: 879686

المُقدّمة

منذ الاستخدام الواسع لأجهزة الكمبيوتر في سبعينيات القرن الماضي ثم اختراع ملفات PDF في عام 1970 ، سيطر تخزين الملفات النصية بتنسيقات رقمية تدريجياً ولكن بثبات على الأوراق التقليدية. تم إنشاء هذه الحافة التي لا تقبل المنافسة وتعزيزها بشكل أكبر من خلال التنقل السريع عبر الإنترنت الذي يسمح بإرسال الملفات النصية الرقمية بسهولة عبر العالم في غضون ثوانٍ. اليوم ، لا يتم حفظ النصوص المشفرة آليًا ومشاركتها عبر ملفات PDF فحسب ، بل يتم مسح المستندات المكتوبة بخط اليد ضوئيًا إلى مثل هذه التنسيقات لمزيد من المعالجة والتوزيع.

ومع ذلك ، فقد ألقى هذا الاتجاه الناشئ الضوء على مجال جديد ومستمر حاليًا من البحث - التعرف الضوئي على الأحرف بتنسيق PDF (OCR). OCR هي عملية تحويل النص الممسوح ضوئيًا أو المكتوب بخط اليد إلى نص مشفر آليًا ، بحيث يمكن استخدامه بشكل أكبر بواسطة البرامج لمزيد من المعالجة والتحليل. في حين أن تطبيق OCR واسع (من صور علامات الطريق إلى المستندات النصية الرسمية) ، فإن هذه المقالة تتعمق على وجه التحديد في مجال PDF OCR ، لا سيما ملفات PDF للورق الممسوح ضوئيًا والمكتوب بخط اليد ، وتناقش التكنولوجيا والبرامج بلغات مختلفة لأداء مهمة. يتم تقديم نظرة عامة مفصلة ومقارنة عبر العديد من البرامج الموجودة في السوق لـ PDF OCR للرجوع إليها.


هل تبحث عن حل OCR لاستخراج المعلومات من ملفات PDF؟ أعطِ Nanonetsتدور للحصول على دقة أعلى ومرونة أكبر ومعالجة لاحقة ومجموعة واسعة من عمليات الدمج!


التطورات في حلول التعرف الضوئي على الحروف

قبل مناقشة رموز وتفاصيل وفوائد OCRs ، نوضح أولاً مفهوم كيفية عمل OCR من خلال تقديم التطورات في التكنولوجيا المعنية.

التعرف الضوئي على الحروف التقليدية

عادةً ما يتم إجراء التحويل الإلكتروني للمستندات الممسوحة ضوئيًا لإجراء مزيد من العمليات الحسابية ، قبل أن يلبي التعلم العميق الدقة المطلوبة لمثل هذه المهام ، بأربع خطوات بسيطة:

  1. جمع قاعدة بيانات من الشخصيات المعروفة.
  2. استخدم أدوات الاستشعار لتجميع وفصل الرسائل الفردية عن المستندات الممسوحة ضوئيًا.
  3. قارن مجموعة السمات المسترجعة من أجهزة الاستشعار بالسمات المادية من قاعدة البيانات.
  4. قم بتحويل كل مجموعة من السمات وفقًا لذلك إلى الحرف المعروف بأعلى قدر من التشابه.

بينما يبدو أن النهج التقليدي فعال في معظم الأوقات ، إلا أنه عرضة للقيود المتأصلة المستندة إلى القواعد. تتمثل إحدى الخطوات الوسيطة الحاسمة في التعرف الضوئي على الحروف في استخراج الأحرف المفردة أو العلامات بنجاح من مجموعة / مجموعة من النصوص. يتطلب هذا الاستخراج قوالب أو قواعد معينة (مثل أحجام / أنماط الخطوط المحددة مسبقًا) لكي تكون دقيقة للغاية. سيؤدي فرض المزيد والمزيد من القواعد لزيادة الدقة إلى خلق معضلة تتعلق بالتعديل الزائد عن طريق التعرف الضوئي على الحروف أو تصحيح أنماط معينة من الكتابات فقط. قد يؤدي أي تناقض في الإضاءة أثناء عملية المسح أيضًا إلى حدوث أخطاء عندما يعتمد التعرف الضوئي على الحروف بشكل كامل على القواعد.

بالإضافة إلى ذلك ، فإن مقارنات السمات المستندة إلى القواعد تقصر أيضًا عند التعامل مع خط اليد. غالبًا ما يتم إصلاح الخطوط التي يتم إنشاؤها بواسطة الكمبيوتر بسمات غالبًا ما تكون واضحة وسهلة المقارنة - الخطوط المكتوبة بخط اليد هي عكس ذلك تمامًا ، مع وجود اختلافات غير محدودة وبالتالي يصعب تصنيفها. نظرًا لأنه في كل مرة يكون فيها الحرف اليدوي مختلفًا قليلاً ، لا يمكن تضمينها جميعًا كجزء من قاعدة البيانات أيضًا. يتطلب هذا غالبًا إجراء OCRs لتنفيذ خوارزميات أكثر تعقيدًا إلى جانب مطابقة السمات الساذجة

أخيرًا ، يوجد حاجز اللغات المتعددة أيضًا في النهج التقليدي. تتبنى العديد من اللغات رموزًا متشابهة أو حتى متطابقة ؛ إذا قمنا بتخزين جميع الرموز في قاعدة البيانات ، فلن نتمكن من معرفة الفرق بين رمزين من خلال إجراء مطابقة السمات فقط ، مما يجعل النهج التقليدي في النهاية يقتصر غالبًا على لغة واحدة فقط لكل نموذج.

في ضوء حقبة التعلم العميق الأخيرة ، التي نشأت بفضل قدرات حساب الأجهزة المتزايدة بسرعة ، أدرجت OCRs الأحدث نماذج التعلم أثناء عملية استخراج النص وفي مرحلة تفسيرها.

محركات التعرف الضوئي على الحروف القائمة على التعلم العميق

اكتسب التعلم العميق ، وهو فرع رئيسي من مجال التعلم الآلي ، شعبية كبيرة بمساعدة العديد من العلماء المشهورين الذين دفعوه إلى الصدارة. في الهندسة التقليدية ، هدفنا هو تصميم نظام / وظيفة تولد مخرجات من مدخلات معينة ؛ من ناحية أخرى ، يعتمد التعلم العميق على المدخلات والمخرجات للعثور على العلاقة الوسيطة التي يمكن تمديدها إلى البيانات الجديدة غير المرئية من خلال ما يسمى الشبكة العصبية.

هندسة الشبكة العصبية

تحاكي الشبكة العصبية ، أو الإدراك الحسي متعدد الطبقات ، الطريقة التي يتعلم بها العقل البشري. كل عقدة ، أي الخلايا العصبية ، داخل الشبكة تشبه الخلايا العصبية البيولوجية بحيث تتلقى معلومات "لتنشيطها". تشكل مجموعات من الخلايا العصبية طبقات ، وتتراكم الطبقات المتعددة لتصبح شبكة ، تستخدم المعلومات لإنشاء تنبؤ. يمكن أن يكون التنبؤ بجميع الأشكال ، بدءًا من التنبؤ بالفئة لمشكلات التصنيف إلى المربعات المحيطة بالعناصر في مهام اكتشاف الكائنات - والتي حققت جميعها أحدث ما توصلت إليه التكنولوجيا مقارنة بالأدبيات السابقة. في مهمة OCR ، يتم تطبيق نوعين من المخرجات ، إلى جانب نوعين من الشبكات ، بشكل كبير.

  • الشبكات العصبية التلافيفية (CNNs) - تعد شبكات CNN واحدة من أكثر مجموعات الشبكات المهيمنة المستخدمة اليوم وخاصة في مجال رؤية الكمبيوتر. وهي تتألف من نوى تلافيفية متعددة تنزلق عبر الصورة لاستخراج الميزات. مصحوبة بطبقات الشبكة التقليدية في النهاية ، تكون شبكات CNN ناجحة جدًا في استرداد الميزات من صورة معينة لإجراء التنبؤات. يمكن نقل هذه العملية أيضًا إلى مهمة إيجاد المربعات المحيطة واكتشاف سمات الأحرف لمزيد من التصنيف في عملية التعرف الضوئي على الحروف.
  • الذكريات طويلة المدى (LSTMs) - LSTMs هي عائلة من الشبكات المطبقة بشكل رئيسي على مدخلات التسلسل. الحدس بسيط - بالنسبة لأي بيانات متسلسلة (مثل الطقس والمخزونات) ، قد تعتمد النتائج الجديدة بشكل كبير على النتائج السابقة ، وبالتالي سيكون من المفيد تغذية النتائج السابقة باستمرار كجزء من ميزات الإدخال في إجراء تنبؤات جديدة . في حالة التعرف الضوئي على الحروف ، يمكن أن تكون الأحرف المكتشفة مسبقًا مفيدة جدًا للمساعدة في التنبؤ بالحروف التالية ، حيث يجب أن تكون مجموعة الأحرف منطقية عند تجميعها (على سبيل المثال ، من المرجح أن يأتي الحرف الإنجليزي "g" بعد "do" من رقم "9" ، على الرغم من سماتها المتشابهة).

إلى جانب المهام الرئيسية في OCR التي تتضمن التعلم العميق ، فإن العديد من مراحل المعالجة المسبقة للتخلص من الأساليب القائمة على القواعد كانت أيضًا من المستفيدين من تقنيات الشبكة العصبية المزدهرة:

  • تقليل الضوضاء - عندما يتم مسح مستند ضوئيًا بشكل غير صحيح ، فقد تقصر الطرق المستندة إلى القواعد بسهولة. من الأساليب الحديثة التي اعتمدتها تقنيات التعرف الضوئي على الحروف تطبيق شبكة الخصومة التوليدية (GAN) "لإزالة الضوضاء" من المدخلات. تتألف GAN من شبكتين ، مولد ومميز. يولد المولد باستمرار مدخلات جديدة للمميز للتمييز بين المدخلات الفعلية والمولدة ، مما يسمح للمولد بالتحسين المستمر في إنشاء محتويات مثالية. في هذه الحالة ، يتم تدريب GAN من زوج من المستندات المزوَّدة بالضوضاء والضوضاء ، والهدف من المولد هو إنشاء مستند منزوع الضوضاء أقرب ما يكون إلى الحقيقة الأساسية. أثناء مرحلة التطبيق ، يمكن استخدام GAN ، إذا تم تدريبها جيدًا ، على كل إدخال لضبط أي مستندات تم مسحها ضوئيًا بشكل سيئ.
  • تحديد الوثيقة - غالبًا ما تُستخدم مهام التعرف الضوئي على الحروف ، وخاصة مهام التعرف الضوئي على الحروف على ملفات PDF ، لغرض استخراج البيانات بشكل صحيح من النماذج والمستندات. لذلك ، فإن معرفة نوع المستند الذي تعالجه آلة التعرف الضوئي على الحروف حاليًا قد يزيد بشكل كبير من دقة استخراج البيانات. أدرجت الفنون الحديثة شبكة سيامية ، أو شبكة مقارنة ، لمقارنة المستندات بتنسيقات المستندات الموجودة مسبقًا ، مما يسمح لمحرك التعرف الضوئي على الحروف بإجراء تصنيف للمستندات مسبقًا. تم إثبات هذه الخطوة الإضافية بشكل تجريبي لتحسين الدقة في عمليات استرجاع النص.

باختصار ، استفاد تقدم OCR جيدًا من النمو الهائل لقدرات الأجهزة والتعلم العميق. لقد حققت الآن برامج التعرف الضوئي على الحروف لملفات PDF الدقة إلى مستوى مذهل للعديد من التطبيقات.


هل تبحث عن حل OCR لاستخراج المعلومات من ملفات PDF؟ أعطِ Nanonetsتدور للحصول على دقة أعلى ومرونة أكبر ومعالجة لاحقة ومجموعة واسعة من عمليات الدمج!


تطبيقات برنامج PDF OCR

الهدف الرئيسي من OCR هو استرداد البيانات من التنسيقات غير المهيكلة ، سواء كانت أرقامًا رقمية أو أرقامًا فعلية. إذا كان الاسترجاع ناجحًا ودقيقًا للغاية ، فيمكن للبرامج استخدام التعرف الضوئي على الحروف في مهام العمل مثل التعرف على النص وتفسيره ، خاصةً للتحليل العددي والسياقي.

تحليل البيانات العددية

عندما تحتوي ملفات PDF على بيانات رقمية ، فإن التعرف الضوئي على الحروف يساعد في استخراجها لإجراء تحليل إحصائي. على وجه التحديد ، يمكن تطبيق OCR بمساعدة استخلاصات الجدول أو أزواج القيمة الرئيسية (KVPs) للعثور على أرقام ذات معنى من مناطق مختلفة من نص معين. يمكننا بعد ذلك اعتماد أساليب التعلم الإحصائي أو حتى الآلي (مثل KNN ، K-Means ، الانحدار الخطي / اللوجيستي) لنماذج التطبيقات المختلفة

تفسير البيانات النصية

من ناحية أخرى ، قد تتطلب معالجة البيانات النصية المزيد من مراحل الحساب ، مع الهدف النهائي للبرامج لفهم "المعاني" الكامنة وراء الكلمات. يشار إلى عملية تفسير البيانات النصية إلى معانيها الدلالية باسم معالجة اللغة الطبيعية (NLP).

فوائد التعرف الضوئي على الحروف بتنسيق PDF

يخدم PDF OCR العديد من الأغراض على مستوى التطبيق. تصف الأقسام التالية بعض الأمثلة لحالات الاستخدام من صغيرة مثل الاستخدام الشخصي إلى كبيرة مثل تلك الخاصة بالشركة.

حالات الاستخدام الشخصي

توفر ملفات PDF OCR راحة كبيرة عند التعامل مع المهام المزعجة مثل مسح المعرفات والتمويل الشخصي.

غالبًا ما يُطلب تحويل المعرفات الشخصية إلى تنسيقات PDF لإرسالها إلى تطبيقات مختلفة. تحتوي مستندات التعريف هذه على معلومات مثل تاريخ الميلاد وأرقام الهوية التي غالبًا ما يُطلب كتابتها بشكل متكرر لأغراض مختلفة ، وبالتالي فإن التعرف الضوئي على الحروف بتنسيق PDF عالي الدقة الذي يجد الحقول المطابقة والقيم المقابلة عبر المعرف سيكون مفيدًا تساعد في أداء المهام اليدوية التافهة. سيكون العمل الوحيد المطلوب هو مجرد التحقق مرة أخرى من أي تضارب.

التمويل الشخصي هو عملية أخرى تتطلب الكثير من العمل اليدوي. على الرغم من أن التطورات في برنامج Excel وجداول البيانات قد سهلت بالفعل المهام مثل إعداد الميزانية الشخصية ، إلا أن التعرف الضوئي على الحروف واستخراج البيانات من فواتير PDF يمكن أن يزيد من تسريع العملية. يمكن وضع هذه البيانات تلقائيًا في جداول البيانات لتحليلها كما هو مذكور في الأقسام السابقة ليتم تنفيذها. يمكن للمرء بسهولة الاستفادة من وقت المفتاح الأصلي في التفكير في خطط مالية أفضل.

حالات استخدام الأعمال

يتعين على كل من الشركات الكبيرة والمنظمات الصغيرة التعامل مع آلاف الأعمال الورقية باتباع تنسيقات مماثلة ، والتي تتطلب عمالة كثيفة وغير منتجة (أي ، يتم استخدام جميع العمالة في شيء يتطلب قدرًا أقل من العصف الذهني). تصنيفات المستندات الآلية ومجموعات المسح / التحليلات هي المكان الذي يكون فيه التعرف الضوئي على الحروف مفيدًا.

تمكّن OCR أجهزة الكمبيوتر من تحويل النصوص الممسوحة ضوئيًا إلى نصوص مشفرة آليًا. يمكن بعد ذلك استخدام محتويات النصوص المحولة لتصنيف المستندات ، سواء كانت تطبيقات لأدوار مختلفة أو نماذج تنتظر الموافقة عليها. إذا تم تدريبه جيدًا ، يمكن أن يؤدي التعرف الضوئي على الحروف إلى الحد الأدنى من الأخطاء التي يمكن أن تكون متكررة بسبب التعب البشري الذي لا مفر منه. من منظور الأعمال التجارية ، قد يتم أيضًا تقليل نفقات العمالة بشكل كبير.

من حيث الاستطلاعات أو التعليقات ، والتي غالبًا ما تطلبها المنظمات لتحسين منتجاتها أو خططها الحالية ، يلعب OCR أيضًا دورًا حيويًا. يمكن استخراج البيانات بسرعة وتقييمها على نطاق واسع للتحليل الإحصائي. إذا تم تصميمه جيدًا ، فقد يتم استخراج النصوص المكتوبة بخط اليد وتحليلها تلقائيًا.


هل تبحث عن حل OCR لاستخراج المعلومات من ملفات PDF؟ أعطِ Nanonetsتدور للحصول على دقة أعلى ومرونة أكبر ومعالجة لاحقة ومجموعة واسعة من عمليات الدمج!


برنامج تعليمي بسيط

يمكن بالفعل برمجة ملفات PDF OCR بشكل شخصي بسهولة. فيما يلي مسار بسيط لأداء OCR على ملفات PDF.

تحويل ملفات PDF إلى صور

هناك العديد من المكتبات وواجهات برمجة التطبيقات بلغات متعددة تدعم OCRs سابقة التدريب. ومع ذلك ، فإن معظمهم يعالج بالصور وليس ملفات PDF مباشرة. ومن ثم ، لتبسيط الخطوات التالية ، يمكننا معالجة ملفات PDF مسبقًا إلى تنسيقات صور قبل إجراء التعرف على الأحرف.

واحدة من أكثر المكتبات استخدامًا للقيام بذلك هي pdf2 صورة Library لـ Python ، والتي يمكن تثبيتها ببساطة عن طريق الأمر التالي:

pip install pdf2image

بعد ذلك ، يمكن للفرد استيراد المكتبة واستخدام أي من سطري الكود للحصول على صورة بتنسيق PIL على النحو التالي:

from pdf2image import convert_from_path, convert_from_bytes
from pdf2image.exceptions import ( PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
) images = convert_from_path('/home/belval/example.pdf')
images = convert_from_bytes(open('/home/belval/example.pdf','rb').read())

لمزيد من المعلومات حول الكود ، يمكنك الرجوع إلى الوثائق الرسمية في https://pypi.org/project/pdf2image/

التعرف الضوئي على الحروف على الصورة

هناك العديد من واجهات برمجة التطبيقات من شركات التكنولوجيا الكبيرة مع OCRs عالية الدقة. نظرًا لافتراض أن ملفات PDF غالبًا ما تكون معبأة بشكل كبير ببيانات نصية كثيفة ، فإن الطريقة الأنسب لأداء مثل هذا التعرف الضوئي على الحروف هي استخدام Google Vision API ، ولا سيما Document_Text_Annotation. تعليق تعمل لأنها مصممة خصيصًا لمثل هذه الأغراض. على وجه التحديد، Document_Text_Annotation. تعليق يرسل الرمز إلى محرك OCR الذي صممه Google للنصوص الكثيفة ، بما في ذلك الكتابة اليدوية بلغات مختلفة.

واجهة برمجة تطبيقات Google Vision API بأكملها سهلة الإعداد ، ويمكن للمرء الرجوع إلى إرشاداته الرسمية بشأنه https://cloud.google.com/vision/docs/quickstart-client-libraries لإجراء الإعداد التفصيلي.

بعد ذلك يمكننا استخدام الرموز التالية لاسترجاع OCR:

def detect_document(path): """Detects document features in an image.""" from google.cloud import vision import io client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.document_text_detection(image=image) for page in response.full_text_annotation.pages: for block in page.blocks: print('nBlock confidence: {}n'.format(block.confidence)) for paragraph in block.paragraphs: print('Paragraph confidence: {}'.format( paragraph.confidence)) for word in paragraph.words: word_text = ''.join([ symbol.text for symbol in word.symbols ]) print('Word text: {} (confidence: {})'.format( word_text, word.confidence)) for symbol in word.symbols: print('tSymbol: {} (confidence: {})'.format( symbol.text, symbol.confidence)) if response.error.message: raise Exception( '{}nFor more info on error messages, check: ' 'https://cloud.google.com/apis/design/errors'.format( response.error.message))

بدلاً من ذلك ، تدعم Google Vision API أيضًا لغات متعددة ، مثل Java و Go. يمكن استرداد المزيد من الرموز المتعلقة باستخدام Google API هنا: https://cloud.google.com/vision  

هناك أيضًا خدمات / واجهات برمجة تطبيقات OCR أخرى من Amazon و Microsoft ، ويمكنك دائمًا استخدام بيتسيراكت مكتبة للتدريب على النموذج الخاص بك لأغراض محددة.


هل تبحث عن حل OCR لاستخراج المعلومات من ملفات PDF؟ أعطِ Nanonetsتدور للحصول على دقة أعلى ومرونة أكبر ومعالجة لاحقة ومجموعة واسعة من عمليات الدمج!


مقارنة

هناك العديد من ملفات PDF OCRs المتوفرة حاليًا في السوق. في حين أن بعضها مجاني وسريع ويمكن استخدامه على الفور عبر الإنترنت ، يوفر البعض الآخر منتجات أكثر دقة وأفضل تصميمًا للاستخدام الاحترافي. هنا نصف بعض الخيارات ، بالإضافة إلى مزاياها وعيوبها.

OCRs عبر الإنترنت بتنسيق PDF

عند استخدام ملفات PDF OCR للاستخدام الشخصي في التحويلات السريعة ، قد يكون الأمر المجاني والسريع مرغوبًا فيه أكثر من الدقة. هناك العديد من خدمات التعرف الضوئي على الحروف لملفات PDF عبر الإنترنت والتي تخدم هذه الاحتياجات. يمكن للمرء ببساطة تحميل مستندات PDF وتحويلها إلى نص مكتوب بطريقة سريعة ومريحة.

المشكلة الرئيسية في هذا ، ومع ذلك ، هي مراقبة جودة التعرف الضوئي على الحروف. على الرغم من أن برامج OCR المجانية عبر الإنترنت تعمل بشكل جيد في معظم الأوقات ، إلا أنها غير ملزمة بتقديم أفضل جودة في كل مرة مقارنة بالبرامج الأخرى غير المتصلة بالإنترنت والتي تتطلب صيانة مستمرة

برامج غير متصلة بالإنترنت

حاليًا ، هناك العديد من الشركات التي تقدم خدمات التعرف الضوئي على الحروف بتنسيق PDF بدقة عالية. هنا نلقي نظرة على العديد من خيارات التعرف الضوئي على الحروف لملفات PDF والتي تتخصص في جوانب مختلفة ، بالإضافة إلى بعض نماذج الأبحاث الحديثة التي يبدو أنها تقدم نتائج واعدة:

هناك العديد من خدمات التعرف الضوئي على الحروف التي تستهدف مهام مثل الصور في البرية. لقد تخطينا هذه الخدمات لأننا نركز حاليًا على قراءة مستندات PDF فقط.

  • ABBYY - ABBYY FineReader PDF هو نظام التعرف الضوئي على الحروف تم تطويره بواسطة ABBYY. يحتوي البرنامج على واجهة مستخدم سهلة الاستخدام لقراءة PDF وتحويل النص. ومع ذلك ، مع طبيعتها غير الهندسية (العملاء المستهدفون هم متخصصون غير تقنيين في مجالات أخرى بحاجة إلى PDF OCR) ، سيكون من الصعب دمجها في برامج أخرى لمزيد من المعالجة.
  • كوفاكس - على غرار ABBYY ، يعد Kofax قارئ PDF سهل الاستخدام يتطلب الشراء. السعر ثابت للاستخدام الفردي ، مع خصومات للشركات الكبيرة. تتوفر المساعدة على مدار الساعة طوال أيام الأسبوع أيضًا في حالة وجود أي صعوبات فنية.
  • قارئ عميق - Deep Reader هو عمل بحثي نُشر في ACCV Conference 2019. وهو يشتمل على العديد من هياكل الشبكات الحديثة لأداء مهام مثل مطابقة المستندات واسترجاع النص وتقليل الضوضاء من الصور. هناك ميزات إضافية مثل الجداول واستخراج أزواج القيم والمفاتيح التي تسمح باسترداد البيانات وحفظها بطريقة منظمة.
  • Nanonets ™ - يستخدم Nanonets ™ PDF OCR التعلم العميق وبالتالي فهو مستقل تمامًا عن القوالب والقواعد. لا يمكن لشبكات Nanonets العمل على أنواع معينة من ملفات PDF فحسب ، بل يمكن أيضًا تطبيقها على أي نوع مستند لاسترداد النص.

وفي الختام

في الختام ، استعرضنا في هذه المقالة أساسيات كيفية عمل OCR ، بالإضافة إلى الجدول الزمني لتطوير OCR متبوعًا بدروس بسيطة وحالات استخدام. قدمنا ​​أيضًا مجموعة من الخيارات القابلة للتطبيق لـ PDF OCR بالإضافة إلى مزاياها وعيوبها للاستخدام الإضافي.

المصدر: https://nanonets.com/blog/pdf-ocr/

الطابع الزمني:

اكثر من الذكاء الاصطناعي والتعلم الآلي