OCR For PDFs - Plato AiStream V2.1

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Εισαγωγή

Από την ευρεία χρήση των υπολογιστών στη δεκαετία του 1970 που ακολούθησε η εφεύρεση PDF το 1993, η αποθήκευση αρχείων κειμένου σε ψηφιακές μορφές κυριαρχούσε σταδιακά αλλά σταθερά στα παραδοσιακά χαρτιά. Αυτό το ασυναγώνιστο πλεονέκτημα δημιουργήθηκε και ενισχύθηκε περαιτέρω με την αναβάθμιση της ευκολίας του Διαδικτύου που επιτρέπει την εύκολη αποστολή ψηφιακών αρχείων κειμένου σε όλο τον κόσμο μέσα σε λίγα δευτερόλεπτα. Σήμερα, όχι μόνο αποθηκεύονται και κοινοποιούνται κείμενα με κωδικοποίηση μηχανής μέσω PDF, αλλά και έγγραφα χειρόγραφων εγγράφων σαρώνονται σε τέτοιες μορφές για περαιτέρω επεξεργασία και διανομή.

Αυτή η αναδυόμενη τάση, ωστόσο, ρίχνει φως σε έναν νέο και τρέχοντα τομέα έρευνας - PDF Optical Character Recognition (OCR). Το OCR είναι η διαδικασία μετατροπής σαρωμένου ή χειρόγραφου κειμένου σε μηχανογραφημένο κείμενο, έτσι ώστε να μπορεί να χρησιμοποιηθεί περαιτέρω από προγράμματα για περαιτέρω επεξεργασία και ανάλυση. Ενώ η εφαρμογή του OCR είναι ευρεία (από εικόνες οδικών πινακίδων έως επίσημα έγγραφα κειμένου), αυτό το άρθρο μπαίνει ειδικά στον τομέα του PDF OCR, ιδιαίτερα PDF σαρωμένου και χειρόγραφου χαρτιού και συζητά την τεχνολογία και τα προγράμματα σε διάφορες γλώσσες για την εκτέλεση του έργο. Μια λεπτομερής επισκόπηση και σύγκριση σε διάφορα λογισμικά εντός της αγοράς για PDF OCR παρουσιάζεται περαιτέρω για αναφορά.

Ψάχνετε για μια λύση OCR για εξαγωγή πληροφοριών από PDF; Δώστε Nanonets™ μια περιστροφή για μεγαλύτερη ακρίβεια, μεγαλύτερη ευελιξία, μετά την επεξεργασία και ένα ευρύ φάσμα ενσωματώσεων!

Προόδους στις Λύσεις OCR

Πριν συζητήσουμε τους κωδικούς, τις λεπτομέρειες και τα οφέλη των OCR, εξηγούμε πρώτα την έννοια του τρόπου λειτουργίας του OCR εισάγοντας τις εξελίξεις στην εμπλεκόμενη τεχνολογία.

Παραδοσιακό OCR

Η ηλεκτρονική μετατροπή σαρωμένων εγγράφων για περαιτέρω υπολογισμό, πριν από τη βαθιά μάθηση που πληροί την απαιτούμενη ακρίβεια για τέτοιες εργασίες, εκτελείται συνήθως με τέσσερα απλά βήματα:

Συλλέξτε μια βάση δεδομένων γνωστών χαρακτήρων.
Χρησιμοποιήστε φωτοαισθητήρες για να συλλέξετε και να διαχωρίσετε μεμονωμένα γράμματα από σαρωμένα έγγραφα.
Συγκρίνετε το σύνολο χαρακτηριστικών που ανακτήθηκαν από τον φωτοαισθητήρα με φυσικά χαρακτηριστικά από τη βάση δεδομένων.
Μετατρέψτε ανάλογα κάθε σύνολο χαρακτηριστικών σε γνωστό χαρακτήρα με την υψηλότερη ομοιότητα.

Ενώ η παραδοσιακή προσέγγιση φαίνεται να είναι αποτελεσματική την πλειοψηφία του χρόνου, είναι ευάλωτη στους εγγενείς περιορισμούς που βασίζονται σε κανόνες. Ένα κρίσιμο ενδιάμεσο βήμα του OCR είναι η επιτυχής εξαγωγή μεμονωμένων γραμμάτων ή σημείων από ένα σύνολο / ομάδα κειμένων. Αυτή η εξαγωγή απαιτεί συγκεκριμένα πρότυπα ή κανόνες (δηλαδή, προκαθορισμένα μεγέθη / στυλ γραμματοσειράς) για να είναι εξαιρετικά ακριβής. Η επιβολή ολοένα και περισσότερων κανόνων για την αύξηση της ακρίβειας θα δημιουργήσει ένα δίλημμα του OCR overfitting ή θα διορθωθεί μόνο σε συγκεκριμένα στυλ γραφών. Τυχόν ασυνέπειες του φωτισμού κατά τη διάρκεια της διαδικασίας σάρωσης θα οδηγούσαν επίσης σε σφάλματα όταν το OCR βασίζεται πλήρως σε κανόνες.

Επιπλέον, οι συγκρίσεις χαρακτηριστικών βάσει κανόνα υπολείπονται επίσης όταν ασχολούνται με χειρόγραφα. Οι γραμματοσειρές που δημιουργούνται από υπολογιστή είναι συνήθως σταθερές με χαρακτηριστικά συχνά εμφανή και εύκολο στη σύγκριση - οι χειρόγραφες γραμματοσειρές είναι ακριβώς το αντίθετο, με απεριόριστες παραλλαγές και επομένως είναι πολύ πιο δύσκολο να ταξινομηθούν. Δεδομένου ότι κάθε φορά που ένας χειροποίητος χαρακτήρας είναι ελαφρώς διαφορετικός, δεν είναι δυνατόν να συμπεριληφθούν όλα αυτά ως μέρος της βάσης δεδομένων. Αυτό συχνά απαιτεί τα OCR να εκτελούν πιο εξελιγμένους αλγόριθμους εκτός από την αφελής αντιστοίχιση χαρακτηριστικών.

Τέλος, το εμπόδιο πολλαπλών γλωσσών υπάρχει επίσης στην παραδοσιακή προσέγγιση. Πολλές γλώσσες υιοθετούν παρόμοια ή και πανομοιότυπα σύμβολα. Εάν αποθηκεύσουμε όλα τα σύμβολα στη βάση δεδομένων, δεν θα είμαστε σε θέση να πούμε τη διαφορά μεταξύ δύο συμβόλων απλώς εκτελώντας αντιστοίχιση χαρακτηριστικών, πράγμα που καθιστά την παραδοσιακή προσέγγιση συχνά περιορίζεται σε μία μόνο γλώσσα ανά μοντέλο.

Υπό το πρίσμα της πρόσφατης εποχής βαθιάς μάθησης, ευτυχώς που αναπτύχθηκε από τις ταχέως αναπτυσσόμενες δυνατότητες υπολογισμού υλικού, τα νεότερα OCR έχουν ενσωματώσει μοντέλα μάθησης τόσο κατά τη διαδικασία εξαγωγής κειμένου όσο και στη φάση ερμηνείας τους.

Κινητήρες OCR με βάση τη μάθηση

Η βαθιά μάθηση, ένας σημαντικός κλάδος του τομέα της μηχανικής μάθησης, έχει αποκτήσει μεγάλη δημοτικότητα με τη βοήθεια πολλών γνωστών επιστημόνων που την προωθούν στο προσκήνιο. Στην παραδοσιακή μηχανική, στόχος μας είναι να σχεδιάσουμε ένα σύστημα / λειτουργία που παράγει έξοδο από μια δεδομένη είσοδο. Η βαθιά μάθηση, από την άλλη πλευρά, βασίζεται στις εισόδους και τις εξόδους για να βρει την ενδιάμεση σχέση που μπορεί να επεκταθεί σε νέα αόρατα δεδομένα μέσω των λεγόμενων νευρικό σύστημα.

Ένα νευρωνικό δίκτυο, ή ένα πολυεπίπεδο perceptron, μιμείται τον τρόπο που οι ανθρώπινοι εγκέφαλοι μαθαίνουν. Κάθε κόμβος, δηλαδή νευρώνες, μέσα στο δίκτυο είναι σαν βιολογικοί νευρώνες έτσι ώστε να λαμβάνουν πληροφορίες για «ενεργοποίηση». Σετ νευρώνων σχηματίζουν στρώματα και πολλαπλά στρώματα στοιβάζονται για να γίνουν ένα δίκτυο, το οποίο χρησιμοποιεί τις πληροφορίες για να δημιουργήσει μια πρόβλεψη. Η πρόβλεψη μπορεί να είναι σε όλες τις μορφές, από μια πρόβλεψη τάξης για προβλήματα ταξινόμησης έως τα πλαίσια οριοθέτησης αντικειμένων σε εργασίες ανίχνευσης αντικειμένων - τα οποία έχουν επιτύχει την τελευταία λέξη της τεχνολογίας σε σύγκριση με την προηγούμενη βιβλιογραφία. Στην εργασία του OCR, δύο τύποι εξόδου, μαζί με δύο είδη δικτύων, εφαρμόζονται σε μεγάλο βαθμό.

Συγκροτήματα Νευρωνικά Δίκτυα (CNN) - Τα CNN είναι ένα από τα πιο κυρίαρχα σύνολα δικτύων που χρησιμοποιούνται σήμερα, ιδίως στον τομέα της όρασης του υπολογιστή. Περιλαμβάνει πολλούς συνελικτικούς πυρήνες που περνούν μέσα από την εικόνα για εξαγωγή χαρακτηριστικών. Συνοδευόμενα με παραδοσιακά επίπεδα δικτύου στο τέλος, τα CNNs είναι πολύ επιτυχημένα στην ανάκτηση λειτουργιών από μια δεδομένη εικόνα για την εκτέλεση προβλέψεων. Αυτή η διαδικασία μπορεί περαιτέρω να μεταφερθεί στο καθήκον εύρεσης κουτιών οριοθέτησης και ανίχνευσης χαρακτηριστικών χαρακτήρων για περαιτέρω ταξινόμηση στη διαδικασία OCR.
Μακροπρόθεσμες μνήμες (LSTM) - Τα LSTM είναι μια οικογένεια δικτύων που εφαρμόζονται κυρίως σε εισόδους ακολουθίας. Η διαίσθηση είναι απλή - για τυχόν διαδοχικά δεδομένα (δηλαδή, καιρός, αποθέματα), τα νέα αποτελέσματα μπορεί να εξαρτώνται σε μεγάλο βαθμό από τα προηγούμενα αποτελέσματα, και επομένως θα ήταν επωφελές να τροφοδοτείτε συνεχώς τα προηγούμενα αποτελέσματα ως μέρος των δυνατοτήτων εισαγωγής στην εκτέλεση νέων προβλέψεων . Στην περίπτωση του OCR, τα γράμματα που εντοπίστηκαν στο παρελθόν θα μπορούσαν να βοηθήσουν στην πρόβλεψη του επόμενου, καθώς ένα σύνολο χαρακτήρων θα πρέπει συνήθως να έχει νόημα όταν συνδυάζονται (π.χ., ένα αγγλικό γράμμα "g" είναι πιθανότερο να έρθει μετά το "do" παρά έναν αριθμό "9", παρά τα παρόμοια χαρακτηριστικά τους).

Εκτός από τα κύρια καθήκοντα του OCR που ενσωματώνουν τη βαθιά μάθηση, πολλά στάδια προεπεξεργασίας για την εξάλειψη προσεγγίσεων που βασίζονται σε κανόνες έχουν επίσης επωφεληθεί από τις ακμάζουσες τεχνολογίες νευρωνικών δικτύων:

Αποκατάσταση - Όταν ένα έγγραφο σαρώνεται ακατάλληλα, οι μέθοδοι που βασίζονται σε κανόνες ενδέχεται εύκολα να υπολείπονται. Μια πρόσφατη προσέγγιση που υιοθετήθηκε από τις τεχνολογίες OCR είναι να εφαρμόσει ένα Generative Adversarial Network (GAN) για να «εκφράσει» την είσοδο. Το GAN περιλαμβάνει δύο δίκτυα, μια γεννήτρια και έναν διακριτικό. Η γεννήτρια παράγει συνεχώς νέες εισόδους για τον διαχωριστή ώστε να διακρίνει μεταξύ των πραγματικών και των παραγόμενων εισόδων, επιτρέποντας στη γεννήτρια να βελτιώνεται συνεχώς στη δημιουργία ιδανικών περιεχομένων. Σε αυτήν την περίπτωση, το GAN εκπαιδεύεται από ένα ζεύγος εγγράφων με ήχου και θορύβου, και ο στόχος για τη γεννήτρια είναι να δημιουργήσει ένα έγγραφο χωρίς ακουστικό όσο το δυνατόν πιο κοντά στην αλήθεια εδάφους. Κατά τη φάση της αίτησης, το GAN, εάν εκπαιδευτεί καλά, μπορεί στη συνέχεια να χρησιμοποιηθεί σε κάθε είσοδο για να τελειοποιήσει τυχόν κακώς σαρωμένα έγγραφα.
Αναγνώριση εγγράφου - Οι εργασίες OCR, ιδίως οι εργασίες OCR σε PDF, χρησιμοποιούνται συχνά με σκοπό τη σωστή εξαγωγή δεδομένων από φόρμες και έγγραφα. Επομένως, γνωρίζοντας τον τύπο του εγγράφου που επεξεργάζεται η μηχανή OCR αυτή τη στιγμή μπορεί να αυξήσει σημαντικά την ακρίβεια της εξαγωγής δεδομένων. Οι πρόσφατες τέχνες έχουν ενσωματώσει ένα σιαμέζικο δίκτυο, ή ένα δίκτυο σύγκρισης, για να συγκρίνουν τα έγγραφα με προϋπάρχουσες μορφές εγγράφων, επιτρέποντας στον κινητήρα OCR να πραγματοποιήσει μια ταξινόμηση εγγράφων εκ των προτέρων. Αυτό το επιπλέον βήμα έχει αποδειχθεί εμπειρικά ότι βελτιώνει την ακρίβεια στις ανακτήσεις κειμένου.

Συνοπτικά, η εξέλιξη του OCR έχει επωφεληθεί από την εκθετική ανάπτυξη των δυνατοτήτων υλικού και της βαθιάς μάθησης. Τα PDF OCR έχουν πλέον επιτύχει ακρίβεια σε ένα εκπληκτικό πρότυπο για πολλές εφαρμογές.

Εφαρμογές λογισμικού PDF OCR

Ο κύριος στόχος του OCR είναι η ανάκτηση δεδομένων από μη δομημένες μορφές, είτε πρόκειται για αριθμητικούς αριθμούς είτε για πραγματικούς αριθμούς. Εάν η ανάκτηση είναι επιτυχής και εξαιρετικά ακριβής, τα προγράμματα μπορούν να χρησιμοποιούν OCR για εργατικές εργασίες όπως αναγνώριση και ερμηνεία κειμένου, ειδικά για αριθμητική και ανάλυση συμφραζομένων.

Ανάλυση αριθμητικών δεδομένων

Όταν τα PDF περιέχουν αριθμητικά δεδομένα, το OCR συμβάλλει στην εξαγωγή τους για να πραγματοποιήσουν στατιστική ανάλυση. Συγκεκριμένα, μπορεί να εφαρμοστεί OCR με τη βοήθεια εξαγώγιμων ζευγών πίνακα ή κλειδιών-τιμών (KVPs) για την εύρεση σημαντικών αριθμών από διαφορετικές περιοχές ενός δεδομένου κειμένου. Στη συνέχεια μπορούμε να υιοθετήσουμε μεθόδους στατιστικής ή και μηχανικής εκμάθησης (π.χ. KNN, K-Means, Linear / Logistic Regression) σε μοντέλα διαφόρων εφαρμογών

Ερμηνεία δεδομένων κειμένου

Από την άλλη πλευρά, η επεξεργασία δεδομένων κειμένου μπορεί να απαιτεί περισσότερα στάδια υπολογισμού, με απώτερο στόχο τα προγράμματα να κατανοήσουν τις «έννοιες» πίσω από τις λέξεις. Μια τέτοια διαδικασία ερμηνείας δεδομένων κειμένου στις σημασιολογικές της έννοιες αναφέρεται ως επεξεργασία φυσικής γλώσσας (NLP).

Οφέλη του PDF OCR

Το PDF OCR εξυπηρετεί πολλούς σκοπούς σε επίπεδο εφαρμογής. Οι ακόλουθες ενότητες περιγράφουν ορισμένα παραδείγματα περιπτώσεων χρήσης από τόσο μικρή όσο προσωπική χρήση έως τόσο μεγάλη όσο αυτή μιας εταιρείας.

Προσωπικές Θήκες Χρήσης

Τα PDF OCR προσφέρουν τεράστια ευκολία όταν αντιμετωπίζετε ενοχλητικά καθήκοντα όπως σάρωση αναγνωριστικών και προσωπική χρηματοδότηση.

Τα προσωπικά αναγνωριστικά συχνά απαιτείται να μετατραπούν σε μορφές PDF για αποστολή σε διάφορες εφαρμογές. Αυτά τα έγγραφα αναγνώρισης περιέχουν πληροφορίες όπως ημερομηνία γέννησης και αριθμούς ταυτότητας που συχνά απαιτείται να πληκτρολογούνται επανειλημμένα για διαφορετικούς σκοπούς, και ως εκ τούτου ένα πολύ ακριβές PDF OCR που βρίσκει τα αντίστοιχα πεδία και τις αντίστοιχες τιμές στο αναγνωριστικό θα ήταν εξαιρετικά βοήθεια στην εκτέλεση ασήμαντων χειροκίνητων εργασιών. Η μόνη απαιτούμενη εργασία θα ήταν απλώς να ελέγξετε ξανά για τυχόν ασυνέπεια.

Η προσωπική χρηματοδότηση είναι μια άλλη διαδικασία που απαιτεί τόνους χειροκίνητης εργασίας. Αν και οι εξελίξεις στο excel και τα υπολογιστικά φύλλα έχουν ήδη διευκολύνει εργασίες όπως ο προσωπικός προϋπολογισμός, το OCR και η εξαγωγή δεδομένων σε τιμολόγια PDF θα μπορούσαν να επισπεύσουν περαιτέρω τη διαδικασία. Αυτά τα δεδομένα μπορούν να τοποθετηθούν αυτόματα σε υπολογιστικά φύλλα για ανάλυση όπως αναφέρεται σε προηγούμενες ενότητες που πρέπει να πραγματοποιηθούν. Κάποιος μπορεί εύκολα να χρησιμοποιήσει τον αρχικό χρόνο εισόδου για να σκεφτεί καλύτερα οικονομικά σχέδια.

Υποθέσεις επιχειρησιακής χρήσης

Τόσο οι μεγάλες εταιρείες όσο και οι μικρότεροι οργανισμοί πρέπει να ασχοληθούν με χιλιάδες χαρτιά ακολουθώντας παρόμοιες μορφές, οι οποίες έχουν υψηλή ένταση εργασίας και δεν είναι παραγωγικές (δηλαδή, όλη η εργασία χρησιμοποιείται σε κάτι που απαιτεί λιγότερη ανταλλαγή ιδεών). Οι αυτοματοποιημένες ταξινομήσεις εγγράφων και οι συλλογές / αναλύσεις ερευνών είναι εκεί όπου το OCR είναι χρήσιμο.

Τα OCR επιτρέπουν στους υπολογιστές να μετατρέπουν σαρωμένα κείμενα σε κείμενα με κωδικοποίηση μηχανής. Το περιεχόμενο των κειμένων που έχουν μετατραπεί μπορεί στη συνέχεια να χρησιμοποιηθεί για την ταξινόμηση εγγράφων, είτε πρόκειται για αιτήσεις για διαφορετικούς ρόλους είτε για φόρμες που περιμένουν να εγκριθούν. Εάν εκπαιδευτεί καλά, τα OCR μπορεί να οδηγήσουν σε ελάχιστα σφάλματα που θα μπορούσαν να είναι συχνά λόγω αναπόφευκτης ανθρώπινης κόπωσης. Από επιχειρηματική άποψη, οι δαπάνες εργασίας μπορούν επίσης να μειωθούν πολύ.

Όσον αφορά τις έρευνες ή τα σχόλια, τα οποία συχνά απαιτούνται από τους οργανισμούς για να βελτιώσουν το τρέχον προϊόν ή τα σχέδιά τους, το OCR διαδραματίζει επίσης ζωτικό ρόλο. Τα δεδομένα μπορούν να εξαχθούν γρήγορα και να αξιολογηθούν εκτενώς για στατιστική ανάλυση. Εάν έχει σχεδιαστεί καλά, ακόμη και χειρόγραφο κείμενο μπορεί να εξαχθεί και να αναλυθεί αυτόματα.

Ένα απλό μάθημα

Τα PDF OCR μπορούν πραγματικά να προγραμματιστούν εύκολα προσωπικά. Το παρακάτω είναι ένας απλός αγωγός για την εκτέλεση OCR σε PDF.

Μετατροπή PDF σε εικόνες

Υπάρχουν πολλές βιβλιοθήκες και API σε πολλές γλώσσες που υποστηρίζουν προκαθορισμένα OCR. Ωστόσο, τα περισσότερα επεξεργάζονται με εικόνες και όχι απευθείας σε PDF. Ως εκ τούτου, για να απλοποιήσουμε τα ακόλουθα βήματα, μπορούμε να επεξεργαστούμε τα PDF σε μορφές εικόνας πριν από την εκτέλεση αναγνωρίσεων χαρακτήρων.

Μία από τις πιο συχνά χρησιμοποιούμενες βιβλιοθήκες είναι η pdf2 εικόνα βιβλιοθήκη για Python, η οποία μπορεί απλά να εγκατασταθεί μέσω της ακόλουθης εντολής:

pip install pdf2image

Στη συνέχεια, μπορεί κανείς να εισαγάγει τη βιβλιοθήκη και να χρησιμοποιήσει οποιαδήποτε από τις δύο γραμμές κώδικα για να πάρει μια εικόνα σε μορφή PIL ως εξής:

from pdf2image import convert_from_path, convert_from_bytes
from pdf2image.exceptions import ( PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
) images = convert_from_path('/home/belval/example.pdf')
images = convert_from_bytes(open('/home/belval/example.pdf','rb').read())

Για περισσότερες πληροφορίες σχετικά με τον κωδικό, μπορείτε να ανατρέξετε στην επίσημη τεκμηρίωση στο https://pypi.org/project/pdf2image/

Εικόνα OCR

Υπάρχουν πολλά API από μεγάλες εταιρείες τεχνολογίας με πολύ ακριβή OCR. Λόγω της υπόθεσης ότι τα PDF συνήθως είναι πολύ γεμάτα με πυκνά δεδομένα κειμένου, ο πιο κατάλληλος τρόπος για να εκτελέσετε τέτοια OCR θα ήταν να χρησιμοποιήσετε το Google Vision API, ιδιαίτερα το Έγγραφο_Κείμενο_Σημείωση Λειτουργεί όπως είναι ειδικά σχεδιασμένο για τέτοιους σκοπούς. ΕΙΔΙΚΑ, Έγγραφο_Κείμενο_Σημείωση στέλνει τον κωδικό στη μηχανή OCR που σχεδίασε η Google για πυκνά κείμενα, συμπεριλαμβανομένων των χειρογράφων σε διάφορες γλώσσες.

Το σύνολο του Google Vision API είναι εύκολο στη ρύθμιση, μπορεί κανείς να ανατρέξει στην επίσημη καθοδήγησή του σχετικά με https://cloud.google.com/vision/docs/quickstart-client-libraries για τη λεπτομερή διαδικασία εγκατάστασης.

Στη συνέχεια μπορούμε να χρησιμοποιήσουμε τους ακόλουθους κωδικούς για ανάκτηση OCR:

def detect_document(path): """Detects document features in an image.""" from google.cloud import vision import io client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.document_text_detection(image=image) for page in response.full_text_annotation.pages: for block in page.blocks: print('nBlock confidence: {}n'.format(block.confidence)) for paragraph in block.paragraphs: print('Paragraph confidence: {}'.format( paragraph.confidence)) for word in paragraph.words: word_text = ''.join([ symbol.text for symbol in word.symbols ]) print('Word text: {} (confidence: {})'.format( word_text, word.confidence)) for symbol in word.symbols: print('tSymbol: {} (confidence: {})'.format( symbol.text, symbol.confidence)) if response.error.message: raise Exception( '{}nFor more info on error messages, check: ' 'https://cloud.google.com/apis/design/errors'.format( response.error.message))

Εναλλακτικά, το Google Vision API υποστηρίζει επίσης πολλές γλώσσες, όπως Java και Go. Μπορείτε να ανακτήσετε περισσότερους κωδικούς σχετικά με τη χρήση του Google API εδώ: https://cloud.google.com/vision

Υπάρχουν επίσης άλλες υπηρεσίες / API OCR από την Amazon και τη Microsoft, και μπορείτε πάντα να χρησιμοποιήσετε το PyTesseract βιβλιοθήκη για να εκπαιδεύσετε το μοντέλο σας για συγκεκριμένους σκοπούς.

Σύγκριση

Υπάρχουν πολυάριθμα OCR PDF διαθέσιμα προς το παρόν στην αγορά. Ενώ ορισμένα είναι δωρεάν, γρήγορα και μπορούν να χρησιμοποιηθούν άμεσα στο διαδίκτυο, άλλα παρέχουν πιο ακριβή και καλύτερα σχεδιασμένα προϊόντα για επαγγελματική χρήση. Εδώ περιγράφουμε μερικές επιλογές, καθώς και τα πλεονεκτήματα και τα μειονεκτήματά τους.

Online OCR PDF

Όταν χρησιμοποιείτε PDF OCR για προσωπική χρήση σε γρήγορες μετατροπές, δωρεάν και γρήγορη μπορεί να είναι πιο επιθυμητή από την ακρίβεια. Υπάρχουν πολλές online υπηρεσίες PDF OCR που εξυπηρετούν αυτές τις ανάγκες. Κάποιος μπορεί απλά να ανεβάσει έγγραφα PDF και να μετατραπεί σε γραπτό κείμενο με γρήγορο και βολικό τρόπο.

Το κύριο πρόβλημα με αυτό, ωστόσο, είναι ο ποιοτικός έλεγχος του OCR. Αυτά τα δωρεάν διαδικτυακά λογισμικά OCR, ενώ λειτουργούν καλά τις περισσότερες φορές, δεν είναι υποχρεωμένα να παρέχουν την καλύτερη ποιότητα παραγωγής κάθε φορά σε σύγκριση με άλλο λογισμικό εκτός σύνδεσης που απαιτεί συνεχή συντήρηση

Λογισμικό εκτός σύνδεσης

Επί του παρόντος, υπάρχουν αρκετές εταιρείες που παρέχουν υψηλής ακρίβειας υπηρεσίες PDF OCR. Εδώ εξετάζουμε πολλές επιλογές PDF OCR που ειδικεύονται σε διαφορετικές πτυχές, καθώς και μερικά πρόσφατα ερευνητικά πρωτότυπα που φαίνεται να προσφέρουν πολλά υποσχόμενα αποτελέσματα:

Υπάρχουν πολλές υπηρεσίες OCR που στοχεύουν σε εργασίες όπως εικόνες-in-the-wild. Παραλείψαμε αυτές τις υπηρεσίες καθώς επί του παρόντος επικεντρωνόμαστε μόνο στην ανάγνωση εγγράφων PDF.

ABBYY - Το ABBYY FineReader PDF είναι ένα OCR που αναπτύχθηκε από την ABBYY. Το λογισμικό διαθέτει ένα φιλικό περιβάλλον εργασίας χρήστη που χρησιμοποιείται για ανάγνωση PDF και μετατροπή κειμένου. Ωστόσο, λόγω του μη μηχανικού χαρακτήρα του (οι πελάτες-στόχοι είναι ειδικοί μη τεχνολογίας σε άλλους τομείς που χρειάζονται PDF OCR), θα ήταν πιο δύσκολο να ενσωματωθεί σε άλλα προγράμματα για περαιτέρω επεξεργασία.
Kofax - Όπως και το ABBYY, το Kofax είναι ένας φιλικός αναγνώστης PDF που απαιτεί αγορά. Η τιμή καθορίζεται για ατομική χρήση, με εκπτώσεις για μεγάλες εταιρείες. 24/7 βοήθεια είναι επίσης διαθέσιμη σε περίπτωση τεχνικών δυσκολιών.
Βαθύς αναγνώστης - Το Deep Reader είναι ένα ερευνητικό έργο που δημοσιεύθηκε στο ACCV Conference 2019. Ενσωματώνει πολλές υπερσύγχρονες αρχιτεκτονικές δικτύου για την εκτέλεση εργασιών, όπως η αντιστοίχιση εγγράφων, η ανάκτηση κειμένου και οι εικόνες denoising. Υπάρχουν επιπλέον δυνατότητες, όπως πίνακες και εξαιρέσεις ζεύγους κλειδιού-τιμής που επιτρέπουν την ανάκτηση και αποθήκευση δεδομένων με οργανωμένο τρόπο.
Nanonets ™ - Το Nanonets ™ PDF OCR χρησιμοποιεί βαθιά μάθηση και επομένως είναι εντελώς ανεξάρτητο από το πρότυπο και τον κανόνα. Όχι μόνο τα Nanonets μπορούν να λειτουργήσουν σε συγκεκριμένους τύπους PDF, αλλά και σε οποιονδήποτε τύπο εγγράφου για ανάκτηση κειμένου.

Συμπέρασμα

Εν κατακλείδι, σε αυτό το άρθρο εξετάσαμε τα βασικά στοιχεία για το πώς λειτουργεί ένα OCR, καθώς και το χρονοδιάγραμμα της ανάπτυξης του OCR ακολουθούμενο από απλά μαθήματα και περιπτώσεις χρήσης. Παρουσιάσαμε επίσης ένα σύνολο βιώσιμων επιλογών για PDF OCR καθώς και τα πλεονεκτήματα και τα μειονεκτήματά τους για περαιτέρω χρήση.

Πηγή: https://nanonets.com/blog/pdf-ocr/

Σφραγίδα ώρας: 30 Μαΐου 2021