Εισαγωγή στο Google Vision OCR

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Εισαγωγή στο Google Vision OCR

Η οπτική αναγνώριση χαρακτήρων (OCR), η μέθοδος μετατροπής χειρόγραφων / εκτυπωμένων κειμένων σε μηχανογραφημένο κείμενο, υπήρξε ανέκαθεν ένας σημαντικός τομέας έρευνας στην οπτική του υπολογιστή λόγω των πολυάριθμων εφαρμογών του σε διάφορους τομείς - Οι τράπεζες χρησιμοποιούν το OCR για να συγκρίνουν τις δηλώσεις. Οι κυβερνήσεις χρησιμοποιούν το OCR για συλλογές σχολίων από την έρευνα.

Λόγω της ποικιλομορφίας στο στυλ γραφής και έντυπου κειμένου, οι πρόσφατες προσεγγίσεις του OCR ενσωματώνουν βαθιά μαθήματα για να αποκτήσουν μεγαλύτερη ακρίβεια. Καθώς η βαθιά μάθηση απαιτεί τεράστιες ποσότητες δεδομένων για εκπαίδευση μοντέλων, εταιρείες όπως η Google έχουν το προβάδισμα να παράγουν πολλά υποσχόμενα αποτελέσματα με τις υπηρεσίες τους OCR.

Αυτό το άρθρο εξετάζει τις λεπτομέρειες του Google Vision OCR, συμπεριλαμβανομένου ενός απλού σεμιναρίου για python, το εύρος των εφαρμογών, την τιμολόγηση και άλλες εναλλακτικές λύσεις.

Τι είναι το Google Cloud Vision OCR;
Ένα απλό μάθημα
Γιατί OCR;
Παράδειγμα Θήκες Χρήσης
Τιμοκατάλογος
Σημαντικές δυνατότητες του Google Cloud Vision OCR
Εναλλακτικές λύσεις
Κοινά ζητήματα

Τι είναι το Google Cloud Vision;

Το Google Cloud Vision OCR είναι μέρος του Google cloud vision API για την εξαγωγή κειμένου από εικόνες. Συγκεκριμένα, υπάρχουν δύο σχολιασμοί που βοηθούν στην αναγνώριση χαρακτήρων:

Κείμενο_Σημείωση: Εξάγει και εξάγει κείμενα που κωδικοποιούνται από μηχανή από οποιαδήποτε εικόνα (π.χ. φωτογραφίες από θέα στο δρόμο ή τοπία) Δεδομένου ότι αρχικά είχε σχεδιαστεί για να μπορεί να χρησιμοποιηθεί σε διαφορετικές καταστάσεις φωτισμού, το μοντέλο είναι κατά κάποιο τρόπο πιο ανθεκτικό στην ανάγνωση λέξεων διαφορετικών στυλ, αλλά μόνο σε πιο αραιό επίπεδο. Το αρχείο JSON που επιστρέφεται περιλαμβάνει ολόκληρες τις συμβολοσειρές, καθώς και τις μεμονωμένες λέξεις και τα αντίστοιχα πλαίσια οριοθέτησής τους.
Έγγραφο_Κείμενο_Σημείωση: Αυτό έχει σχεδιαστεί ειδικά για πυκνά έγγραφα κειμένου (π.χ. σαρωμένα βιβλία). Έτσι, ενώ υποστηρίζει την ανάγνωση μικρότερων και πιο συγκεντρωμένων κειμένων, είναι λιγότερο προσαρμόσιμο σε εικόνες άγριας φύσης. Πληροφορίες όπως παράγραφοι, μπλοκ και διαλείμματα περιλαμβάνονται στο αρχείο εξόδου JSON.

Ψάχνετε για μια λύση OCR που ξεπερνά τις αδυναμίες του Google Cloud Vision ή ζωνική OCR? Δώστε Nanonets™ μια περιστροφή για μεγαλύτερη ακρίβεια, μεγαλύτερη ευελιξία και ευρύτερους τύπους εγγράφων!

Ένα απλό μάθημα

Η ακόλουθη ενότητα παρουσιάζει έναν απλό οδηγό για να ξεκινήσετε με το Google Vision API, ειδικά για το πώς να το χρησιμοποιήσετε για την υπηρεσία Google Cloud Vision OCR.

Απλή επισκόπηση

Η ιδέα πίσω από αυτό είναι πολύ διαισθητική και απλή.

1) Στέλνετε ουσιαστικά μια εικόνα (απομακρυσμένη ή από τον τοπικό σας χώρο αποθήκευσης) στο Google Cloud Vision API.

2) Η εικόνα επεξεργάζεται εξ αποστάσεως στο Google Cloud και παράγει τις αντίστοιχες μορφές JSON σε σχέση με τη λειτουργία που καλέσατε.

3) Το αρχείο JSON επιστρέφεται ως έξοδος μετά την κλήση της συνάρτησης.

Ρύθμιση API Google Cloud Vision

Για να χρησιμοποιήσετε οποιεσδήποτε υπηρεσίες παρέχονται από το Google Vision API, πρέπει να διαμορφώσετε το Google Cloud Console και να εκτελέσετε μια σειρά βημάτων για έλεγχο ταυτότητας. Το παρακάτω είναι μια αναλυτική επισκόπηση του τρόπου ρύθμισης ολόκληρης της υπηρεσίας Vision API.

Δημιουργία έργου στο Google Cloud Console - Πρέπει να δημιουργηθεί ένα έργο για να ξεκινήσει η χρήση οποιασδήποτε υπηρεσίας Vision. Το έργο οργανώνει πόρους όπως συνεργάτες, API και πληροφορίες τιμολόγησης.
Ενεργοποίηση χρέωσης - Για να ενεργοποιήσετε το API όρασης, πρέπει πρώτα να ενεργοποιήσετε τη χρέωση για το έργο σας. Οι λεπτομέρειες της τιμολόγησης θα εξεταστούν σε επόμενες ενότητες.
Ενεργοποίηση API όρασης
Δημιουργία λογαριασμού υπηρεσίας - Δημιουργία λογαριασμού υπηρεσίας και σύνδεση με το έργο που δημιουργήθηκε και, στη συνέχεια, δημιουργία κλειδιού λογαριασμού υπηρεσίας. Το κλειδί θα πραγματοποιηθεί και θα ληφθεί ως αρχείο JSON στον υπολογιστή σας.
Ρύθμιση μεταβλητής περιβάλλοντος GOOGLE_APPLICATION_CREDENTIALS. Για να ρυθμίσετε αυτήν τη μεταβλητή περιβάλλοντος, εκτελέστε τη σε Mac/Linux ή Windows.
Μπλοκ κώδικα για Mac / Linux
Μπλοκ κώδικα για Windows

Μπορείτε να βρείτε μια πιο λεπτομερή διαδικασία των προαναφερθέντων βημάτων από την επίσημη τεκμηρίωση που παρέχεται από το Google Cloud από εδώ:

https://cloud.google.com/vision/docs/quickstart-client-libraries

Απλή λειτουργία Google Vision OCR στο Python

Το Google Cloud Vision API λειτουργεί με πολλές δημοφιλείς γλώσσες, που κυμαίνονται από Java, Node.js, Python, έως τη γλώσσα Go της Google. Για απλότητα, εισάγουμε μια απλή μέθοδο κλήσης στο Python.

def detect_text(path):    """Detects text in the file."""    from google.cloud import vision    import io    client = vision.ImageAnnotatorClient()    with io.open(path, 'rb') as image_file:        content = image_file.read()    image = vision.Image(content=content)    response = client.text_detection(image=image)    texts = response.text_annotations    print('Texts:')    for text in texts:        print('n"{}"'.format(text.description))        vertices = (['({},{})'.format(vertex.x, vertex.y)                    for vertex in text.bounding_poly.vertices])        print('bounds: {}'.format(','.join(vertices)))

Google Cloud Vision OCR - Μέθοδος κλήσης Python

Με άλλα λόγια, η μέθοδος καλεί συνεπώς τη συνάρτηση κείμενο_συνήθεια, στη συνέχεια εξαγάγετε περαιτέρω τις απαντήσεις και εκτυπώστε τις πληροφορίες. έγγραφο_κείμενο_σχολιασμός μπορεί επίσης να κληθεί χρησιμοποιώντας τον ίδιο τρόπο για την ανάκτηση πυκνών κειμένων. Κάποιος μπορεί επίσης να ανιχνεύσει εικόνες από απόσταση ρυθμίζοντας την εικόνα μέσω:

image.source.image_uri = uri

όπου το uri είναι το uri της εικόνας.

Περισσότερες λεπτομέρειες για τους κωδικούς μπορούν να ανακτηθούν εδώ:

https://cloud.google.com/vision

Ψάχνετε για μια λύση OCR που ξεπερνά τα μειονεκτήματα του Google Cloud Vision; Δώστε Nanonets™ μια περιστροφή για μεγαλύτερη ακρίβεια, μεγαλύτερη ευελιξία και ευρύτερους τύπους εγγράφων!

Προσφέρεται επίπεδο παραγωγής

Για να βοηθήσουν στην περαιτέρω ανάλυση δεδομένων του κειμένου, οι δύο λειτουργίες του Google OCR παρέχουν διάφορα επίπεδα εξόδου για χρήση από τους χρήστες: για κείμενο_συνήθεια, τόσο ολόκληρες οι συμβολοσειρές (εάν θεωρούνται από την Google ως μία πρόταση ή φράση) όσο και οι μεμονωμένες λέξεις εντός · Για έγγραφο_κείμενο_σχολιασμός, καθώς το μοντέλο είναι βελτιστοποιημένο για πυκνό κείμενο, σελίδα, μπλοκ, παράγραφος, λέξη και διάλειμμα προσφέρονται όλα ως μέρος της εξόδου.

Πόσο καλά λειτουργεί όμως;

Πόσο στιβαρά είναι τα μοντέλα;

Όπως αναφέρθηκε προηγουμένως, η Google προσφέρει δύο λειτουργίες για το OCR σε δύο διαφορετικές καταστάσεις. Το παρακάτω περιγράφει την ικανότητα δύο συναρτήσεων για την ανάκτηση διαφορετικών τύπων δεδομένων.

Τυπωμένα δεδομένα

Ο ευκολότερος τύπος δεδομένων για ερμηνεία είναι τα τυπωμένα δεδομένα κειμένου, δηλαδή, το κείμενο γραπτού υπολογιστή που εκτυπώνεται και σαρωθεί. Το OCR απαιτείται όταν έχουμε μόνο το έντυπο αντίγραφο αυτών των δεδομένων αντί για τα πρωτότυπα κείμενα που κωδικοποιούνται από μηχανή. Καθώς τα περισσότερα από αυτά τα κείμενα είναι σφιχτά και συσκευασμένα σε σελίδες, έγγραφο_κείμενο_σχολιασμός θα ήταν μια καλύτερη επιλογή.

Χειρόγραφα δεδομένα

Το περιεχόμενο μπορεί να περιέχει χειρόγραφο κείμενο και τα στυλ των χειρόγραφων δεδομένων μπορεί να διαφέρουν δραστικά. Παρ 'όλα αυτά, το Google Vision OCR παρέχει αξιοπρεπή ακρίβεια, αρκεί οι χειρόγραφες σημειώσεις να μην είναι πολύ βρώμικες. Ανάλογα με το πόσο πακεταρισμένο παρουσιάζεται το μέσο των χειρόγραφων δεδομένων, χρησιμοποιούμε μία από τις δύο συναρτήσεις κατά περίπτωση.

Περιστρεφόμενα / In-The-Wild δεδομένα

Όταν οι εικόνες ή οι σαρωμένες φωτογραφίες παρουσιάζονται σε ανορθόδοξες ή μη ευθυγραμμισμένες γωνίες, τις θεωρούμε ως δεδομένα εντός της άγριας φύσης. Τα κείμενα θα μπορούσαν ενδεχομένως να είναι πιο δύσκολο να εντοπιστούν πρώτα, και ως εκ τούτου συνήθως χρησιμοποιούμε το κείμενο_συνήθεια συνάρτηση που είχε σχεδιαστεί για την πρώτη επεξεργασία δεδομένων in-the-wild. Με βάση ορισμένα πειράματα διαβίβασης κατακόρυφων κειμένων και πινακίδων που έχουν ληφθεί σε διαφορετικές γωνίες, δείχνουμε ότι το Google Vision OCR αποδίδει πραγματικά αξιοπρεπή δεδομένα από διάφορα περιβάλλοντα.

Γιατί OCR;

Πολλά από τα δεδομένα που έχουμε σήμερα είναι σε μη δομημένη μορφή. Για παράδειγμα, δεδομένης μιας εικόνας, ενός σαρωμένου εγγράφου ή μιας φωτογραφίας, ενώ οι άνθρωποι μπορούν να αναγνωρίσουν γρήγορα τα κείμενα και να ερμηνεύσουν περαιτέρω τις έννοιες, όλα τα δεδομένα κειμένου είναι απλώς pixel με χρώματα, χωρίς πραγματικό νόημα για τις μηχανές.

Όταν εταιρείες ή μεγάλες εταιρείες ασχολούνται με τεράστια ποσά γραφειοκρατίας, ο μεγάλος όγκος δεδομένων θα καθιστούσε αδύνατη την πραγματοποίηση οποιωνδήποτε ταξινομήσεων ή επεξεργασίας δεδομένων με αποκλειστική ανθρώπινη προσπάθεια - αυτό συμβαίνει όταν το κείμενο που κωδικοποιείται από μηχανή γίνεται πρακτικό.

Μετά τη μετατροπή OCR, οι πληροφορίες μπορούν στη συνέχεια να αναλυθούν με πολλές διαφορετικές μεθόδους ανάλογα με τη φύση των δεδομένων:

Για αριθμητικά δεδομένα, οι στατιστικές μέθοδοι θα μπορούσαν να εφαρμοστούν άμεσα για την ανάλυση τυχόν συσχετίσεων. Θα μπορούσαμε επίσης να υιοθετήσουμε παραδοσιακές μεθόδους μηχανικής μάθησης (π.χ. KNN, K-Means, Linear Regression) ή προσεγγίσεις βαθιάς μάθησης για τη δημιουργία προγνωστικών μοντέλων παλινδρόμησης και / ή ταξινόμησης.
Για δεδομένα κειμένου, ενδέχεται να απαιτούνται περισσότερα στάδια επεξεργασίας. Η διαδικασία ανάλυσης και ερμηνείας δεδομένων κειμένου σε σημαντικές στατιστικές αναφέρεται συχνά ως επεξεργασία φυσικής γλώσσας (NLP). Συγκεκριμένα, θα μπορούσαμε να εξαγάγουμε αριθμούς ή ακόμη και σημασιολογία / ατμόσφαιρα βάσει δεδομένου περιεχομένου.

Όλες αυτές οι αναλύσεις θα μπορούσαν να επιτρέψουν σε εταιρείες, ειδικά σε αυτές με τεράστια ποσά νέων δεδομένων κάθε μέρα, να δημιουργήσουν ισχυρά μοντέλα και ακόμη και να αυτοματοποιήσουν πολλές διαδικασίες και να αντικαταστήσουν τις παραδοσιακές προσεγγίσεις εντάσεως εργασίας και με σφάλματα. Η ακόλουθη ενότητα σκάβει μερικά λεπτομερή παραδείγματα για το πώς μπορεί να χρησιμοποιηθεί το OCR.

Παράδειγμα Θήκες Χρήσης

Ανάγνωση πινακίδας κυκλοφορίας

Ίσως μία από τις πιο κοινές χρήσεις του OCR σήμερα είναι η εφαρμογή στην ανάγνωση πινακίδας κυκλοφορίας. Στις ανεπτυγμένες χώρες, οι χώροι στάθμευσης συχνά συνοδεύονται από μοντέλα ανάγνωσης πινακίδας κυκλοφορίας για τον προσδιορισμό της ώρας εισόδου, της ώρας εξόδου και ακόμη και της ακριβούς τοποθεσίας στάθμευσης ανά αυτοκίνητο. Ορισμένοι χώροι στάθμευσης συνδέονται ακόμη και με το κυβερνητικό δίκτυο για να χρεώνουν τα τέλη στάθμευσης απευθείας σε οικογένειες - όλα αυτά ανακουφίζουν τις περιττές ανθρώπινες προσπάθειες.

Τα μοντέλα OCR της πινακίδας κυκλοφορίας μπορούν επίσης να υιοθετηθούν για ανιχνεύσεις σε παραβιάσεις της κυκλοφορίας, διευκολύνοντας το χρόνο για την αστυνομία να πληκτρολογήσει με μη αυτόματο τρόπο τα δεδομένα του παραβατικού αυτοκινήτου.

Σάρωση αποδείξεων και τιμολογίων

Οι χρηματοοικονομικές προβλέψεις και η εξισορρόπηση των περιουσιακών στοιχείων και υποχρεώσεων των εταιρειών είναι σημαντικές δραστηριότητες για κάθε εταιρεία. Καθώς οι μεγάλες εταιρείες πραγματοποιούν αγορές μεγάλης ποσότητας από πολλούς τομείς καθ 'όλη τη διάρκεια του έτους, απαιτείται να συλλέγουν και να επεξεργάζονται σχολαστικά όλα τα τιμολόγια και τις αποδείξεις κατά τη δημιουργία οικονομικών καταστάσεων.

Με τη βοήθεια του OCR, μπορούμε να δημιουργήσουμε αυτοματοποιημένους αγωγούς που αναγνωρίζει μια σειρά από μορφές τιμολογίων και να τα μετατρέψετε σε αριθμούς. Απαιτούνται εργατικές προσπάθειες μόνο για έλεγχο και τα δομημένα δεδομένα και οι αριθμοί μπορούν να επιτρέψουν στην εταιρεία να εξισορροπήσει γρήγορα τις εισροές και εκροές, να δημιουργήσει οικονομικές προβλέψεις, καθώς και να προσέξει τυχόν κακόβουλους χειρισμούς των οικονομικών της εταιρείας.

Ηλεκτρικά ιατρικά αρχεία

Τα δεδομένα των ασθενών συχνά διασκορπίζονται σε μια περιοχή, χώρα ή ακόμα και σε διάφορες χώρες ανάλογα με τον τρόπο ζωής των ατόμων. Λόγω των διαφορετικών μορφών κλινικών και νοσοκομείων (μεγάλα νοσοκομεία μπορεί να έχουν οργανωμένες βάσεις δεδομένων, ενώ γιατροί σε μικρότερες κλινικές μπορεί απλώς να γράψουν τα αρχεία με το χέρι), ηλικία ασθενών (ηλικιωμένοι ασθενείς μπορούν να εισαχθούν σε μια συγκεκριμένη βάση δεδομένων πριν από την ανακαίνιση και την ενσωμάτωση υπολογιστές) και τις τοποθεσίες των ατόμων (οι άνθρωποι μπορούν να μετακινηθούν σε άλλη πόλη ή ακόμα και στο εξωτερικό), η διατήρηση μιας καθολικής ιατρικής μπορεί στην πραγματικότητα να είναι πολύ δύσκολη.

Ένα καλά εκπαιδευμένο OCR γίνεται επομένως χρήσιμο κατά τη μεταφορά του EMR από το ένα νοσοκομείο στο άλλο ή με τη μετατροπή χειρόγραφων δεδομένων σε μηχάνημα - και τα δύο μπορούν να επισπεύσουν τη διαδικασία κατανόησης του ιατρικού ιστορικού των ασθενών με γρήγορο και συνοπτικό τρόπο.

Έντυπα και έρευνες

Οι οργανισμοί (είτε κυβερνητικοί είτε μη κυβερνητικοί) ενδέχεται συχνά να απαιτούν ανατροφοδότηση από πελάτες ή πολίτες για να βελτιώσουν τα τρέχοντα διαφημιστικά τους σχέδια και προϊόντα. Δεδομένου ότι οι φόρμες γράφονται συνήθως με το χέρι, θα ήταν δυνητικά δύσκολο να πραγματοποιηθεί οποιαδήποτε άμεση στατιστική ανάλυση. Επομένως, η διαδικασία μετατροπής μη δομημένων δεδομένων και χειρόγραφων ερευνών σε αριθμητικά σχήματα για τη διευκόλυνση των υπολογισμών θα μπορούσε να υποβοηθηθεί και να επιταχυνθεί από το OCR.

Τιμολόγηση Cloud Vision

Σύμφωνα με το Google , τόσο κείμενο_συνήθεια και έγγραφο_κείμενο_σχολιασμός προσφέρονται στο ίδιο επίπεδο τιμών με το ακόλουθο:

Για κάθε μήνα, οι πρώτες 1000 μονάδες δίνονται δωρεάν, με το 1000-5000000 να χρεώνεται στα 1.5 $ ανά 1000 μονάδες. Αφού χτυπήσει το σήμα 5000000, η τιμή μειώνεται σε 0.6 $ ανά 1000 μονάδες (Κάθε εικόνα που αποστέλλεται μέσω του Google Vision API θεωρείται ως μία μονάδα).

Η παραπάνω τιμολόγηση υποδηλώνει ότι η υπηρεσία OCR είναι σχετικά προσιτή τόσο για μικρές εταιρείες με λιγότερο συχνές χρήσεις όσο και για μεγάλες εταιρείες όπου η υπηρεσία απαιτείται πολύ περισσότερο από 5000000 φορές το μήνα.

Σημαντικές δυνατότητες του Google Cloud Vision OCR

Το Google OCR έχει διάφορα οφέλη, εδώ περιγράφουμε μερικά από τα πιο σημαντικά οφέλη:

Εύρωστος - Οι δύο λειτουργίες, που εξυπηρετούν δύο τύπους εγγράφων κειμένου που εξαρτώνται από την απόφαση των χρηστών, καθιστούν το Google Vision OCR συγκριτικά πιο ανθεκτικό από τους κινητήρες OCR ενός μοντέλου.
Υποστήριξη γλώσσας - Με ίσως τη μεγαλύτερη βάση δεδομένων γλώσσας, η Google έχει ενημερώσει ότι το OCR του ισχύει για περισσότερες από 60 γλώσσες, πειραματίζεται σε μερικές δεκάδες περισσότερες και χαρτογραφεί πολλά από τα υπόλοιπα σε άλλο κωδικό γλώσσας ή γενικό αναγνωριστικό γλώσσας.
Ευκολία στη χρήση - Το ίδιο το μοντέλο είναι μέρος της ενσωματωμένης βιβλιοθήκης Google Vision. Μετά την ελαφρώς πιο ενοχλητική διαδικασία διαμόρφωσης του κλειδιού API (το οποίο απαιτείται από σχεδόν όλους τους κινητήρες OCR), η μέθοδος κλήσης λειτουργίας μπορεί να χρησιμοποιηθεί σε πολλές γλώσσες με πολύ απλό τρόπο.
Επεκτασιμότητα - Η στρατηγική τιμολόγησης της Google ενθαρρύνει τους χρήστες να κλιμακώσουν τη χρήση του API, καθώς η μεγαλύτερη χρήση οδηγεί σε φθηνότερη μέση τιμή.
Ταχύτητα - Η πλατφόρμα αποθήκευσης του Google Cloud συνοδεύει υπέροχα τη χρήση του API. Μεταφορτώνοντας τις εικόνες στη μονάδα δίσκου, ο χρόνος απόκρισης του API μπορεί να είναι πολύ γρήγορος και επεκτάσιμος.

Εναλλακτικές λύσεις

Τα παρακάτω είναι μερικές εναλλακτικές υπηρεσίες OCR εκτός από το Google Vision API, μαζί με τα πλεονεκτήματα και τα μειονεκτήματα κάθε υπηρεσίας.

ABBYY

Το ABBYY FineReader PDF είναι ένα OCR που αναπτύχθηκε από την ABBYY, το οποίο εστιάζει ιδιαίτερα στην ανάγνωση pdf.

Πλεονεκτήματα: Το ABBYY είναι πολύ πιο φιλικό προς το κόστος για μεμονωμένους χρήστες καθώς η τιμολόγηση χωρίζεται σε μικρότερους τομείς (1000, 2000 σελίδες κ.λπ.). Απευθύνεται επίσης σε μη μηχανολογικούς πελάτες, καθώς είναι μια εμπορική εφαρμογή.
Μειονεκτήματα: Το λογισμικό εστιάζει μόνο σε μορφή PDF και η τιμή γίνεται πολύ ακριβή όταν κάνετε OCR μεγάλης κλίμακας.
Πότε πρέπει να χρησιμοποιήσετε: Για μεμονωμένους χρήστες που θέλουν απλώς να διαχειριστούν γρήγορα PDF, το ABBYY μπορεί να είναι μια πιο βιώσιμη επιλογή από το Google Vision API που δίνει περισσότερη ευελιξία αλλά απαιτεί επιπλέον κωδικούς.

Microsoft

Το Microsoft Azure προσφέρει επίσης API ανάγνωσης για OCR.

Πλεονεκτήματα: Η Microsoft παρέχει φθηνότερη τιμή για ακόμη μεγαλύτερο αριθμό δεδομένων που θα χρησιμοποιηθούν. Το Azure cloud storage προσφέρει παρόμοιες υπηρεσίες με το Google Cloud.
Μειονεκτήματα: Δεν υπάρχει δωρεάν επίπεδο, ενώ άλλες επιλογές παρέχουν δωρεάν κλήσεις API για χαμηλή χρήση.
Πότε πρέπει να χρησιμοποιήσετε: Πολύ μεγάλης κλίμακας αγωγοί παραγωγής OCR θα μπορούσαν να επωφεληθούν από την τιμολόγηση της Microsoft.

Kofax

Όπως και το ABBYY, το Kofax προσφέρει επίσης την ανάγνωση αρχείων PDF σε OCR

Πλεονεκτήματα: Η τιμή καθορίζεται για ατομική χρήση και οι εκπτώσεις προσφέρονται για επιχειρήσεις. Παρέχεται επίσης 24/7 υποστήριξη πελατών.
Μειονεκτήματα: Η ποιότητα ισχυρίζεται ότι δεν είναι τόσο υψηλή όσο της ABBYY.
Πότε πρέπει να χρησιμοποιήσετε: Μικρές επιχειρήσεις με χαμηλές απαιτήσεις χρήσης.

Υλικό AWS

Το AWS Textract εξυπηρετεί έναν πολύ παρόμοιο ρόλο σε σύγκριση με το Google Vision API. Οι υπηρεσίες και οι τιμές τους είναι πολύ παρόμοιες, και έτσι το οποίο πρέπει να υιοθετηθεί βασίζεται πλήρως στις προτιμήσεις των πελατών.

Νανοδίκτυα

Σε αντίθεση με τις υπηρεσίες που συζητήθηκαν προηγουμένως, τα OCR της Nanonets κατηγοριοποιούνται περαιτέρω σε συγκεκριμένες κατηγορίες, με ισχυρά μοντέλα εκπαιδευμένα σε κάθε τύπο δεδομένων (π.χ. αποδείξεις, τιμολόγια, άδειες οδήγησης).

Πλεονεκτήματα: OCR για συγκεκριμένες κατηγορίες, παρέχοντας έτσι ακόμη καλύτερα αποτελέσματα όσον αφορά την ακρίβεια, όταν οι εταιρείες απαιτούν OCR για συγκεκριμένες εφαρμογές.
Μειονεκτήματα: Το Nanonets OCR ενδέχεται να είναι λιγότερο εφαρμόσιμο σε ρυθμίσεις άγριας φύσης λόγω των ιδιαίτερα συγκεκριμένων και προσαρμοσμένων μοντέλων
Πότε πρέπει να χρησιμοποιήσετε: Εάν οι εταιρείες απαιτούν OCR για έναν συγκεκριμένο τύπο δεδομένων όπως τιμολόγια, τα Nanonets μπορεί να είναι μια φιλική προς το κόστος και εξαιρετικά ακριβής επιλογή.

Μπορείς να δοκιμάστε το Nanonets Online OCR εδώ.

Κοινά ζητήματα με το Cloud Vision

Σε αυτήν την τελευταία ενότητα, στοχεύουμε να εξετάσουμε μερικές ερωτήσεις από το Stackoverflow σχετικά με τη σάρωση εγγράφων και το OCR

Αναγνώριση εγγράφων χρησιμοποιώντας νευρωνικά δίκτυα

Σύνδεσμος: https://stackoverflow.com/questions/63844251/how-to-detect-and-recognize-information-on-documents-using-neural-networks/63844363#63844363

Αυτή είναι η ακριβής χρήση του Google OCR! Ακολουθήστε τα παραπάνω βήματα για σάρωση εγγράφων και εκτέλεση ανάκτησης κειμένου.

Παίρνοντας τις πιο σημαντικές λεπτομέρειες μετά το OCR

Σύνδεσμος: https://stackoverflow.com/questions/64621684/how-to-parse-name-phone-number-email-from-name-card-after-using-google-cloud-vi

Η ιδέα της ανάλυσης του πιο ουσιαστικού περιεχομένου σε οποιοδήποτε έγγραφο ονομάζεται επεξεργασία φυσικής γλώσσας. Δεδομένου ότι κάθε έγγραφο περιέχει τέτοιες πληροφορίες σε διαφορετικές μορφές, συνιστάται να υιοθετήσετε ορισμένες προσεγγίσεις ML για να το κάνετε. Φυσικά, εάν όλες οι κάρτες έχουν την ίδια μορφή, θα πρέπει να λειτουργούν και μέθοδοι που βασίζονται σε κανόνες για την ανάκτηση κειμένων με συγκεκριμένους βασικούς χαρακτήρες (π.χ. εάν περιέχει @ είναι email).

Μπορεί να εκτελεστεί εκτός σύνδεσης;

Σύνδεσμος: https://stackoverflow.com/questions/63315520/google-cloud-vision-api-can-it-run-offline

Δυστυχώς όχι. Το API καλεί το Google Cloud OCR από απόσταση και δεν μπορείτε να εργαστείτε εκτός σύνδεσης καθώς το API κοστίζει χρήματα.

Μπορεί να ανιχνεύσει εάν ένα κείμενο είναι με έντονους ή πλάγιους χαρακτήρες;

Σύνδεσμος: https://stackoverflow.com/questions/62947592/does-google-cloud-vision-api-detect-formatting-in-ocred-text-like-bold-italics/63098644#63098644

Όχι. Το Google OCR πιθανότατα θα ανιχνεύσει το περιεχόμενο κειμένου ακόμα και όταν είναι με έντονους ή πλάγιους χαρακτήρες, αλλά το μοντέλο OCR δεν έχει σχεδιαστεί για να κατανοεί τους τύπους γραμματοσειρών.

Ενημέρωση: Προστέθηκαν περισσότερες πληροφορίες βάσει ερωτημάτων από αναγνώστες.

Σφραγίδα ώρας: Ιούνιος 20, 2022

Σφραγίδα ώρας: 26 Ιανουαρίου 2023