Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Μεταδεδομένα βιβλίου και ανάκτηση εξωφύλλου με χρήση OCR και API Βιβλίων Google

= Προηγούμενο

Επόμενο μήνυμα =>

Ετικέτες: API, Google, Knime, Χαμηλός κωδικός

Με το KNIME η εξαγωγή κρίσιμων τμημάτων πληροφοριών από εικόνες γίνεται τόσο εύκολη όσο το ABC.

σχόλια

By Ρομπέρτο Καντίλι, Data Scientist, KNIME & Lada Rudnitckaia, Data Scientist, KNIME

Εικόνα 1: Παραδείγματα ανακοινώσεων έκδοσης βιβλίων όπου μπορούν να εξαχθούν πληροφορίες χάρη στο OCR.

Τις περισσότερες φορές, τα ακατέργαστα δεδομένα που χρειαζόμαστε για το έργο επιστήμης δεδομένων δεν είναι οργανωμένα σε έναν τακτοποιημένο, καλά δομημένο και διορατικό πίνακα. Αντίθετα, μερικές φορές αυτό αποθηκεύεται ως κείμενο σε ένα σαρωμένο έγγραφο. Οι λέξεις στο έγγραφο πρέπει στη συνέχεια να εξαχθούν μία προς μία για να σχηματιστεί ένα κελί δεδομένων μορφοποιημένου κειμένου. Αυτή είναι η εργασία που εκτελείται από το Optical Character Recognition (OCR).

Καθώς διαβάζετε τις λέξεις αυτού του άρθρου, είτε πρόκειται για κείμενο είτε για αριθμό, τα μάτια σας μπορούν να τις επεξεργαστούν αναγνωρίζοντας ανοιχτά και σκοτεινά μοτίβα που συνθέτουν χαρακτήρες (π.χ. γράμματα, αριθμούς, σημεία στίξης κ.λπ.). Στη συνέχεια, ο εγκέφαλός σας αποκωδικοποιεί τους διαφορετικούς συνδυασμούς χαρακτήρων και μοτίβων για να κατανοήσει το νόημα των λέξεων. Υπό αυτή την έννοια, τα μάτια και ο εγκέφαλός σας είναι η πιο εξελιγμένη και εκλεπτυσμένη μηχανή OCR που μπορείτε να φανταστείτε, και λειτουργούν χωρίς καν να το προσέξετε.

Οι υπολογιστές έχουν παρόμοιες δυνατότητες, αλλά πρέπει να αντιμετωπίσουν έναν κρίσιμο περιορισμό: την απουσία ματιών. Εάν θέλουμε οι υπολογιστές να βλέπουν και να διαβάζουν ένα φυσικό έγγραφο κειμένου, πρέπει να εισάγουμε ένα αρχείο γραφικών που δημιουργείται είτε με οπτικό σαρωτή είτε με ψηφιακή κάμερα. Όσον αφορά τους υπολογιστές, δεν υπάρχει διαφορά μεταξύ ενός εγγράφου που αποκτήθηκε με καμία από αυτές τις επιλογές και μιας φωτογραφίας του Πύργου του Άιφελ: και τα δύο θεωρούνται ως ανούσιες συλλογές έγχρωμων τετραγώνων —γνωστά και ως εικονοστοιχεία— που αποτελούν οποιαδήποτε γραφική εικόνα υπολογιστή. Ως εκ τούτου, το τελευταίο είναι απλώς μια εικόνα του κειμένου που σκοπεύουμε να διαβάσουμε και όχι του ίδιου του κειμένου.

Αυτό είναι όπου το OCR μπορεί να είναι χρήσιμο. Αυτή η ισχυρή τεχνολογία είναι σε θέση να εξάγει έντυπα, δακτυλογραφημένα ή χειρόγραφα δεδομένα, είτε είναι τιμολόγια, επαγγελματικές κάρτες, νομικά κείμενα ή εκτυπώσεις, και να τα μετατρέπει σε ψηφιακή μορφή με δυνατότητα αναζήτησης και επεξεργασίας. Παρόλο που για πολλά χρόνια το OCR θεωρείται ως μια ακριβή υπηρεσία, την οποία μόνο λίγες μεγάλες εταιρείες μπορούσαν να αντέξουν οικονομικά, από τα μέσα της δεκαετίας του 2000 και μετά, το κόστος της μειώθηκε σταδιακά ενώ η ακρίβεια και οι δυνατότητές της έχουν εξελιχθεί για να υποστηρίζει σήμερα αρκετές εκατοντάδες γλώσσες και κωδικοποίηση χαρακτήρων , από UTF-8 έως GB2312.

Το πλεονέκτημα της δυνατότητας αναζήτησης και εξαγωγής κειμένου από εικόνες μπορεί να είναι ανεκτίμητο. Για παράδειγμα, στον νομικό ή λογιστικό κλάδο, μπορεί να αποτελέσει σημαντική εξοικονόμηση κόστους και χρόνου, καθώς επιτρέπει την ανάκτηση τμημάτων κειμένου ή αριθμών σε άρθρα ή οικονομικές καταστάσεις μέσα σε λίγα δευτερόλεπτα. Η σύγκριση αυτής της διαδικασίας με το κόστος της πρόσληψης μιας ομάδας ατόμων για να διαβάσει χιλιάδες έγγραφα μόνο και μόνο για να βρει μια μοναδική, κρίσιμη πληροφορία δίνει μια ιδέα για το πώς η OCR μπορεί να ωφελήσει τις επιχειρήσεις.

Πιο πρόσφατα, η τεχνολογία OCR υφίσταται μια αθόρυβη επανάσταση καθώς οι πάροχοι αυτής της υπηρεσίας τη συνδυάζουν με AI. Ως αποτέλεσμα αυτού, όχι μόνο συλλέγονται δεδομένα, γίνονται αναζητήσιμα και επεξεργάσιμα, αλλά το σύστημα τεχνητής νοημοσύνης καταλαβαίνει στην πραγματικότητα το περιεχόμενο για την εκτέλεση συγκεκριμένων εργασιών. Για παράδειγμα, μετά την OCR ενός κειμένου, η τεχνητή νοημοσύνη μπορεί να παρέχει τη μετάφρασή του χρησιμοποιώντας νευρωνική μηχανική μετάφραση με ελάχιστη ανθρώπινη παρέμβαση. Ένα άλλο κλασικό παράδειγμα προέρχεται από την ενότητα ελέγχου, όπου τα δόλια τιμολόγια μπορούν να αναγνωριστούν μετά από OCR του περιεχομένου του εγγράφου pdf, χρησιμοποιώντας τεχνικές ανίχνευσης ακραίων τιμών. Και ούτω καθεξής. Αυτή η συνέργεια συνδυάζει τα καλύτερα και των δύο κόσμων για τον εξορθολογισμό των διαδικασιών και την αύξηση της παραγωγικότητας για τις επιχειρήσεις και τους πελάτες.

Στην περίπτωση χρήσης που περιγράφεται σε αυτό το άρθρο, το OCR χρησιμοποιείται για την αναγνώριση ενός βιβλίου και, στη συνέχεια, για την ανάκτηση των μεταδεδομένων του βιβλίου από το αποθετήριο των Βιβλίων Google.

Πιο συγκεκριμένα, θα ρίξουμε μια ματιά στα:

Πώς μπορεί να διεξαχθεί το OCR σε Πλατφόρμα ανάλυσης KNIME.
Πώς μπορούμε να ενσωματώσουμε τον επεξεργαστή OCR του KNIME και το API Βιβλίων Google για την περίπτωση χρήσης της ανάκτησης μεταδεδομένων και εξωφύλλου βιβλίου.

OCR στην πλατφόρμα KNIME Analytics

Το OCR μιας εικόνας που περιέχει κείμενο στο KNIME είναι μια πολύ εύκολη δουλειά. Το μόνο που χρειάζεται είναι να εγκαταστήσετε το Επεξεργασία εικόνας KNIME — Ενσωμάτωση Tess4J επέκταση στο τοπικό σας Πλατφόρμα ανάλυσης KNIMEκαι για να σύρετε και αποθέσετε το Tess4J κόμβο στον επεξεργαστή ροής εργασίας σας.

Ο κόμβος Tess4J ενσωματώνει το Βιβλιοθήκη Tesseract OCR, ένας από τους πιο ευρέως χρησιμοποιούμενους και ακριβείς διαθέσιμους επεξεργαστές OCR ανοιχτού κώδικα. Το Tesseract αναπτύχθηκε αρχικά ως ιδιόκτητο λογισμικό από την Hewlett-Packard Laboratories στις αρχές της δεκαετίας του 1990 και αργότερα έγινε ανοιχτού κώδικα το 2005. Έκτοτε η Google υιοθέτησε το έργο και υποστήριξε την ανάπτυξή του.

Ο κόμβος Tess4J τρέχει στο Tesseract 3, το οποίο λειτουργεί με την αναγνώριση μοτίβων χαρακτήρων σε μια διαδικασία δύο περασμάτων.

Στο πρώτο πέρασμα, ο κινητήρας επιχειρεί να αναγνωρίσει κάθε μεμονωμένο χαρακτήρα. Στη συνέχεια, μεταβιβάζει τους χαρακτήρες που αναγνωρίστηκαν με υψηλή εμπιστοσύνη στο πρώτο πέρασμα σε έναν προσαρμοστικό ταξινομητή ως δεδομένα εκπαίδευσης. Με αυτόν τον τρόπο, ο προσαρμοστικός ταξινομητής έχει την ευκαιρία να μάθει πώς να αναγνωρίζει το επόμενο κείμενο με μεγαλύτερη ακρίβεια.
Ωστόσο, μπορεί να συμβεί ο προσαρμοστικός ταξινομητής να μάθει χρήσιμες πληροφορίες πολύ αργά για να συνεισφέρει ουσιαστικά. Για να λύσει αυτό το ζήτημα και να αξιοποιήσει τη γνώση που αποκτά ο προσαρμοστικός ταξινομητής, ο κινητήρας εκτελεί ένα δεύτερο πέρασμα όπου αναγνωρίζονται ξανά χαρακτήρες που δεν αναγνωρίστηκαν αρκετά καλά [1].

Το Tesseract 3 χειρίζεται οποιουσδήποτε χαρακτήρες Unicode (κωδικοποιημένοι με UTF-8) και μπορεί να επεξεργαστεί κείμενο σε διάφορες γλώσσες και διάταξη γραφής: από αριστερά προς τα δεξιά (π.χ. αγγλικά, ιταλικά, ρωσικά κ.λπ.), από δεξιά προς τα αριστερά (π.χ. Αραβικά, Εβραϊκά, Ουρντού κ.λπ.) και από πάνω προς τα κάτω (π.χ. Ιαπωνικά, Κορεάτικα, Κινέζικα κ.λπ.) [2].

Αποποίηση ευθυνών. Οι χρήστες Mac δεν μπορούν αυτήν τη στιγμή να χρησιμοποιήσουν τον κόμβο Tess4J. Οι προγραμματιστές KNIME εργάζονται για να αποκαταστήσουν την ομαλή λειτουργία.

Περίπτωση χρήσης: Ανάκτηση μεταδεδομένων και εξωφύλλου βιβλίου

Τώρα που έχουμε αποκτήσει μια βασική κατανόηση του τρόπου λειτουργίας του OCR στην πλατφόρμα KNIME Analytics, ας ρίξουμε μια ματιά σε μια ενδιαφέρουσα περίπτωση χρήσης. Ας υποθέσουμε ότι έχουμε συλλέξει εικόνες που απεικονίζουν τις σημειώσεις έκδοσης πολλών βιβλίων και με αυτές τις πληροφορίες θέλουμε να ανακτήσουμε μεταδεδομένα και εξώφυλλα βιβλίων. Τα ανακτημένα δεδομένα θα μπορούσαν στη συνέχεια να χρησιμοποιηθούν, για παράδειγμα, για τη δημιουργία μιας προσαρμοσμένης ψηφιακής βιβλιοθήκης και την εκπαίδευση ενός συστήματος συστάσεων βιβλίων.

Η ροή εργασίας στο Σχήμα 2 καλύπτει όλα τα βήματα: από την ανάγνωση εικόνων, το OCR, την επεξεργασία κειμένου και την εξαγωγή αναφοράς ISBN, έως τα μεταδεδομένα βιβλίων και την ανάκτηση και οπτικοποίηση εξωφύλλου. Ας ρίξουμε μια ματιά στα διάφορα βήματα λεπτομερώς.

Εικόνα 2: Αυτό ροής εργασίας εκτελεί μια απλή εργασία OCR σε ειδοποιήσεις έκδοσης βιβλίων και ανακτά μεταδεδομένα και εξώφυλλο βιβλίων χρησιμοποιώντας το API των Βιβλίων Google.

1 — Διαβάστε δεδομένα εικόνας

Το πρώτο βήμα είναι να εισαγάγετε τις εικόνες ειδοποίησης της έκδοσης βιβλίου στο KNIME. Η ειδοποίηση έκδοσης είναι η σελίδα ενός βιβλίου που περιέχει πληροφορίες για την τρέχουσα έκδοση, όπως ειδοποίηση πνευματικών δικαιωμάτων, νομικές ειδοποιήσεις, πληροφορίες δημοσίευσης, ιστορικό εκτύπωσης και κωδικό ISBN (Εικόνα 1).

Το metanode "Read image data" το φροντίζει με εύκολο και προγραμματικό τρόπο (Εικόνα 3). Προσδιορίζουμε τη θέση όπου αποθηκεύονται τα αρχεία εικόνας με το Λίστα αρχείων/φακέλων κόμβο και χρησιμοποιήστε το Αναγνώστης εικόνων (Πίνακας) κόμβο για να εισάγετε με χάρη τις εικόνες. Στον κόμβο Image Reader (Πίνακας), χρειάζεται μόνο να καθορίσουμε τη "Στήλη εισαγωγής αρχείου", δηλαδή τη στήλη με τις διαδρομές προς τα αρχεία όπου είναι αποθηκευμένες οι εικόνες μας. Όλες οι άλλες διαμορφώσεις μπορούν να παραμείνουν ως προεπιλεγμένες.

Το Image Reader (Πίνακας) είναι μέρος του Επεξεργασία εικόνας KNINE επέκταση και, όπως και άλλοι κόμβοι σε αυτήν την επέκταση, προσφέρει μια διαδραστική προβολή που περιέχει την εικόνα και τα μεταδεδομένα της κάνοντας απλώς δεξί κλικ στον κόμβο, επιλέγοντας "Προβολή: Προβολή εικόνων" και κάνοντας διπλό κλικ σε οποιαδήποτε εικόνα στην προβολή πίνακα.

Σχήμα 3: Μέσα στο μετανόδιο "Read image data". Ο κόμβος Image Reader (Πίνακας) εισάγει εικόνες στη ροή εργασίας και μας επιτρέπει να τις εξερευνήσουμε διαδραστικά στην προβολή του.

2 — OCR

Αφού διαβάσουμε στα αρχεία εικόνας των ανακοινώσεων της έκδοσης του βιβλίου, μπορούμε να τις OCR.

Η διαμόρφωση του κόμβου Tess4J είναι πολύ απλή και απαιτεί μόνο μερικά κλικ (Εικόνα 4). Στο ρυθμίσεις καρτέλα, ο κόμβος προσφέρει τη δυνατότητα διόρθωσης οποιασδήποτε περιστροφής ή λοξής εικόνας επιλέγοντας το πλαίσιο "Deskew input images" στην ενότητα "Preprocessing" του διαλόγου διαμόρφωσης. Συνήθως συνιστάται να το κάνετε αυτό, καθώς τα αρχεία γραφικών ενδέχεται να μην είναι σωστά ευθυγραμμισμένα. Επιπλέον, ο κόμβος Tess4J παράγει αυτόματα μια δυαδική εικόνα πίσω από την κουκούλα.

Στη συνέχεια, επιλέγουμε το "Tessdata Path". Από προεπιλογή, αυτό έχει οριστεί σε "Χρήση εσωτερικού", το οποίο στη συνέχεια μας επιτρέπει να επιλέξουμε τη γλώσσα του κειμένου που θέλουμε να επεξεργαστούμε. Σε αυτήν τη διαμόρφωση, τα αγγλικά είναι η προεπιλεγμένη γλώσσα, αλλά ο κόμβος Tess4J υποστηρίζει άλλες φυσικές γλώσσες όπως τα δανικά, τα ιταλικά, τα ισπανικά, τα ρωσικά, τα ελληνικά, τα σλοβακικά, τα γερμανικά και τα γαλλικά. Αξίζει να αναφέρουμε ότι επιλέγοντας «Χρήση εξωτερικού», μπορούμε να επεκτείνουμε τις δυνατότητες του κόμβου Tess4J ώστε να συμπεριλάβουμε γλώσσες που δεν υποστηρίζονται εσωτερικά. Πράγματι, μπορούμε να επιλέξουμε τα δικά μας, εξωτερικά εκπαιδευμένα μοντέλα γλώσσας δεδομένων, προσδιορίζοντας τον κατάλογο όπου αποθηκεύονται. Επιλέγουμε «Χρήση εσωτερικού» αφού προτιμούμε να βασιζόμαστε στα εσωτερικά μοντέλα του Tess4J για τα αγγλικά μας έγγραφα.

Στην ενότητα "Διαμόρφωση αναγνώρισης", βρίσκουμε τις δύο πιο σημαντικές διαμορφώσεις της αναπτυσσόμενης λίστας, δηλαδή τη "Λειτουργία τμηματοποίησης σελίδας" και τη "Λειτουργία μηχανής OCR". Το πρώτο καθορίζει τον τρόπο τμηματοποίησης της σελίδας μας.

Στο Σχήμα 4, επιλέγουμε “Full Auto Pageseg”, το οποίο διασφαλίζει την πλήρως αυτόματη τμηματοποίηση σελίδων. Ανάλογα με τη συγκεκριμένη περίπτωση χρήσης, η επιλογή μιας άλλης λειτουργίας από τις 13 διαθέσιμες (π.χ. "Μονή στήλη" ή "Αραιαίο κείμενο") μπορεί να είναι η πιο κατάλληλη επιλογή.

Η δεύτερη ρύθμιση μας ζητά να επιλέξουμε τον κινητήρα OCR. Εδώ, επιλέγουμε «Μόνο Tesseract», που εξασφαλίζει την ταχύτερη εκτέλεση. Άλλες επιλογές περιλαμβάνουν το "Cube Only" - μια εναλλακτική λειτουργία αναγνώρισης για το Tesseract - η οποία είναι πιο αργή αλλά συχνά παράγει καλύτερα αποτελέσματα. ή «Tesseract And Cube», που συνδυάζει τα καλύτερα και των δύο κόσμων. Η επιλογή του ενός ή του άλλου κινητήρα εξαρτάται σε μεγάλο βαθμό από την ποιότητα της εικόνας και την πολυπλοκότητα του κειμένου που θέλουμε να επεξεργαστούμε.

Εκτός από τις βασικές ρυθμίσεις, ο κόμβος Tess4J προσφέρει ένα Προηγμένη διαμόρφωση καρτέλα όπου μπορούμε να ορίσουμε ένα σύνολο παραμέτρους ελέγχου. Αυτή η καρτέλα καθιστά τον κόμβο εξαιρετικά ευέλικτο και βοηθά τους έμπειρους χρήστες να προσαρμόσουν και να προσαρμόσουν με ακρίβεια τη μηχανή Tesseract OCR στις συγκεκριμένες ανάγκες τους. Μην ανησυχείτε, ωστόσο, στις περισσότερες περιπτώσεις οι βασικές διαμορφώσεις θα σας πάνε πολύ!

Εικόνα 4: Διάλογος διαμόρφωσης του κόμβου Tess4J.

Εκτός από την προσαρμογή των διαμορφώσεων του κόμβου Tess4J στην περίπτωση χρήσης, είναι καλή πρακτική η διεξοδική προεπεξεργασία των εισαγόμενων εικόνων, εάν χρειάζεται. Συγκεκριμένα, το Tesseract λειτουργεί καλύτερα όταν οι εικόνες είναι επαρκώς κλιμακωμένες έτσι ώστε ο αριθμός pixel του ύψους x των χαρακτήρων να είναι τουλάχιστον 20 pixel. οι εικόνες είναι σωστά ευθυγραμμισμένες και έχουν αρκετά υψηλή ανάλυση. και τυχόν σκοτεινά περιγράμματα αφαιρούνται ή μπορεί να παρερμηνευθούν ως χαρακτήρες [3]. ο Επεξεργασία εικόνας KNINE Η επέκταση περιλαμβάνει αρκετούς κόμβους για καθαρισμό εικόνας, χειρισμό και μετασχηματισμό, και πολλούς παραδείγματα ροών εργασίας μπορείτε να βρείτε στο KNIME Hub.

Η έξοδος του κόμβου Tess4J είναι ένας πίνακας που περιέχει το εξαγόμενο κείμενο ως τύπο δεδομένων συμβολοσειράς, και ως εκ τούτου μπορεί να γίνει αναζήτηση και επεξεργασία.

3 — Επεξεργασία κειμένου για εξαγωγή ISBN

Μόλις οι εικόνες υποβληθούν σε OCR, το κείμενο που περιέχουν μπορεί τελικά να προσπελαστεί και να ανακτηθούν χρήσιμες πληροφορίες.

Ειδικότερα, οι ανακοινώσεις έκδοσης συνήθως αναφέρουν τον κωδικό ISBN που έχει εκχωρηθεί στο βιβλίο. Ο κωδικός ISBN είναι ένας μοναδικός, 13ψήφιος μήκους (ήταν 10ψήφιος πολύ πριν από το 2007), αναγνωριστικό εμπορικού βιβλίου και ως εκ τούτου εκχωρείται σε κάθε ξεχωριστή έκδοση και παραλλαγή μιας έκδοσης. Η εξαγωγή του κωδικού ISBN μας επιτρέπει να αναφερόμαστε σε κάθε βιβλίο με σαφήνεια όταν θέλουμε να ανακτήσουμε μεταπληροφορίες. Για να το πετύχουμε αυτό, μπορούμε να βασιστούμε στους κόμβους που περιλαμβάνονται KNIME — Επεξεργασία κειμένου προέκταση, μερικά από τα οποία χρησιμοποιούνται στο μετανόδιο «εξαγωγής ISBN» (Εικόνα 5).

Στη μετάδοση "Καθαρισμός κειμένου", ξεκινάμε μετατρέποντας το κείμενο OCRed από τύπο δεδομένων συμβολοσειράς σε τύπο δεδομένων εγγράφου. Στη συνέχεια, μετατρέπουμε το κείμενο σε πεζά, αφαιρούμε σημεία στίξης, κενά κενά, παύλες και αντικαθιστούμε τα γράμματα "o" με "0" (μηδενικά) για να διορθώσουμε τους χαρακτήρες που δεν αναγνωρίζονται στους κωδικούς ISBN.

Εξάγουμε τους κωδικούς ISBN απομονώνοντας τους 13 χαρακτήρες που ακολουθούν τη συμβολοσειρά "isbn" και χρησιμοποιούμε το Μηχανή κανόνων κόμβος για να ελέγξετε εάν οι εξαγόμενοι χαρακτήρες δεν περιέχουν τιμές που λείπουν και έχουν αναμενόμενο μήκος 13 χαρακτήρων. Στη συνέχεια, εκμεταλλευόμαστε την ικανότητα αυτού του κόμβου να προσαρτήσει μια στήλη που χαρακτηρίζει την επιτυχημένη εξαγωγή ως 1 και την ανεπιτυχή εξαγωγή ως 0.

Εικόνα 5: Μέσα στο μετανόδιο «εξαγωγής ISBN».

4 — Ανάκτηση και Οπτικοποίηση Μεταπληροφοριών

Στο τελευταίο βήμα, χρησιμοποιούμε τους κωδικούς ISBN για να ανακτήσουμε μεταπληροφορίες βιβλίων και εξώφυλλα από το API Βιβλίων Google. Η μετάδοση «Λήψη μεταδεδομένων βιβλίων και εξώφυλλα» φροντίζει γι' αυτό (Εικόνα 6). Ωστόσο, η ανάκτηση μεταδεδομένων είναι δυνατή μόνο εάν οι κωδικοί ISBN εξήχθησαν με επιτυχία. Για να διασφαλίσουμε τον ομαλό χειρισμό της επιτυχημένης/αποτυχημένης εξαγωγής ISBN, συμπεριλαμβάνουμε αρκετούς κόμβους ελέγχου ροής εργασίας. Μπορείτε να βρείτε μια διορατική επισκόπηση στο Cheat Sheet: Έλεγχος και ενορχήστρωση με την πλατφόρμα KNIME Analytics.

Εάν ο κωδικός ISBN εξαχθεί με επιτυχία, χρησιμοποιούμε το ΛΗΨΗ Αίτησης στον κόμβο για να στείλετε ένα αίτημα GET API Βιβλίων Google, μια δωρεάν υπηρεσία ιστού RESTful που υποστηρίζεται από την Google που επιτρέπει την ανάκτηση πολλών μεταπληροφοριών όπως τίτλος βιβλίου, υπότιτλος, συγγραφείς, ημερομηνία δημοσίευσης, περιγραφή, πλήθος σελίδων, γλώσσα, μέση βαθμολογία, μέτρηση βαθμολογιών και εξώφυλλο. Επιπλέον, αυτή η υπηρεσία web RESTful δεν απαιτεί τη δημιουργία λογαριασμού προγραμματιστή. Η διαμόρφωση του κόμβου αιτήματος GET είναι πολύ απλή. Απαιτεί την απλή επιλογή μιας ουσιαστικής "στήλης URL" που κατασκευάζουμε στο Χειρισμός Χορδών κόμβος συνδέοντας το URL API Βιβλίων Google με τον κωδικό ISBN κάθε προκήρυξης έκδοσης. Όλες οι άλλες διαμορφώσεις μπορούν να παραμείνουν ως προεπιλεγμένες.

Στη συνέχεια αναλύουμε την έξοδο JSON του κόμβου GET Request χρησιμοποιώντας το Διαδρομή JSON κόμβος και ενώστε τις εξαγόμενες μεταπληροφορίες με εξώφυλλα βιβλίων πριν συλλέξετε τα τελικά αποτελέσματα.

Τέλος, δημιουργούμε το στοιχείο «Οπτικοποίηση μεταδεδομένων και εξωφύλλων βιβλίων» για μια καθαρή απεικόνιση των ανακτημένων μεταπληροφοριών και εξωφύλλων βιβλίων.

Στο εξάρτημα τυλίγουμε το Διαδραστικό γραφικό στοιχείο φίλτρου ρυθμιστικού εύρους κόμβος για να ενεργοποιήσετε το δυναμικό φιλτράρισμα βιβλίων με βάση το μέσο πλήθος αξιολογήσεων (0-τρομερό, 5-φανταστικό) που εκχωρήθηκε από τους αναγνώστες στα Βιβλία Google και το Προβολή πλακιδίων κόμβο για την εμφάνιση των αποτελεσμάτων.

Στη συνέχεια, το στοιχείο αποκτά μια προβολή που περιλαμβάνει το ρυθμιστικό για την επιλογή των βιβλίων με βάση τη μέση βαθμολογία και έναν πίνακα που φιλοξενεί τα εξώφυλλα και την περιγραφή των επιλεγμένων βιβλίων. Για αυτό το άρθρο, επιλέξαμε να εξαγάγουμε βιβλία με βαθμολογίες μεταξύ 3 και 5 και τα αποτελέσματα εμφανίζονται στην Εικόνα 6.

Εικόνα 6: Ανακτήθηκαν μεταπληροφορίες και εξώφυλλα βιβλίων για βιβλία με βαθμολογίες υψηλότερες από 3.

Χαρακτηριστικά

Σε αυτό το άρθρο, παρουσιάσαμε πώς μπορεί να διεξαχθεί εύκολα το OCR στην πλατφόρμα KNIME Analytics. Για το σκοπό αυτό, παρουσιάσαμε τον κόμβο Tess4J και δώσαμε λεπτομέρειες σχετικά με τη λειτουργία της βιβλιοθήκης OCR Tesseract στην οποία βασίζεται αυτός ο κόμβος.

Επιπλέον, δείξαμε μια απλή περίπτωση χρήσης όπου το OCR μπορεί να είναι ένας ισχυρός και χρήσιμος πόρος. Εξάγαμε πληροφορίες από ειδοποιήσεις έκδοσης βιβλίων -ιδιαίτερα, τους κωδικούς ISBN- για να στείλουμε ένα αίτημα GET στην υπηρεσία web RESTful των Βιβλίων Google. Αυτό μας επέτρεψε να ανακτήσουμε μεταδεδομένα και εξώφυλλα βιβλίων.

Με το KNIME, η λήψη εικόνων OCR για την εξαγωγή κρίσιμων τμημάτων πληροφοριών γίνεται τόσο εύκολη όσο το ABC. Δοκιμάστε το μόνοι σας! Ποια είναι η περίπτωση χρήσης OCR σας;

Η ροή εργασίας που παρουσιάζεται σε αυτό το άρθρο μπορεί να ληφθεί δωρεάν από το KNIME Hub.

αναφορές

[1] Smith, R. (2007). "Μια επισκόπηση του κινητήρα Tesseract OCR". Ένατο Διεθνές Συνέδριο για την Ανάλυση και την Αναγνώριση Εγγράφων (ICDAR 2007), σελ. 629–633. Προσβάσιμο σε:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/33418.pdf
[Ανακτήθηκε: 15.07.2021].

[2] Έργο Tesseract OCR στο GitHub — https://github.com/tesseract-ocr/tesseract

[3] Τεκμηρίωση Tesseract OCR στο GitHub — https://tesseract-ocr.github.io/tessdoc/

Ρομπέρτο Καντίλι είναι επιστήμονας δεδομένων στο KNIME, λάτρης του NLP και λάτρης της ιστορίας. Editor για Low Code for Advanced Data Science.

Lada Rudnitckaia είναι επιστήμονας δεδομένων στο KNIME.

Όπως πρωτοδημοσιεύτηκε στο Χαμηλός κώδικας για προηγμένη επιστήμη δεδομένων.

Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.

Συγγενεύων: