Μετατροπή Σκαναρισμένων PDF αρχείων σε κείμενο με το Google OCR
31 Οκτωβρίου 2008 από M@ri@nn@Το Google ανάκοινωσε χτες στο επίσημο blog του ότι θα κάνει πλέον index σκαναρισμένα pdf αρχεία μεταρέποντας τις εικόνες σε κείμενο με τη χρήση OCR (Optical Character Recognition). Σύμφωνα με το Google με χρήση της συγκεκριμένης τεχνολογίας θα μετατρέπουν μια εικόνα (από χίλιες λέξεις) σε χίλιες λέξεις που θα μπορούν να γίνουν index και να βρεθούν από τους χρήστες αναζητώντας πολύτιμα αρχεία:
“This Optical Character Recognition (OCR) technology lets us convert a picture (of a thousand words) into a thousand words — words that can be searched and indexed, so that these valuable documents are more easily found.“
Ένα παράδειγμα ενός σκαναρισμένου pdf αρχείου και η μετατροπή του σε html κείμενο από το Google.

Με αυτό το τρόπο αμέτρητα νέα έγγραφα θα είναι πλέον στη διάθεση των χρηστών. Αναμένουμε λοιπόν να δούμε περισσότερα αποτελέσματα τις επόμενες μέρες.Το Google συνεχίζει να μας εκπλήσσει ευχάριστα σε μια προσπάθεια να κάνει την ταξινόμηση ακόμη πιο ακριβή.


Οκτωβρίου 31st, 2008 at 17:12
Η Google δεν σταματάει να μας εκπλήζει !
Οκτωβρίου 31st, 2008 at 17:12
Κι έτσι θα μπορεί κάποιος να κάνει ένα σκαναρισμένο αρχείο σε έγγραφο κειμένου.
Ανεβάσει το αρχείο .pdf στο Ίντερνετ, δημιουργεί ένα σύνδεσμο προς αυτό, περιμένει μέχρι το Google να το βάλει στo index, μόλις γίνει αυτό το αναζήτας στο ´Ιντερνετ και μετά το ανόιγεις σαν HTML. Τέλος κάνεις ένα Copy-Paste.
Μπα μεγάλη διαδικασία… Προτιμώ να κατεβάσω ένα πρόγραμμα για αυτήν την δουλειά
Νοέμβριου 1st, 2008 at 13:33
Δε ξερω αν αυτο ειναι καλο η κακο! Πρεπει να υπαρχει η δυνατοτητα να αποτρεπεις το google απο το να διαβαζει τα pdf σου. Μπορει να εχεις μεσα πραγματα που δεν θελεις η δεν πρεπει να διαβαζονται με ocr ! πχ μπορει να εχεις ανεβασει μια πολυσελιδη προσφορα για εναν πελατη για δουλεια, και να του εχεις δωσει λινκ να το δει επειδη ειναι πολυ μεγαλο για να το στειλεις με email. Γιατι να μπορει να διαβασει το google τη προσφορα σου και να εκθεσεις παγκοσμιως την “οικονομικη σου πολιτικη”, η οποια μπορει να ειναι εμπιστευτικη?
Νοέμβριου 1st, 2008 at 17:50
Συμφωνώ με αυτό. Μάλλον θα πρέπει να μπορεί κάποιος να κάνει κάποια αρχεία “exclude” από το OCR. Έτσι θα μπορεί θεωρητικά να τα προστατέψει.
Νοέμβριου 1st, 2008 at 21:50
Ξεχασα επισης να προσθέσω ενα ακόμη μειονεκτημα που μπορει να εχει μια διαδικασια ocr και πραγματικα αν δεν εχουν βρει μια λυση για αυτο θα το καταλαβετε κι εσεις πολυ συντομα! Εχει λοιπον να κανει με την ορθότητα του “διαβάσματος”¨του σκαναρισμενου κειμενου. Έχοντας χρησιμοποιήσει προγράμματα ocr εχω ανακαλυψει πως άν και σκαναρισμένα σε πολυ καλη αναλυση και απο καθαρά πρωτότυπα ( ενν. χωρις μουτζουρες η σκουπιδακια) και με αρκετα ευκολοδιαβαστες γραμματοσειρες, τα προγραμματα αυτα περνούν κάποια γράμματα για άλλα η δεν διαβαζουν καθολου καποιες λεξεις η σημαια στιξης. Παράδειγμα, το γράμμα “άλφα” το βλεπει “ομικρον”, το “ξι” για “3″ και λοιπα. Για να μη μιλησουμε για καποια γραμματοσειρα με πατουρες (ουριτσες)η και πιο καλλιγραφικες.(Βεβαια δε γνωριζω αν το google θα διαβαζει και ελληνικους χαρακτηρες και οχι μονο λατινικους, παντως λάθη κάνει και σε αλλες γλώσσες!)
!
Οποτε σε αυτη τη περιπτωση ή θα διαβαζουμε κειμενα που μπορει και να μη βγαζουνε νοημα (η να εχουν λάθος νοημα, πολλα ορθογραφικα και αλλα προβληματα που να δημιουργουν ενα χαος στον αναγνωστη) ή το google θα πρεπει να εχει ηδη προσλάβει διορθωτές
Πάντως ειναι πολύ ενδιαφέρον να δουμε την αντιμετωπιση που θα εχουν αυτα τα αρχεια και το περιεχομενο τους και αν θα πιάσει αυτο το καινουριο κολπο! Τελικα το google σε λιγο μονο καφε δε θα μας κανει!
Νοέμβριου 1st, 2008 at 21:53
Νομίζω Μαριάννα ότι σε αυτό δεν θα υπάρχει πρόβλημα, θα βρουν ή έχουν ήδη βρει τρόπο ώστε να διαβάζουμε το σωστό κείμενο μετά την μετατροπή. Αν και οι χρήστες κάνοντας μια αναζήτηση και κλικάροντας πάνω στο pdf τους εμφανίζει το σκαναρισμένο αρχείο και απλά σου έχει την επιλογή να το δεις και σαν hmtl, πχ: repairing aluminum wiring