Το Google ανάκοινωσε χτες στο επίσημο blog του ότι θα κάνει πλέον index σκαναρισμένα pdf αρχεία μεταρέποντας τις εικόνες σε κείμενο με τη χρήση OCR (Optical Character Recognition). Σύμφωνα με το Google με χρήση της συγκεκριμένης τεχνολογίας θα μετατρέπουν μια εικόνα (από χίλιες λέξεις) σε χίλιες λέξεις που θα μπορούν να γίνουν index και να βρεθούν από τους χρήστες αναζητώντας πολύτιμα αρχεία:

This Optical Character Recognition (OCR) technology lets us convert a picture (of a thousand words) into a thousand words — words that can be searched and indexed, so that these valuable documents are more easily found.

Ένα παράδειγμα ενός σκαναρισμένου pdf αρχείου και η μετατροπή του σε html κείμενο από το Google.

Google Using OCR To Index Scanned Documents

Με αυτό το τρόπο αμέτρητα νέα έγγραφα θα είναι πλέον στη διάθεση των χρηστών. Αναμένουμε λοιπόν να δούμε περισσότερα αποτελέσματα τις επόμενες μέρες.Το Google συνεχίζει να μας εκπλήσσει ευχάριστα σε μια προσπάθεια να κάνει την ταξινόμηση ακόμη πιο ακριβή.