Μετατροπή Σκαναρισμένων PDF αρχείων σε κείμενο με το Google OCR
31 Οκτωβρίου 2008 από GeorgiaΤο Google ανάκοινωσε χτες στο επίσημο blog του ότι θα κάνει πλέον index σκαναρισμένα pdf αρχεία μεταρέποντας τις εικόνες σε κείμενο με τη χρήση OCR (Optical Character Recognition). Σύμφωνα με το Google με χρήση της συγκεκριμένης τεχνολογίας θα μετατρέπουν μια εικόνα (από χίλιες λέξεις) σε χίλιες λέξεις που θα μπορούν να γίνουν index και να βρεθούν από τους χρήστες αναζητώντας πολύτιμα αρχεία:
“This Optical Character Recognition (OCR) technology lets us convert a picture (of a thousand words) into a thousand words — words that can be searched and indexed, so that these valuable documents are more easily found.“
Ένα παράδειγμα ενός σκαναρισμένου pdf αρχείου και η μετατροπή του σε html κείμενο από το Google.

Με αυτό το τρόπο αμέτρητα νέα έγγραφα θα είναι πλέον στη διάθεση των χρηστών. Αναμένουμε λοιπόν να δούμε περισσότερα αποτελέσματα τις επόμενες μέρες.Το Google συνεχίζει να μας εκπλήσσει ευχάριστα σε μια προσπάθεια να κάνει την ταξινόμηση ακόμη πιο ακριβή.





Ένας 22χρονος, ο John Wu, πούλησε το “ηλικίας” 2 ετών blog του
To case study της UsableWeb φιγουράρει πλέον
Τα νέα laptops της Apple από εδώ και πέρα θα κατασκευάζονται μ ‘ένα εντελώς διαφορετικό τρόπο!





