<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Σχόλια στο Μετατροπή Σκαναρισμένων PDF αρχείων σε κείμενο με το Google OCR</title>
	<atom:link href="http://www.techtalk.gr/473/%ce%bc%ce%b5%cf%84%ce%b1%cf%84%cf%81%ce%bf%cf%80%ce%ae-%cf%83%ce%ba%ce%b1%ce%bd%ce%b1%cf%81%ce%b9%cf%83%ce%bc%ce%ad%ce%bd%cf%89%ce%bd-pdf-%ce%b1%cf%81%cf%87%ce%b5%ce%af%cf%89%ce%bd-%cf%83%ce%b5-%ce%ba/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.techtalk.gr/473/%ce%bc%ce%b5%cf%84%ce%b1%cf%84%cf%81%ce%bf%cf%80%ce%ae-%cf%83%ce%ba%ce%b1%ce%bd%ce%b1%cf%81%ce%b9%cf%83%ce%bc%ce%ad%ce%bd%cf%89%ce%bd-pdf-%ce%b1%cf%81%cf%87%ce%b5%ce%af%cf%89%ce%bd-%cf%83%ce%b5-%ce%ba/</link>
	<description>Simply the best talk-about-tech blog!</description>
	<lastBuildDate>Fri, 16 Sep 2011 23:52:01 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
	<item>
		<title>Από: Georgia</title>
		<link>http://www.techtalk.gr/473/%ce%bc%ce%b5%cf%84%ce%b1%cf%84%cf%81%ce%bf%cf%80%ce%ae-%cf%83%ce%ba%ce%b1%ce%bd%ce%b1%cf%81%ce%b9%cf%83%ce%bc%ce%ad%ce%bd%cf%89%ce%bd-pdf-%ce%b1%cf%81%cf%87%ce%b5%ce%af%cf%89%ce%bd-%cf%83%ce%b5-%ce%ba/comment-page-1/#comment-14924</link>
		<dc:creator>Georgia</dc:creator>
		<pubDate>Sat, 01 Nov 2008 19:53:27 +0000</pubDate>
		<guid isPermaLink="false">http://www.techtalk.gr/?p=473#comment-14924</guid>
		<description>Νομίζω Μαριάννα ότι σε αυτό δεν θα υπάρχει πρόβλημα, θα βρουν ή έχουν ήδη βρει τρόπο ώστε να διαβάζουμε το σωστό κείμενο μετά την μετατροπή. Αν και οι χρήστες κάνοντας μια αναζήτηση και κλικάροντας πάνω στο pdf τους εμφανίζει το σκαναρισμένο αρχείο και απλά σου έχει την επιλογή να το δεις και σαν hmtl, πχ:&lt;a href=&quot;http://www.google.com/search?hl=en&amp;q=repairing+aluminum+wiring&amp;aq=5&amp;oq=repairing+al&quot; rel=&quot;nofollow&quot;&gt; repairing aluminum wiring&lt;/a&gt;</description>
		<content:encoded><![CDATA[<p>Νομίζω Μαριάννα ότι σε αυτό δεν θα υπάρχει πρόβλημα, θα βρουν ή έχουν ήδη βρει τρόπο ώστε να διαβάζουμε το σωστό κείμενο μετά την μετατροπή. Αν και οι χρήστες κάνοντας μια αναζήτηση και κλικάροντας πάνω στο pdf τους εμφανίζει το σκαναρισμένο αρχείο και απλά σου έχει την επιλογή να το δεις και σαν hmtl, πχ:<a href="http://www.google.com/search?hl=en&#038;q=repairing+aluminum+wiring&#038;aq=5&#038;oq=repairing+al" rel="nofollow"> repairing aluminum wiring</a></p>
]]></content:encoded>
	</item>
	<item>
		<title>Από: MaRiaNNa P.</title>
		<link>http://www.techtalk.gr/473/%ce%bc%ce%b5%cf%84%ce%b1%cf%84%cf%81%ce%bf%cf%80%ce%ae-%cf%83%ce%ba%ce%b1%ce%bd%ce%b1%cf%81%ce%b9%cf%83%ce%bc%ce%ad%ce%bd%cf%89%ce%bd-pdf-%ce%b1%cf%81%cf%87%ce%b5%ce%af%cf%89%ce%bd-%cf%83%ce%b5-%ce%ba/comment-page-1/#comment-14922</link>
		<dc:creator>MaRiaNNa P.</dc:creator>
		<pubDate>Sat, 01 Nov 2008 19:50:24 +0000</pubDate>
		<guid isPermaLink="false">http://www.techtalk.gr/?p=473#comment-14922</guid>
		<description>Ξεχασα επισης να προσθέσω ενα ακόμη μειονεκτημα που μπορει να εχει μια διαδικασια ocr και πραγματικα αν δεν εχουν βρει μια λυση για αυτο θα το καταλαβετε κι εσεις πολυ συντομα! Εχει λοιπον να κανει με την ορθότητα του “διαβάσματος”¨του σκαναρισμενου κειμενου. Έχοντας χρησιμοποιήσει προγράμματα ocr εχω ανακαλυψει πως άν και σκαναρισμένα σε πολυ καλη αναλυση και απο καθαρά πρωτότυπα ( ενν. χωρις μουτζουρες η σκουπιδακια) και με αρκετα ευκολοδιαβαστες γραμματοσειρες, τα προγραμματα αυτα περνούν κάποια γράμματα για άλλα η δεν διαβαζουν καθολου καποιες λεξεις η σημαια στιξης. Παράδειγμα, το γράμμα “άλφα” το βλεπει “ομικρον”, το “ξι” για “3″ και λοιπα. Για να μη μιλησουμε για καποια γραμματοσειρα με πατουρες (ουριτσες)η και πιο καλλιγραφικες.(Βεβαια δε γνωριζω αν το google θα διαβαζει και ελληνικους χαρακτηρες και οχι μονο λατινικους, παντως λάθη κάνει και σε αλλες γλώσσες!)
Οποτε σε αυτη τη περιπτωση ή θα διαβαζουμε κειμενα που μπορει και να μη βγαζουνε νοημα (η να εχουν λάθος νοημα, πολλα ορθογραφικα και αλλα προβληματα που να δημιουργουν ενα χαος στον αναγνωστη) ή το google θα πρεπει να εχει ηδη προσλάβει διορθωτές ;)!
Πάντως ειναι πολύ ενδιαφέρον να δουμε την αντιμετωπιση που θα εχουν αυτα τα αρχεια και το περιεχομενο τους και αν θα πιάσει αυτο το καινουριο κολπο! Τελικα το google σε λιγο μονο καφε δε θα μας κανει!</description>
		<content:encoded><![CDATA[<p>Ξεχασα επισης να προσθέσω ενα ακόμη μειονεκτημα που μπορει να εχει μια διαδικασια ocr και πραγματικα αν δεν εχουν βρει μια λυση για αυτο θα το καταλαβετε κι εσεις πολυ συντομα! Εχει λοιπον να κανει με την ορθότητα του “διαβάσματος”¨του σκαναρισμενου κειμενου. Έχοντας χρησιμοποιήσει προγράμματα ocr εχω ανακαλυψει πως άν και σκαναρισμένα σε πολυ καλη αναλυση και απο καθαρά πρωτότυπα ( ενν. χωρις μουτζουρες η σκουπιδακια) και με αρκετα ευκολοδιαβαστες γραμματοσειρες, τα προγραμματα αυτα περνούν κάποια γράμματα για άλλα η δεν διαβαζουν καθολου καποιες λεξεις η σημαια στιξης. Παράδειγμα, το γράμμα “άλφα” το βλεπει “ομικρον”, το “ξι” για “3″ και λοιπα. Για να μη μιλησουμε για καποια γραμματοσειρα με πατουρες (ουριτσες)η και πιο καλλιγραφικες.(Βεβαια δε γνωριζω αν το google θα διαβαζει και ελληνικους χαρακτηρες και οχι μονο λατινικους, παντως λάθη κάνει και σε αλλες γλώσσες!)<br />
Οποτε σε αυτη τη περιπτωση ή θα διαβαζουμε κειμενα που μπορει και να μη βγαζουνε νοημα (η να εχουν λάθος νοημα, πολλα ορθογραφικα και αλλα προβληματα που να δημιουργουν ενα χαος στον αναγνωστη) ή το google θα πρεπει να εχει ηδη προσλάβει διορθωτές <img src='http://www.techtalk.gr/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> !<br />
Πάντως ειναι πολύ ενδιαφέρον να δουμε την αντιμετωπιση που θα εχουν αυτα τα αρχεια και το περιεχομενο τους και αν θα πιάσει αυτο το καινουριο κολπο! Τελικα το google σε λιγο μονο καφε δε θα μας κανει!</p>
]]></content:encoded>
	</item>
	<item>
		<title>Από: Frank</title>
		<link>http://www.techtalk.gr/473/%ce%bc%ce%b5%cf%84%ce%b1%cf%84%cf%81%ce%bf%cf%80%ce%ae-%cf%83%ce%ba%ce%b1%ce%bd%ce%b1%cf%81%ce%b9%cf%83%ce%bc%ce%ad%ce%bd%cf%89%ce%bd-pdf-%ce%b1%cf%81%cf%87%ce%b5%ce%af%cf%89%ce%bd-%cf%83%ce%b5-%ce%ba/comment-page-1/#comment-14897</link>
		<dc:creator>Frank</dc:creator>
		<pubDate>Sat, 01 Nov 2008 15:50:05 +0000</pubDate>
		<guid isPermaLink="false">http://www.techtalk.gr/?p=473#comment-14897</guid>
		<description>Συμφωνώ με αυτό. Μάλλον θα πρέπει να μπορεί κάποιος να κάνει κάποια αρχεία &quot;exclude&quot; από το OCR. Έτσι θα μπορεί θεωρητικά να τα προστατέψει.</description>
		<content:encoded><![CDATA[<p>Συμφωνώ με αυτό. Μάλλον θα πρέπει να μπορεί κάποιος να κάνει κάποια αρχεία &#8220;exclude&#8221; από το OCR. Έτσι θα μπορεί θεωρητικά να τα προστατέψει.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Από: MaRiaNNa P.</title>
		<link>http://www.techtalk.gr/473/%ce%bc%ce%b5%cf%84%ce%b1%cf%84%cf%81%ce%bf%cf%80%ce%ae-%cf%83%ce%ba%ce%b1%ce%bd%ce%b1%cf%81%ce%b9%cf%83%ce%bc%ce%ad%ce%bd%cf%89%ce%bd-pdf-%ce%b1%cf%81%cf%87%ce%b5%ce%af%cf%89%ce%bd-%cf%83%ce%b5-%ce%ba/comment-page-1/#comment-14861</link>
		<dc:creator>MaRiaNNa P.</dc:creator>
		<pubDate>Sat, 01 Nov 2008 11:33:12 +0000</pubDate>
		<guid isPermaLink="false">http://www.techtalk.gr/?p=473#comment-14861</guid>
		<description>Δε ξερω αν αυτο ειναι καλο η κακο! Πρεπει να υπαρχει η δυνατοτητα να αποτρεπεις το google απο το να διαβαζει τα pdf σου. Μπορει να εχεις μεσα πραγματα που δεν θελεις η δεν πρεπει να διαβαζονται με ocr ! πχ μπορει να εχεις ανεβασει μια πολυσελιδη προσφορα για εναν πελατη για δουλεια, και να του εχεις δωσει λινκ να το δει επειδη ειναι πολυ μεγαλο για να το στειλεις με email. Γιατι να μπορει να διαβασει το google τη προσφορα σου  και να εκθεσεις παγκοσμιως την &quot;οικονομικη σου πολιτικη&quot;, η οποια μπορει να ειναι εμπιστευτικη?</description>
		<content:encoded><![CDATA[<p>Δε ξερω αν αυτο ειναι καλο η κακο! Πρεπει να υπαρχει η δυνατοτητα να αποτρεπεις το google απο το να διαβαζει τα pdf σου. Μπορει να εχεις μεσα πραγματα που δεν θελεις η δεν πρεπει να διαβαζονται με ocr ! πχ μπορει να εχεις ανεβασει μια πολυσελιδη προσφορα για εναν πελατη για δουλεια, και να του εχεις δωσει λινκ να το δει επειδη ειναι πολυ μεγαλο για να το στειλεις με email. Γιατι να μπορει να διαβασει το google τη προσφορα σου  και να εκθεσεις παγκοσμιως την &#8220;οικονομικη σου πολιτικη&#8221;, η οποια μπορει να ειναι εμπιστευτικη?</p>
]]></content:encoded>
	</item>
	<item>
		<title>Από: Κωνσταντίνος</title>
		<link>http://www.techtalk.gr/473/%ce%bc%ce%b5%cf%84%ce%b1%cf%84%cf%81%ce%bf%cf%80%ce%ae-%cf%83%ce%ba%ce%b1%ce%bd%ce%b1%cf%81%ce%b9%cf%83%ce%bc%ce%ad%ce%bd%cf%89%ce%bd-pdf-%ce%b1%cf%81%cf%87%ce%b5%ce%af%cf%89%ce%bd-%cf%83%ce%b5-%ce%ba/comment-page-1/#comment-14638</link>
		<dc:creator>Κωνσταντίνος</dc:creator>
		<pubDate>Fri, 31 Oct 2008 15:12:33 +0000</pubDate>
		<guid isPermaLink="false">http://www.techtalk.gr/?p=473#comment-14638</guid>
		<description>Κι έτσι θα μπορεί κάποιος να κάνει ένα σκαναρισμένο αρχείο σε έγγραφο κειμένου.  

Ανεβάσει το αρχείο .pdf στο Ίντερνετ, δημιουργεί ένα σύνδεσμο προς αυτό, περιμένει μέχρι το Google να το βάλει στo index, μόλις γίνει αυτό το αναζήτας στο ´Ιντερνετ και μετά το ανόιγεις σαν HTML. Τέλος κάνεις ένα Copy-Paste.  

Μπα μεγάλη διαδικασία... Προτιμώ να κατεβάσω ένα πρόγραμμα για αυτήν την δουλειά</description>
		<content:encoded><![CDATA[<p>Κι έτσι θα μπορεί κάποιος να κάνει ένα σκαναρισμένο αρχείο σε έγγραφο κειμένου.  </p>
<p>Ανεβάσει το αρχείο .pdf στο Ίντερνετ, δημιουργεί ένα σύνδεσμο προς αυτό, περιμένει μέχρι το Google να το βάλει στo index, μόλις γίνει αυτό το αναζήτας στο ´Ιντερνετ και μετά το ανόιγεις σαν HTML. Τέλος κάνεις ένα Copy-Paste.  </p>
<p>Μπα μεγάλη διαδικασία&#8230; Προτιμώ να κατεβάσω ένα πρόγραμμα για αυτήν την δουλειά</p>
]]></content:encoded>
	</item>
	<item>
		<title>Από: Κωνσταντίνος</title>
		<link>http://www.techtalk.gr/473/%ce%bc%ce%b5%cf%84%ce%b1%cf%84%cf%81%ce%bf%cf%80%ce%ae-%cf%83%ce%ba%ce%b1%ce%bd%ce%b1%cf%81%ce%b9%cf%83%ce%bc%ce%ad%ce%bd%cf%89%ce%bd-pdf-%ce%b1%cf%81%cf%87%ce%b5%ce%af%cf%89%ce%bd-%cf%83%ce%b5-%ce%ba/comment-page-1/#comment-14637</link>
		<dc:creator>Κωνσταντίνος</dc:creator>
		<pubDate>Fri, 31 Oct 2008 15:12:11 +0000</pubDate>
		<guid isPermaLink="false">http://www.techtalk.gr/?p=473#comment-14637</guid>
		<description>Η Google δεν σταματάει να μας εκπλήζει !</description>
		<content:encoded><![CDATA[<p>Η Google δεν σταματάει να μας εκπλήζει !</p>
]]></content:encoded>
	</item>
</channel>
</rss>

