0% delle emissioni, 100% di energie rinnovabili!

Digitalizzazione del New York Times

CAPTCHA è l'acronimo di Completely Automated Public Turing Test to Tell Computers and Humans Apart ed è stato coniato nel 2000 da Luis von Ahn, Manuel Blum, Nicholas Hopper e John Langford della Carnegie Mellon University, che ha sviluppato il programma di CAPTCHA. Per noi comuni mortali appare spesso come hemetic font lingua araba, così pesantemente distorti, anche gli esseri umani non può leggerlo. Però hanno fatto un passo ulteriore, e mentre può essere lento a raccogliere su questo ho notato che il 'facile' il codice CAPTCHA per leggere assomiglia font vecchio tipo, e sicuramente lo è!

CAPTCHA è un programma sviluppato da che può dire se l'utente è un umano o un computer. CAPTCHA sono utilizzati da molti siti web per prevenire gli abusi da "bot", o programmi automatizzati di solito scritti per generare spam. Nessun programma è in grado di leggere il testo distorto così come gli esseri umani possono, in modo da bot non può navigare siti protetti da CAPTCHA.

Circa 200 milioni di CAPTCHA sono risolti da esseri umani in tutto il mondo ogni giorno. In ogni caso, circa dieci secondi di tempo umano vengono spesi. Individuale, che non sono un sacco di tempo, ma nel complesso questi puzzle piccoli consumano più di 150.000 ore di lavoro di ogni giorno. Che cosa se potessimo utilizzare in modo positivo di questo sforzo umano? reCAPTCHA fa esattamente che, incanalando lo sforzo di risolvere i CAPTCHA speso online in "lettura" di libri.

In un tentativo di conoscenza umana archivio digitale archivio di materiali, progetti multipli sono attualmente digitalizzazione libri fisici che sono stati scritti prima dell'età computer. Le pagine del libro sono in corso di scansione come immagini, e poi trasformato in testo usando il "riconoscimento ottico dei caratteri (OCR). Mentre le immagini sono leggibili dagli esseri umani il testo non è ricercabile e non possono essere indicizzati, anche dimensione del file è compromessa, come le immagini sono molto più grandi e più difficili da memorizzare.

reCAPTCHA migliora il processo di digitalizzazione di libri con l'invio di parole che non possono essere letti dal computer al Web in forma di CAPTCHA per gli esseri umani per decifrare. Più in particolare, ogni parola che non può essere letto correttamente da OCR è posto su una immagine e utilizzato come un CAPTCHA. Ciò è possibile perché la maggior parte dei programmi OCR avvisare l'utente quando una parola non può essere letto correttamente.

Mi è stato venduto da questo punto e di pensiero assolutamente nuovo e twee, ma non ho potuto fare a meno di chiedersi come sanno quello che stiamo entrando è corretta. Il trucco è, una delle parole è una parola di controllo, già note e intenzionalmente seminato indietro e in genere dalla stessa fonte, come la seconda parola, il progetto presuppone che è stato inserito correttamente e salva la parola dopo il numero sufficiente di persone sono entrati lo stesso parola allo stesso modo e presuppone che sia corretto con maggiore fiducia.

L'unico lato negativo di questo progetto è che, al momento sono la digitalizzazione di vecchie edizioni del New York Times, che non è di grande beneficio per l'umanità come un tutto IMHO, ma tale è la vita. Se sei veramente annoiato, si può cliccare qui per rispondere reCAPTCHA solo di contribuire al progetto.

Più da von Ahn

Matchin 'è un esperimento di nascosto nel campo dell'intelligenza artificiale. Ogni volta i giocatori d'accordo su una foto, è contrassegnati come più bella. Von Ahn, di 28 anni, professore di scienze informatiche alla Carnegie Mellon, metterà il gioco on-line di questa estate, e come migliaia di persone giocano, il suo database di 100.000 foto saranno impregnate con qualcosa di tipicamente umano: una sensibilità estetica, codificato come una classifica di attrattiva.

Il gioco fondamentalmente trucchi esseri umani in computer insegnamento ciò che costituisce grazia. Se abbastanza persone play Matchin '- e giochi precedenti von Ahn hanno raccolto milioni di play-ora - si potrebbe eventualmente votare l'appello di tutte le immagini su Internet. Google potrebbe incorporare i voti nel suo motore di ricerca, in modo da potreste di ricerca specifico per "bella" foto di case, persone, o paesaggi.

"La gente è brava a capire ciò che è attraente, e computer sono bravi a cercare e trovare rapidamente", ha detto von Ahn. "Hai messo insieme, e Bang!"

Questo è "calcolo umano," l'arte di usare gruppi massiccia rete di menti umane per risolvere i problemi che i computer non può. Chiedere una macchina per puntare a una foto di un uccello o individuare una voce particolare, in mezzo alla folla, e non riesce in genere. Ma anche i più stupidi umani possono farlo facilmente. Von Ahn ha capito che la nostra visione normale del rapporto uomo-computer può essere invertita. La maggior parte di noi assumiamo computer rendere le persone più intelligenti. Egli vede la gente come un modo per rendere i computer più intelligenti.

Probabilità sono che hai già beneficiato di lavoro von Ahn. Come quando si digita in una di quelle parole allungata e asimmetrica prima di ottenere l'accesso a un account di posta elettronica di Yahoo o l'archivio di Ticketmaster. Questo è un Captcha, che von Ahn sviluppato nel 2000 per contrastare spam bot. Oppure ci foto di von Ahn-etichettatura giochi, che hanno attirato migliaia di navigatori Web annoiati in tagging 300.000 foto on-line - di farlo in modo così efficace che Google ha acquistato la sua idea lo scorso anno per migliorare la propria immagine nei motori di ricerca.

Sopra estratto da Wired Magazine (16,07), per certi compiti, la corteccia Still Beats la CPU di Clive Thompson













Twitter Facebook MySpace Flickr YouTube rss2