Numérisation du New York Times
CAPTCHA signifie Completely Automated Public Turing Test to Tell Computers and Humans Apart et a été inventé en 2000 par Luis von Ahn, Manuel Blum, Nicholas Hopper et John Langford de l'Université Carnegie Mellon University, qui a développé le programme de CAPTCHA. Pour nous, simples mortels, il apparaît souvent que la police hemetic langue arabe, si fortement faussé, même les humains ne peuvent pas le lire. Cependant, ils auront fait un pas plus loin, et tandis que je mai être lent sur ramassant sur ce J'ai remarqué que la plus «facile» à lire le code CAPTCHA ressemble police de caractères anciens, et bien sûr que c'est!
Le CAPTCHA est un programme développé par qui peut dire si son utilisateur est un être humain ou un ordinateur. CAPTCHA sont utilisés par de nombreux sites Web pour prévenir l'abus de «bots», ou programmes automatisés généralement écrites de générer du spam. Aucun programme d'ordinateur peut lire un texte déformé ainsi que les humains peuvent, si les robots collecteurs ne peut pas naviguer sites protégés par les CAPTCHA.
Environ 200 millions de CAPTCHA sont résolus par les êtres humains partout dans le monde chaque jour. Dans chaque cas, environ dix secondes de temps de l'homme sont dépensés. Individuellement, ce n'est pas beaucoup de temps, mais le cumul de ces petits puzzles consomment plus de 150'000 heures de travail chaque jour. Et si nous pouvions faire un usage positif de cet effort de l'homme? reCAPTCHA exactement ce que fait en canalisant les efforts consacrés à résoudre les CAPTCHA en ligne dans la «lecture» des livres.
Dans une tentative à la connaissance des archives de l'homme archivage numérique des matériaux, de nombreux projets sont actuellement la numérisation des livres physiques qui ont été écrits avant l'ère informatique. Les pages du livre sont en cours de numérisation des images, puis transformé en texte en utilisant la "reconnaissance optique de caractères (OCR). Tandis que les images sont lisibles par l'homme le texte n'est pas consultable et ne peuvent pas être indexés, également taille est compromise par les images sont beaucoup plus grandes et plus difficiles à stocker.
reCAPTCHA améliore le processus de numérisation de livres par l'envoi de mots qui ne peuvent pas être lus par les ordinateurs pour le Web sous la forme de CAPTCHA pour l'homme à déchiffrer. Plus précisément, chaque mot qui ne peuvent pas être lus correctement par OCR est placé sur une image et utilisé comme un CAPTCHA. Ceci est possible car la plupart des programmes OCR vous alerter quand un mot ne peut pas être lu correctement.
J'ai été vendu par ce point et pense qu'il est absolument nouvelle et twee, mais je ne pouvais m'empêcher de me demander comment ils savent ce que nous entrons est correcte. La gimmick est l'un des mots est un mot de contrôle, déjà connue et délibérément semé le dos et généralement de la même source que le second mot, le projet part du principe que vous l'avez entré correctement et enregistre le mot après suffisamment de gens sont entrés dans le même mot de la même façon et suppose qu'il est correct avec une confiance accrue.
Le seul inconvénient de ce projet est qu'à l'heure actuelle ils sont la numérisation des anciennes éditions du New York Times, qui n'est pas de grand profit pour l'humanité tout entière IMHO, mais telle est la vie. Si vous êtes VRAIMENT ennuyez, vous pouvez cliquer ici pour répondre à reCAPTCHA juste pour contribuer au projet.
Plus de von Ahn
Matchin 'est une expérience secrète, dans l'intelligence artificielle. Chaque fois que les joueurs s'accordent sur une photo, il est étiqueté en tant que plus joli. Von Ahn, 28 ans, ancien professeur de science informatique de Carnegie Mellon, mettra le jeu en ligne cet été, et que des milliers de personnes y jouer, sa base de données de 100.000 photos sera imprégné de quelque chose de typiquement humain: une sensibilité esthétique, codées comme un classement de l'attractivité.
Le jeu essentiellement humains tricks dans les ordinateurs de l'enseignement ce qui constitue joliesse. Si suffisamment de personnes jouent Matchin »- et les précédents jeux von Ahn ont reçu des millions d'heures de jeu - il pourrait éventuellement taux de l'appel de chaque image sur l'Internet. Google pourrait intégrer les cotes dans son moteur de recherche, vous pouvez donc expressément la recherche pour "belles" images de maisons, des gens, ou des paysages.
«Les gens sont bons à déterminer quelle était attrayant, et les ordinateurs sont bons à chercher et à trouver rapidement", dit M. von Ahn. "Vous les mettez ensemble, et hop!"
Il s'agit du «calcul de l'homme,« l'art de l'utilisation massive de groupes esprit de l'homme en réseau pour résoudre les problèmes que les ordinateurs ne peuvent pas. Demandez une machine pour pointer vers une image d'un oiseau ou choisir une voix particulière dans une foule, et il échoue généralement. Mais même les plus stupides humains peuvent faire cela facilement. Von Ahn a pris conscience que notre point de vue normale de la relation homme-ordinateur peut être inversée. La plupart d'entre nous supposons que les ordinateurs rendent les gens plus intelligents. Il voit des gens comme un moyen de rendre les ordinateurs plus intelligents.
Les chances sont que vous avez déjà bénéficié du travail de von Ahn. Comme lorsque vous tapez dans un de ces mots tendue et biaisée avant d'avoir accès à un compte de messagerie Yahoo ou la banque de Ticketmaster. C'est un Captcha, que von Ahn développée en 2000 pour contrecarrer les robots des spammeurs. Ou ce portrait de von Ahn-étiquetage des jeux, qui ont attiré des milliers d'internautes s'ennuient Web dans le marquage 300.000 photos en ligne - le faire si bien que Google a acheté son idée l'année dernière pour améliorer son image de moteurs de recherche.
Ci-dessus extrait du magazine Wired (16.07) Pour certaines tâches, le Cortex Still Beats le CPU par Clive Thompson
Catégories: Général,, nouvelles technologies
Tags: numérisation, nouvelles, photographie, technologie
Commentaires: Pas de commentaire.


























