0% emissões, 100% de energia renovável!

A digitalização do New York Times

CAPTCHA significa Completely Automated Public Turing Test To Tell Computers and Humans Apart e foi cunhado em 2000 por Luis von Ahn, Manuel Blum, Nicholas Hopper e João Leite da Universidade Carnegie Mellon, que desenvolveu o programa CAPTCHA. Para nós, meros mortais, muitas vezes, aparece como fonte hemetic língua árabe, tão fortemente distorcida mesmo os seres humanos não podem lê-lo. No entanto, eles foram um passo adiante, e embora eu possa ser lenta em pegar este notei o "mais fácil" código CAPTCHA para ler parece que tipo de fonte de idade, e com certeza é!

CAPTCHA é um programa desenvolvido pelo que pode dizer se seu usuário é um ser humano ou um computador. CAPTCHAs são usados por muitos sites para evitar o abuso de "bots", ou programas automatizados escritos para gerar spam. No programa de computador pode ler o texto distorcido, assim como os seres humanos podem, assim que robôs não podem navegar nos sites protegidos por captchas.

Cerca de 200 milhões CAPTCHAs são resolvidos por seres humanos em todo o mundo a cada dia. Em cada caso, cerca de dez segundos do tempo humano estão sendo gastos. Individualmente, o que não é muito tempo, mas no seu conjunto estes enigmas consumir pouco mais de 150.000 horas de trabalho de cada dia. Que se nós poderíamos fazer uso positivo deste esforço humano? reCAPTCHA faz exatamente isso ao canalizar o esforço gasto na resolução CAPTCHAs on-line em "ler" livros.

Em uma tentativa de conhecimento humano arquivar digitalmente arquivar materiais, vários projetos estão a digitalização de livros físicos que foram escritos antes da era do computador. As páginas do livro estão a ser digitalizados como imagens, e depois transformado em texto usando o "Reconhecimento Óptico de Caracteres (OCR). Embora as imagens sejam legíveis por seres humanos o texto não pode ser pesquisado e não pode ser indexado, tamanho do ficheiro também está comprometido como as imagens são muito maiores e mais difíceis de armazenar.

reCAPTCHA melhora o processo de digitalização de livros através do envio de palavras que não podem ser lidos por computadores para a Web, sob a forma de CAPTCHAs para o ser humano para decifrar. Mais especificamente, cada palavra que não pode ser lido corretamente pelo OCR é colocado sobre uma imagem e usado como um CAPTCHA. Isso é possível porque a maioria dos programas OCR alertá-lo quando uma palavra não pode ser lido corretamente.

Eu era vendido por este ponto e achei absolutamente novo e twee, mas eu não podia ajudar, mas pergunto como eles sabem que estamos entrando é correto. O truque é, uma das palavras é uma palavra de controle, já conhecido e intencionalmente semeado de volta e, geralmente, a partir da mesma fonte que a segunda palavra, o projeto pressupõe que você tenha digitado corretamente e salva a palavra após o número suficiente de pessoas que entraram no mesmo palavra da mesma forma e assume que é correto, com maior confiança.

A única desvantagem para este projeto é que, neste momento eles estão digitalizando edições antigas do New York Times, que não é de grande benefício para a humanidade como um todo IMHO, mas essa é a vida. Se você realmente está entediado, você clique pode aqui para responder reCAPTCHA é apenas contribuir para o projeto.

Mais por von Ahn

Matchin "é um experimento secreto em inteligência artificial. Cada vez jogadores concordam com uma imagem, é a tag mais bonita. Von Ahn, de 28 anos de idade, professor de ciência da computação na Universidade Carnegie Mellon, vai colocar The Game online neste verão, e como milhares de pessoas jogá-lo, sua base de dados de 100.000 fotos serão imbuídas de algo essencialmente humano: uma sensibilidade estética, codificados como um ranking de atractividade.

The Game seres humanos basicamente truques em computadores de ensino que constitui beleza. Se pessoas suficientes jogar Matchin '- e os jogos anteriores von Ahn garnered milhões de play-hora - poderia, eventualmente, a taxa de recurso de cada imagem na Internet. Google poderia incorporar os votos em seu motor de busca, assim você pode procurar especificamente para o "belo" fotos de casas, pessoas ou paisagens.

"As pessoas são boas em descobrir o que é atraente, e computadores são bons para rapidamente procurar e encontrar", diz von Ahn. "Você coloca-los juntos, e bang!"

Trata-se de "computação humana", a arte de usar grupos de rede massiva de mentes humanas para resolver os problemas que os computadores não podem. Peça uma máquina para apontar para uma imagem de um pássaro ou escolher uma voz especial, no meio da multidão, e normalmente falha. Mas mesmo o mais estúpido ser humano pode fazer isso facilmente. Von Ahn percebeu que o nosso modo de exibição normal da relação homem-computador pode ser invertida. A maioria de nós assumir computadores tornam as pessoas mais inteligentes. Ele vê as pessoas como uma forma de tornar os computadores mais inteligentes.

As probabilidades são que você já tenha beneficiado de obra de von Ahn. Como quando você digita uma dessas palavras esticada e distorcida antes de obter acesso a uma conta de email Yahoo ou a loja Ticketmaster. Isso é um captcha, que von Ahn desenvolvido em 2000 para impedir spam bots. Ou há imagens von Ahn-jogos de rotulagem, que têm atraído milhares de internautas entediados Web em tagging 300.000 fotos on-line - a fazê-lo de forma tão eficaz que o Google comprou a sua idéia no ano passado para melhorar sua imagem motor de pesquisa.

Acima de trecho da Wired Magazine (16,07) para determinadas tarefas, a Cortex Still Beats a CPU por Clive Thompson

Posted: 15 de dezembro de 2009
Categorias: geral, notícias de tecnologia,
Palavras-chave:
Comentários: Sem Comentários.












Twitter Facebook MySpace Flickr YouTube rss2