Google aprende a ler documentos PDF escaneados
Há alguns dias, o Google anunciou em seu blog oficial que, a partir de agora, através da Optical Character Recognition (OCR), ele é capaz de interpretar e indexar o texto de arquivos .pdf escaneados, ou seja, conteúdo presente em uma imagem. A leitura e indexação de arquivos PDF não é novidade para ninguém, porém isto só era possível com conteúdo em texto.
A capacidade de interpretar o texto presente em imagem (somente arquivos PDF, por enquanto) é bastante animadora. Quem sabe não estamos perto da leitura e indexação de textos presentes em arquivos .gif ou .png, como aquele que você possui no header de seu site?
Caso queira ver um exemplo desta nova capacidade do Google, segue o link de uma pesquisa que retorna um arquivo PDF escaneado:
http://www.google.com/search?q=Mumps+and+Severe+Neutropenia
Para ver como o Google indexou o conteúdo do arquivo, clique em “Ver em HTML”.
Abaixo, seguem outros exemplos de buscas que retornam arquivos escanedos:
http://www.google.com/search?q=repairing+aluminum+wiring
http://www.google.com/search?q=Steady+success+in+a+volatile+world
http://www.google.com/search?q=spin+lock+performance
Se você gostou do nosso blog, assine o RSS ou então receba os posts por e-mail.
Bom site,