Google aprende a ler documentos PDF escaneados

1 Comentário »

Há alguns dias, o Google anunciou em seu blog oficial que, a partir de agora, através da Optical Character Recognition (OCR), ele é capaz de interpretar e indexar o texto de arquivos .pdf escaneados, ou seja, conteúdo presente em uma imagem. A leitura e indexação de arquivos PDF não é novidade para ninguém, porém isto só era possível com conteúdo em texto.

A capacidade de interpretar o texto presente em imagem (somente arquivos PDF, por enquanto) é bastante animadora. Quem sabe não estamos perto da leitura e indexação de textos presentes em arquivos .gif ou .png, como aquele que você possui no header de seu site?

Caso queira ver um exemplo desta nova capacidade do Google, segue o link de uma  pesquisa que retorna um arquivo PDF escaneado:

http://www.google.com/search?q=Mumps+and+Severe+Neutropenia

Google SERP - Exemplo de PDF escaneado

Para ver como o Google indexou o conteúdo do arquivo, clique em “Ver em HTML”.

Abaixo, seguem outros exemplos de buscas que retornam arquivos escanedos:

http://www.google.com/search?q=repairing+aluminum+wiring
http://www.google.com/search?q=Steady+success+in+a+volatile+world
http://www.google.com/search?q=spin+lock+performance

Se você gostou do nosso blog, assine o RSS ou então receba os posts por e-mail.

TAGS

Um comentário para “Google aprende a ler documentos PDF escaneados

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

SP São Paulo (11) 3042-2224
RJ Rio de Janeiro (21) 3942-5555 Travessa Domingos Cândido Peixoto, 501, Casa 1, Icaraí, Niterói-RJ