Conecta con nosotros

Noticias

Googlea documentos escaneados

El buscador Google acaba de presentar en su blog una funcionalidad más que ofrece nuevas posibilidades. Ahora también es capaz de encontrar términos que se encuentren en documentos escaneados alojados en Internet. Para conseguirlo el buscador utiliza un potente sistema de OCR que se ocupa de analizar los documentos y detectar las palabras que contiene para que pasen a formar parte del índice de búsquedas de Google.

Publicado

el

El buscador Google acaba de presentar  en su blog una funcionalidad más que ofrece nuevas posibilidades. Ahora también es capaz de encontrar términos que se encuentren en documentos escaneados alojados en Internet. Para conseguirlo el buscador utiliza un potente sistema de OCR que se ocupa de analizar los documentos y detectar las palabras que contiene para que pasen a formar parte del índice de búsquedas de Google.

 

Internet es, entre otras cosas, un inmenso repositorio de libros y documentos de todo tipo, y muchos de ellos no están en formato texto sino que se trata de documentos escaneados y colgados en la red como imágenes. Ahora Google ha anunciado que su motor de búsqueda es capaz de reconocer palabras dentro de estos documentos escaneados para que aparezcan en los resultados de una búsqueda. Este sistema, que se basa en una aplicación avanzada de reconocimiento de caracteres u OCR, ya se ha utilizado para la publicación de páginas de periódicos antiguos y en el catálogo de libros Google Books para localizar contenidos. Sin embargo ahora se aplica este sistema a miles de documentos en toda la red.

 

 

Además de poder localizar los documentos por palabras clave que son reconocidas por este sistema, también es posible acceder a una versión en modo texto del documento al hacer clic en la opción «versión en HTML». De esta forma, algo enrevesada, podríamos publicar un documento escaneado en Internet, buscar nuestro propio documento con Google y obtener una versión en modo texto del mismo. El sistema sólo funciona para archivos de tipo PDF y no para otros formatos de imagen.

 

 

Lo más leído