A Fondo

Descubre seis aplicaciones gratuitas con OCR para convertir imágenes en texto

Publicado

17 diciembre, 2021

por

El Reconocimiento Óptico de Caracteres, OCR en sus siglas en inglés, es la tecnología mecánica o electrónica de conversión de las letras de forma que puedan ser entendidas por una máquina.

El OCR es algo que ha sido implementado de diversas maneras y para distintos propósitos a lo largo de la historia. Por ejemplo, existe hardware de escaneo de caracteres que se dedica a “leer” un texto manuscrito o impreso para su conversión en letras que son entendidas por un ordenador, en lugar de simplemente generar imágenes.

Por otro lado, también existen las aplicaciones de OCR que convierten texto plasmado en imágenes o ficheros PDF para pasarlo a documentos o ficheros manipulables con la correspondiente aplicación. En esta entrada nos centraremos en las aplicaciones en formato software, pero antes vamos contar un poco sobre la historia de esta tecnología.

Un poco de la historia del OCR

Aunque suene sorprendente, el OCR, o al menos las tecnologías precedentes a lo que tenemos hoy en día, son algo que nos acompaña desde hace más de un siglo. El físico e inventor Emanuel Goldberg desarrolló en 1914 una máquina que era capaz de leer caracteres para convertirlos en código telegráfico estándar. Durante la década siguiente y principios de los años 30 del Siglo XX, el propio Emanuel Goldberg desarrolló otra máquina a la que bautizó como “máquina estadística” para buscar archivos de microfilm utilizando un sistema de reconocimiento óptico de códigos. En 1931 se le concedió una patente estadounidense que luego fue adquirida por IBM.

Más tarde, en 1974, al inventor Ray Kurzweil se le ocurrió la idea de que el OCR podría ser empleado para permitir la lectura a las personas ciegas y con problemas de visión, por lo que decidió crear una máquina para tal efecto que fue presentada en 1976 en una conferencia de prensa con gran difusión en la que estuvieron los líderes de Federación Nacional de Ciegos de Estados Unidos y el propio Kurzweil.

Con el paso de las décadas hubo una constante mejora de los ordenadores, que se volvieron cada vez más pequeños y potentes. Esto ha permitido no solo hacer que el OCR esté al alcance de todos (o casi), sino también el introducir dicha tecnología en prácticamente cualquier dispositivo, con muchas soluciones que son totalmente gratuitas u ofrecen de una versión gratuita o con un periodo de prueba.

Seis soluciones de OCR gratuitas que puedes usar en tu PC (Windows y/o Linux)

Ahora vamos a mencionar seis soluciones gratuitas de OCR que permiten convertir textos plasmados en imágenes o documentos PDF hacia formatos fácilmente manipulables. En este artículo intentaremos poner opciones para Windows y Linux, aunque las aplicaciones mencionadas no tienen por qué soportar ambos sistemas.

Microsoft OneNote

Microsoft OneNote, o simplemente OneNote, es una aplicación del gigante de Redmond creada con el propósito de tomar notas, recopilar información y con capacidades de colaboración multiusuario. Si bien es un miembro oficial de Microsoft Office, puede ser descargada e instalada como una aplicación independiente en Windows, macOS, iPhone, iPad y Android.

Par hacer uso de la función de OCR de OneNote, el usuario solo tiene que arrastrar una imagen con un texto a una nota, hacer clic con el botón secundario del ratón sobre dicha imagen y luego pulsar sobre la opción “Copiar texto que aparece en la imagen” en el menú contextual.

Otra posibilidad es la de recurrir a Insertar > “Copia impresa de archivo” para importar desde un documento PDF, cosa que también se puede hacer arrastrando un fichero PDF desde el explorador de ficheros o la vista de escritorio hacia una nota de OneNote.

Sin embargo, este proceso puede fallar, así que como alternativa se puede recurrir a la impresión del propio con la impresora virtual de OneNote, que permite insertar el documento a importar en una nota.

Tras importar, para usar el OCR solo hay que pulsar con el botón secundario del ratón sobre el documento incrustado en la nota y hacer clic sobre “Copiar texto de esa página de la copia impresa” o “Copiar texto de todas las páginas de la copia impresa”. Esto depende lo que quiera hacer el usuario.

Photo Scan

Photo Scan es una aplicación de OCR y lectura de códigos QR que puede ser obtenida gratuitamente para Windows 10 desde la Microsoft Store. Es capaz de realizar una conversión a texto a partir de una imagen o un archivo impreso y también soporta la webcam de un PC para suministrar una imagen.

Es importante tener en cuenta que esta aplicación no soporta la importación de texto a partir de un documento en formato PDF y no es especialmente competente para texto manuscrito. Además de convertir imágenes a texto que se puede procesar, cuenta con una función que permite leer un fichero en formato de audio.

Para convertir en texto que se pueda procesar, el usuario, tras cumplimentar los pasos iniciales, solo tiene que arrastrar un fichero de imagen hacia la interfaz de la aplicación.

Después puede manipular el texto resultante y pulsar sobre el icono de altavoz para empezar a escuchar lo que hay escrito.

Google Docs

Google Docs cuenta con su propio OCR que permite convertir el texto de una imagen o un fichero PDF en otro que se puede editar con el procesador de textos. Para emplear esta característica, el usuario tiene que apoyarse en Drive, el servicio de almacenamiento en la nube del gigante del buscador (vale la modalidad gratuita, por si alguien pregunta).

Para emplear el OCR de Google Docs hay que subir en primer lugar una imagen o un fichero PDF a Drive siguiendo la vía estándar. Después, en la interfaz web de Drive, hay que hacer clic con el botón secundario del ratón sobre el fichero sobre el que se quiere aplicar el OCR y luego dirigirse a “Abrir con” > “Documentos de Google”.

Tras abrir la imagen con Google Docs, se mostrará un documento de la mencionada suite en la que se ve la imagen en la primera página (o lo que ocupe la imagen), mientras que a partir de la segunda o la siguiente luego de la imagen aparece el texto modificable extraído por el OCR.

gImageReader

gImageReader es una interfaz gráfica para Tesseract publicada como software libre (Tesseract también lo es) disponible para Linux y Windows. Entre sus características tiene la importación de documentos e imágenes PDF desde el disco, desde un dispositivo de escaneo, el portapapeles o capturas de pantalla; proceso de múltiples imágenes y documentos en una sola acción; definición del área de reconocimiento manual o automático; reconocimiento de texto que se muestra directamente al lado de la imagen; postprocesado del texto reconocido con corrección ortográfica; además de generación de documentos PDF a partir de documentos hOCRM.

Eso sí, hay que tener en cuenta que es necesario tener instalado Tesseract para poder usar gImageReader. En Windows hay que descargar e iniciar los instaladores correspondientes, mientras que en Ubuntu hay que instalar los paquetes ‘tesserat-ocr-all’ y ‘gimagereader’, los cuales pueden encontrarse empleando el gestor Synaptic.

El usuario solo tiene que coger una imagen o un documento PDF, arrastrarlo hacia la aplicación y podrá hacer uso de las capacidades OCR de gImageReader.

OCRFeeder

OCRFeeder es un programa de OCR con interfaz gráfica perteneciente al proyecto GNOME, por lo que es software libre y ofrece soporte solo para Linux. Convierte documentos en papel en archivos de documentos digitales o los hace accesibles a usuarios con discapacidad visual. Además, la aplicación fue creada para permitir a los usuarios convertir fácilmente imágenes de documentos en documentos editables.

Sus características son una interfaz gráfica de usuario simple y configurable, soporte para distintas vistas con zoom, importación de datos desde un fichero de imagen o PDF, soporte para tomar imágenes directamente desde un escáner, procesador de imágenes sin papel, enderezador de imagen para facilitar al software el reconocimiento de una imagen, la posibilidad de elegir idioma para el motor de OCR, corrector ortográfico y capacidad para generar documentos en PDF, HTML u ODT.

Se trata de una aplicación fácil de utilizar para un usuario que no tiene experiencia con este tipo de programas, pero el hecho de limitarse a Linux hace que los usuarios de Windows no puedan hacer uso de ella a menos que usen WSL2 (y aun así no podemos dar garantías).

CopyFish

Y cerramos la lista con CopyFish, otro OCR publicado como software libre. Frente a las otras opciones nombradas en esta lista, CopyFish es en esencia una extensión que se puede instalar en los navegadores web Chrome, Firefox y Edge Chromium. El apoyarse en un navegador web le permite abstraerse del sistema operativo, ofreciendo de esta manera soporte para Windows, Linux y Mac sin obstáculos.

CopyFish es capaz de extraer texto de vídeos, imágenes y documentos PDF de manera sencilla y cuenta con tres versiones. Una es la gratuita, que soporta hasta 25 idiomas. La segunda es la edición PRO con soporte para 89 idiomas, detección automática del idioma y el uso del OCR PRO Vision. Por su parte, la edición PRO+ suma a la anterior la traducción automática y el soporte de máxima prioridad por parte de los responsables (los usuarios de la edición gratuita solo pueden recurrir a los foros).

Para hacer uso del OCR, el usuario solo tiene que hacer clic sobre la extensión y luego seleccionar a través de un rectángulo el texto que reconocer de forma óptica. Nada complicado para al menos emplear lo más básico.

Conclusión

Como vemos, hay muchas opciones para hacer uso de OCR, desde aplicaciones “clásicas” hasta soporte a través de servicios en la nube, pasando por extensiones para navegadores web que abren la puerta a poder usarlo independientemente del sistema operativo.

Aunque en esta entrada nos hemos centrado en unos usos específicos y orientados a la obtención de ficheros con textos modificables (ya sean planos o en el formato de algún procesador), el OCR tiene otras aplicaciones que permiten a personas con diversidad funcional leer o comunicarse.

Imagen de portada: Wikipedia