OCR

Reconocimiento Óptico de Caracteres

¿Qué exactamente significa OCR?

Reconocimiento Óptico de Caracteres es una tecnología que permite convertir diferentes tipos de documentos, tales como documentos en papel escaneados, archivos de PDF o imágenes captadas por una cámara digital en los datos editables y con opción de búsqueda. Un artículo de revista, un folleto, o un contrato en formato PDF recibido por email.

Con fines de extraer y reusar los datos de este tipo de formatos, se requiere de un software OCR que va a separar las letras de la imagen, ponerlas en palabras y después las palabras en frases, lo que le permite tener acceso y editar el contenido del documento original.

¿Cuál es el secreto de la tecnología OCR?

Primero, el programa de OCR analiza la estructura de la imagen del documento. Divide la página en elementos tales como bloques de texto, tablas, imágenes y etc. Las líneas están divididas en palabras y después en caracteres. Una vez que los caracteres han sido señalados, el programa los compara con un conjunto de imágenes del patrón. Esto avanza las numerosas hipótesis sobre que es este carácter. En base de estas hipótesis el programa analiza diferentes variantes de ruptura de líneas en palabras y palabras en caracteres.

Después de procesar un enorme número de tales hipótesis probabilísticas, el programa finalmente toma la decisión, presentando al usuario el texto reconocido. Además la herramienta provee soporte de diccionario para 48 idiomas. Esto permite realizar el análisis secundario de los elementos de texto en el nivel de palabra. Con soporte de diccionario el programa asegura análisis y reconocimiento de documentos aún más preciso y simplifica posterior verificación de los resultados de verificación.

¿En cuáles principios se basa FineReader OCR?

Los sistemas más avanzados de reconocimiento óptico de caracteres están enfocados en la replicación de reconocimiento natural. En el corazón de tales sistemas hay tres principios fundamentales: integridad, intencionalidad y adaptabilidad.

El principio de integridad dice que el objeto observado siempre debe ser considerado como una “totalidad” que consiste de muchas partes interrelacionadas. El principio de intencionalidad supone que cualquier interpretación de los datos debe servir alguna finalidad. Finalmente el principio de adaptabilidad significa que el programa debe ser capaz de realizar autoaprendizaje.

Uno no debe ser un especialista en OCR para ver las ventajas de una aplicación de OCR basada en los principios IPA. Estos principios proveen el programa con máxima flexibilidad e inteligencia, acercándolo lo más posible a reconocimiento humano. Después de años de investigación utilizamos tecnologías que adoptan los principios IPA descritos más arriba en sus tecnologías de OCR.

Reconocimiento de imágenes de cámara digital

Imágenes capturadas con una cámara digital difieren de los documentos escaneados o PDFs de imágenes. Frecuentemente tienen defectos cómo distorsión en los bordes y luz atenuada, que hace difícil a la mayoría de las aplicaciones de OCR reconocer el texto correctamente.

La tecnología que integramos tiene capacidad adaptativa de reconocimiento designada especialmente para procesar las imágenes de cámara. Ofrece una gama de características para mejorar la calidad de tales imágenes proporcionando una capacidad de usar plenamente el potencial de sus dispositivos digitales.