Artrus’s Weblog

Just another WordPress.com weblog

Convertir imágenes y PDF en texto mediante OCR

Posted by artrus en marzo 19, 2010

Muchas veces, nos encontramos con imágenes o PDFs a los que queremos leer como texto. El caso más frecuente suele ser el de querer pasar un PDF a formato de texto.

Para este problema existe el denominado OCR. El Reconocimiento Óptico de Caracteres (OCR), es una aplicación que identifica automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos.

1.jpg

Para realizar dicha conversión existen múltiples herramientas tanto de pago como gratis, la mejor opción sin ninguna duda es usar Adobe Acrobat 9 Pro. A continuación se explicará que herramienta es la más adecuada para realizar el trabajo y como realizarlo.

El primer paso es el de decidir si necesitamos una herramienta de pago o si nos podemos apañar con herramientas gratuitas.

Las aplicaciones gratuitas que he probado han sido: OCR Ternimal, y Free OCR. Cualquiera de las dos cumple perfectamente con el cometido, además, al ser on-line se pueden usar desde cualquier sistema operativo. Pero tienen las siguientes limitaciones:

ocr-terminal.png

Free OCR —–> Archivos inferiores a 2mb.

OCR Terminal —–> 20 Páginas cada mes.

free_ocr.gif

Por esta razón exceptuando que con 20 páginas el archivo pase de 20mb la mejor opción es utilizar Free OCR.

Otra opción gratuita es usar la versión de prueba de Adobe Acrobat 9 Pro que trae todas las funcionalidades pero limitado a un periodo de 30 días.

En el caso de decidirte a usar una de las aplicaciones on-line la forma de utilizar el OCR es muy sencilla, sencillamente subimos el pdf a convertir y ya nos lo devuelve el PDF con el texto reconocido.

adobe-acrobat-pro-9-extended.png

De hacerlo utilizando Adobe Acrobat 9 Pro, (bien en sus versiones de Mac, Windows o a través de Wine en linux), los pasos a seguir son los siguientes:

1º Abrir Acrobat 9 Pro y abrir el archivo que deseamos convertir:

clip_image004.jpg

2º En los menús de Acrobat seleccionamos Documento (Document) -> Reconocimiento de texto OCR (OCR Text Recognition) -> Reconocer texto usando OCR… (Recognize Text using OCR…):

2.jpg

3º Seleccionamos las páginas que deseamos convertir y hacemos click en Editar… (Edit):

clip_image008.jpg

4º Ahora además de elegir el idioma en el que está el texto (lenguaje primario de OCR) seleccionamos el estilo en el que queremos que salga el PDF:

clip_image012.jpg

De seleccionar Imagen para búsquedas (Searchable Image) se conserva el aspecto de la página original al mismo tiempo que permite la búsqueda de texto. Esta opción es la que tarda más tiempo y quizás no compensa.

Siempre que lo he usado para mi el mejor equilibrio entre tiempo de procesado y resultado final es seleccionar Gráfico y textos con formato (Formatted Text & Graphics).

5º Selecionar el número de pixels por pulgada (DPI) sabiendo que si nuestro documento tiene una resolución superior a 600dpi automáticamente el documento de salida contará con dicha resolución y si cambiamos manualmente la resolución el documento tendrá la resolución que nosotros hayamos fijado con la correspondiente pérdida de calidad.

clip_image014.jpg

6º Seleccionamos Aceptar (OK) y dejamos trabajar al programa. Cuando termine por último debemos guardar el documento para conservarlo (Obviamente).

clip_image016.jpg

Y ya está ya tenemos accesible el texto de nuestro PDF y listo para trabajar con él.

Para más información:

OCR Ternimal

Free OCR

Adobe Acrobat 9 Pro

How to Perform OCR Using Adobe Acrobat Professional

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

 
A %d blogueros les gusta esto: