lunes, 9 de abril de 2007

Problemas con OCR en adobe acrobat

Estoy tratando de hacer ocr con el adobe acrobat profesional 7.0 de un pdf que he obtenido de un documento en postcript, y me sale como error "Acrobat no pudo realizar el reconocimiento de esta página porque: Ésta página contiene texto que puede representarse". Bueno, texto, lo que se dice texto, no contiene, pero si copio lo que tiene detrás del texto salen unos cuadraditos la mar de majos (pero nada útiles).

He estado buscando y he encontrado un blog bastante majo: Acrobat for legal professionals, en el cual no me ofrecían la solución pero hacía un diagnóstico bastante certero: parece ser que si el acrobat cree que una página contiene algo de texto "texto"(lo que sea: una fecha generada automáticamente, el nombre del autor al pie de página...) se la salta entera. Ésto no es lo que me pasa a mi, pero si cree de algún modo que tiene algo de texto, se salta la página, y todas las páginas tienen caracteres raros. Así que ¿cómo quito los quito?


Y ahora lo que suponeis... se hace una chapuza. Para quitar el texto por detrás de un documento pdf se imprime seleccionando como impresora el creador de pdfs de adobe.

6 comentarios:

Pozu dijo...

Esto sucede porque en el pdf hay algún texto reconocible. (quizás en el encabezado). Lo que tienes que hacer es guardar el pdf como .tiff, reimportarlo, y pasarle el OCR. Ahora ya sí te deja.

Pozu dijo...

Cuando ya tienes todos los tiffs, le das a ARCHIVO- CREAR PDF-DE VARIOS ARCHIVOS- y coges todos los tiffs q te ha creado en el paso anterior (además están ordenados por orden alfabético, osea que no se tarda nada). Et voila, ya le puedes hacer el OCR.

Anónimo dijo...

Bravo, Aracné. Y muchas gracias por la solución.

Daniel Esteban dijo...

Pozu

Tu solución hace caer mucho la calidad de los archivos... pero funciona =P

Pap dijo...

Una manera que me ha funcionado después de horas de intentarlo es la siguiente: En lugar de picar la tecla "Aa en este archivo" picad mejor "Aa En varios archivos", luego en la pestaña "Agregar archivos" le ponéis la opción "Agregar archivos abiertos" y le añadís el vuestro, le ponemos un sufijo X para diferenciarlo y...
Tampoco funciona! pero ahora hay una diferencia. No sé el motivo, pero os habrá generado una nueva copia con sufijo X, y si abrís esa nueva copia que apenas ha cambiado de tamaño, sí que se le puede pasar el "Reconocer Texto"

Anónimo dijo...

Pap!

Muchas gracias por tu comentario! A mí me funcionó un archivo con el mismo problema simplemente al seleccionar la o pción "Agregar archivos abiertos". Muchísimas gracias!