Mostrando entradas con la etiqueta pdf. Mostrar todas las entradas
Mostrando entradas con la etiqueta pdf. Mostrar todas las entradas

lunes 9 de abril de 2007

Problemas con OCR en adobe acrobat

Estoy tratando de hacer ocr con el adobe acrobat profesional 7.0 de un pdf que he obtenido de un documento en postcript, y me sale como error "Acrobat no pudo realizar el reconocimiento de esta página porque: Ésta página contiene texto que puede representarse". Bueno, texto, lo que se dice texto, no contiene, pero si copio lo que tiene detrás del texto salen unos cuadraditos la mar de majos (pero nada útiles).

He estado buscando y he encontrado un blog bastante majo: Acrobat for legal professionals, en el cual no me ofrecían la solución pero hacía un diagnóstico bastante certero: parece ser que si el acrobat cree que una página contiene algo de texto "texto"(lo que sea: una fecha generada automáticamente, el nombre del autor al pie de página...) se la salta entera. Ésto no es lo que me pasa a mi, pero si cree de algún modo que tiene algo de texto, se salta la página, y todas las páginas tienen caracteres raros. Así que ¿cómo quito los quito?


Y ahora lo que suponeis... se hace una chapuza. Para quitar el texto por detrás de un documento pdf se imprime seleccionando como impresora el creador de pdfs de adobe.