Archivo de la etiqueta: Optical character recognition

OCR (reconomiento óptico de caracteres) para Kanji

Y así de golpe y porrazo ya pasó un mes desde la última vez que escribí. Falta de tiempo y de inspiración me han mantenido alejado. A pedido del público (mentira) reaparezco para comentar algo que quedó pendiente por ahí en un comentario de Javier F: el OCR. Me imagino que la gran mayoría de los traductores  detestamos los PDF como formato para traducir, pero los usamos bastante como formato para mandar CV, cotizaciones y demás documentos que requieren una menor “editabilidad”. 

En realidad, cuando el PDF está hecho “como la gente” a partir de un documento digital, los problemas de conversión no son tantos. Sí, el formato se puede perder o desordenar, pero al menos tienes el texto. Sin embargo, como suele suceder con la mayoría (en mi caso, al ojo, un 90%) de las traducciones desde el japonés, el documento original es un lindo PDF escaneado, muchas veces rayas y texto manuscrito (“no traducir esto” y cosas así).

Luego de maldecir un poco, la única solución es la aplicación de OCR rogando que resulte. Si la resolución es alta y los caracteres son fácilmente legibles, los resultados pueden ser más que asombrosos. En cambio, si la resolución es baja y los caracteres aparecen “reventados”, los resultados pueden ser horrorosamente malos.  Por lo general, malos resultados arrojan una página con tanto kanji exótico que parece chino.

Ahora, ¿qué herramientas uso para esta odisea?

Un sencillo y no muy caro programita especializado en japonés: やさしくPDF OCR v.2.0  .  Lo tengo hace varios años y es mi OCR fiel. Ahora bien, hace rato que no se actualiza la página donde lo venden, así que no me queda claro si aún existe o no.

Este やさしくPDF OCR v.2.0 tiene bastantes buenos resultados, y es bastante ajustable. El gran problema  es que para el texto combinado japonés y carácteres latinos, fracasa rotundamente en estos últimos, pues se le olvida poner espacios entre medio. QUeDAalgoasI. El otro problema es el típico  de las aplicaciones para japonesas: normalmente no usan los mismos atajos de teclado que en inglés (si es que los usan) y ordenan los comandos de forma “típicamente japonesa”.

Al menos hasta hace un tiempo, programas excelentes en OCR para letras occidentales como Abby Fine Reader no tenían complemento para japonés. No sé si lo habrán adaptado ni a qué nivel, pero a juzgar por los bastante buenos resultados que he obtenido con el ReadIris que venía con la impresora HP, si es que Abby lo incorporó, debería ser bastante bueno.

La otra herramienta y la única gratuita que conozco, es la función de OCR que hay en una poco conocida aplicación que suele estar escondida en las herramientas de Microsoft Office: “Document Imaging”.  El único pero es que funciona con el idioma del sistema operativo de tu computador, así que si usas uno en japo, quizás sin saberlo, tienes un OCR para japo.  Si no, igual tienes un OCR del idioma de tu sistema, lo que igual no es malo. Ojo, la desventaja es que esa aplicación sólo abre archivos .tiff o .mdi, por lo que antes debes guardar el PDF en esos formatos (¿cómo?  se lo explico en los comentarios al que quiera).

OCR "escondido"

OCR “escondido” (clic para agrandar)

12 comentarios

Archivado bajo Localización, Traducción, Uncategorized