OCR (reconomiento óptico de caracteres) para Kanji


Y así de golpe y porrazo ya pasó un mes desde la última vez que escribí. Falta de tiempo y de inspiración me han mantenido alejado. A pedido del público (mentira) reaparezco para comentar algo que quedó pendiente por ahí en un comentario de Javier F: el OCR. Me imagino que la gran mayoría de los traductores  detestamos los PDF como formato para traducir, pero los usamos bastante como formato para mandar CV, cotizaciones y demás documentos que requieren una menor “editabilidad”. 

En realidad, cuando el PDF está hecho “como la gente” a partir de un documento digital, los problemas de conversión no son tantos. Sí, el formato se puede perder o desordenar, pero al menos tienes el texto. Sin embargo, como suele suceder con la mayoría (en mi caso, al ojo, un 90%) de las traducciones desde el japonés, el documento original es un lindo PDF escaneado, muchas veces rayas y texto manuscrito (“no traducir esto” y cosas así).

Luego de maldecir un poco, la única solución es la aplicación de OCR rogando que resulte. Si la resolución es alta y los caracteres son fácilmente legibles, los resultados pueden ser más que asombrosos. En cambio, si la resolución es baja y los caracteres aparecen “reventados”, los resultados pueden ser horrorosamente malos.  Por lo general, malos resultados arrojan una página con tanto kanji exótico que parece chino.

Ahora, ¿qué herramientas uso para esta odisea?

Un sencillo y no muy caro programita especializado en japonés: やさしくPDF OCR v.2.0  .  Lo tengo hace varios años y es mi OCR fiel. Ahora bien, hace rato que no se actualiza la página donde lo venden, así que no me queda claro si aún existe o no.

Este やさしくPDF OCR v.2.0 tiene bastantes buenos resultados, y es bastante ajustable. El gran problema  es que para el texto combinado japonés y carácteres latinos, fracasa rotundamente en estos últimos, pues se le olvida poner espacios entre medio. QUeDAalgoasI. El otro problema es el típico  de las aplicaciones para japonesas: normalmente no usan los mismos atajos de teclado que en inglés (si es que los usan) y ordenan los comandos de forma “típicamente japonesa”.

Al menos hasta hace un tiempo, programas excelentes en OCR para letras occidentales como Abby Fine Reader no tenían complemento para japonés. No sé si lo habrán adaptado ni a qué nivel, pero a juzgar por los bastante buenos resultados que he obtenido con el ReadIris que venía con la impresora HP, si es que Abby lo incorporó, debería ser bastante bueno.

La otra herramienta y la única gratuita que conozco, es la función de OCR que hay en una poco conocida aplicación que suele estar escondida en las herramientas de Microsoft Office: “Document Imaging”.  El único pero es que funciona con el idioma del sistema operativo de tu computador, así que si usas uno en japo, quizás sin saberlo, tienes un OCR para japo.  Si no, igual tienes un OCR del idioma de tu sistema, lo que igual no es malo. Ojo, la desventaja es que esa aplicación sólo abre archivos .tiff o .mdi, por lo que antes debes guardar el PDF en esos formatos (¿cómo?  se lo explico en los comentarios al que quiera).

OCR "escondido"

OCR “escondido” (clic para agrandar)

Anuncios

12 comentarios

Archivado bajo Localización, Traducción, Uncategorized

12 Respuestas a “OCR (reconomiento óptico de caracteres) para Kanji

  1. aiueo

    Hola. ^^

    Yo a veces he usado imagemagick para pasar documentos PDF a archivos de imagen, redimensionar imágenes, convertir de un formato a otro, unir o dividir imágenes, etc. Es una pasada porque puedes manejar cientos de imágenes como si nada. Aunque no es algo que suela hacer muy a menudo.

    Y como profano de la traducción profesional me asalta una duda, ¿por qué quieres pasar el documento a texto? ¿No sería más fácil tener el original al lado del traducido e ir leyendo de uno y escribiendo en el otro? Yo creo que siendo capaz de leer el original, el OCR debería ser una molestia más que otra cosa. ^^U

    Saludos.

    • Gracias por el dato, no lo conocía, así que veré que tal. Con respescto a la utilidad de pasar el documento a texto, hay varias:
      1. Cotizar: Para dimensionar la cantidad de caracteres y por ende tiempo, aunque no sea exacto, conviene saber más o menos cuántos caracteres hay.
      2. Según el tipo de texto, puedes beneficiarte del uso de memorias de traducción.
      3. Es más fácil y ergonómico trabajar en el mismo documento que tener dos aplicaciones paralelas.
      4. Si te salen palabras difíciles, como 瑠璃燈, es más fácil buscarlas en internet. Si no, tienes que agarrar diccionario de papel, contar trazos, etc.
      5. Hasta aquí se me ocurre ahora, pero hay más motivos…

  2. Karla

    Yo quiero saber la magia para guardarlos en .mdi!
    Saludos

    • Oh, primero que nada, mea culpa. Dije “esos formatos”, pero en realidad solo sabía con el .tiff (acabo de darme cuenta que no para mdi).
      Y más que magia, es un cacho.
      Lo que hay que haces es tomar una instantánea (snapshot) de cada página del PDF y copiarla desde el portapapeles a tu editor de imágenes favorito. Al menos para tiff, basta con Paint.
      Eso, sorry por las falsas expectativas 😦

      • aiueo

        Con lo de .mdi no puedo ayudar, pero creo que ese método para pasar a .tiff se puede aligerar bastante con la aplicación que puse arriba. (http://www.imagemagick.org/)

        No sé cómo funcionará la versión para Windows, pero ésta sería la instrucción para convertir las cinco primeras páginas de entrada.pdf a salida1.tiff, salida2.tiff, etc.:

        convert -density 300 entrada.pdf[1-5] salida%d.tiff

        Si no se pone el «%d», se generará un sólo archivo .tiff con una capa para cada página convertida.

        Eso de «density» creo que será útil para el OCR, pero salen archivos mucho más grandes y le cuesta mucho más tiempo generarlos. Se podría probar con diferentes valores.

        Saludos. ^^

      • Gracias, lo tendré en cuenta.

  3. Hola, Juan Luis:

    Muy, pero que muy interesante tu entrada 🙂

    Visité la web de やさしくPDF OCR v.2.0 pero al haber dejado de darle soporte eliminaron el archivo para su descarga, así que no lo he podido probar.

    También probé lo que comentas sobre el Document Imaging que trae Microsoft Office.
    Como a partir de Windows 7 (aunque en esta versión del sistema únicamente con las versiones Ultimate y Enterprise) puedes cambiar el idioma de visualización de Windows “al vuelo”, intenté probar lo que comentas.
    Pero la verdad es que no lo he conseguido, ya que no me aparece el japonés en los idiomas a reconocer por OCR. Me temo que me falta algún pack de idioma en Office. Pero el caso es que los tengo supuestamente instalados. Mi gozo en un pozo.

    Como no me suelo rendir tan fácilmente, realicé una búsqueda rápida y he encontrado un programa que me ha funcionado bastante bien. Se llama
    Capture2text y sirve como su nombre indica para capturar lo que aparece en pantalla y transformarlo en texto. Su web aquí http://capture2text.sourceforge.net/

    Su uso es un poco rudimentario pero la verdad es que con la prueba que he hecho me ha funcionado estupendamente. Habría que ver si con pdfs de resolución pésima, con miles de anotaciones, o muy sucios funcionará igual de bien. El caso es que no está de más que le eches un ojo.
    Al capturar lo que aparece en pantalla, no importa si lo que capturamos es un pdf, una página web o una imagen, tenga el formato que tenga.
    También trae soporte de voz a texto, pero no lo he probado.

    Bueno, espero que le sea a alguien de utilidad.

    Por curiosidad, ¿qué versión de Windows tienes? Parece NT 4.0 😛

    ¡Saludos!

    • Gracias Javier por el dato, voy a probarlo un día de estos. Quizás tú sabes la respuesta a una duda que me aqueja: Eso que dices de cambiar el idioma “al vuelo”, se supone que en Windows 8 se puede hacer con todas las versiones, ¿no?. Resulta que en las tiendas, para computadores nuevos con 8 preinstalado, por aquí muchas veces dice “single language”. Le he consultado a los vendedores al respecto pero claro, no tienen mucha idea. ¿Sabes si existe una versión a la que no se le pueda cambiar el idioma? no me gustaría renovar mi máquina con NT 4.0 (mentira, es Windows 7 home premium en japo, solo que está en modo “sin florituras”) para quedarme con un windows 8 monolingüe.

      • Así, es. Puedes agregar packs de idiomas nuevos y una vez los descargue y los instales puedes asignarlos como idiomas del sistema.

        En la práctica solo hay dos versiones de Windows 8, la normal y la Pro. Lo de lsingle anguage será porque con algún idioma te tiene que venir de fábrica, imagino. Si quieres otros, los descargas. Punto para Microsoft.

        Pero como dije, pese a cambiar el idioma (era en Windows 8) no he conseguido que Office me reconozca OCR. ¿Tu versión de Office es japonesa también?

      • Sí, office 2007 en japonés. Cuando me pase a 2008, que supongo será originalmente en español, haré la prueba y te diré si me resulta el OCR para japo. ¡Saludos!

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s