Contar palabras (2a parte)


Y seguimos entonces con esto del conteo. La idea era contarles de aplicaciones de pago, como Anycount, que sirven para el conteo en formatos distintos a Word, se pueden usar en varios archivos de forma simultánea y entregan un informe bien bonito, ordenado y detallado que podemos incluir en nuestra cotización. No obstante, gracias al comentario de Pablo Beauvier me enteré de la existencia de un pequeño programilla gratuito, que hace precisamente lo mismo, con la gracia de que incluso distingue entre letras asiáticas y occidentales. Se trata nada más y nada menos que de Count Anything. Hasta donde he podido probar, funciona bastante bien con archivos de Word, Excel, PowerPoint , HTML y PDF, aunque admite otros formatos que no he probado aún. (Tarea para el que quiera hacerlo).

Resultados con Count Anything

Nótese que distinque tipos de caracteres y permite contar archivos de distinto formato al mismo tiempo

La única desventaja que le veo frente a Anycount, es que no se puede configurar lo que queremos que cuente o ignore. Por ejemplo, a veces nos piden traducir una presentación en PowerPoint, pero ignorar las notas del orador que incluyen algunas diapositivas.  Anycount nos da la opción de ignorar las notas. Count Anything, no. Pero a caballo regalado, no le mires la configuración.

Otra cosa con respecto a los archivos de PowerPoint:  Al hacer clic derecho en el archivo e ir a Propiedades > Estadísticas veremos una línea donde figura un número que corresponde a la cantidad de palabras.  A partir de mi experiencia, iba a decir que no conviene fiarse de ese número porque suele ser inferior a la realidad, pero aparentemente a partir de Office 2007 resulta más preciso. Al menos con las pocas pruebas que acabo de hacer. Así que pueden sacar sus propias conclusiones.

¿Y qué pasa con los archivos PDF?

Primero, tenemos que entender que los hay de varios tipos:

  1. Los bien hechos o hechos “como la gente” de manera digital, en la que el texto se puede seleccionar y por lo tanto, contar.
  2. Los “hechos con los pies”, que son en realidad una foto escaneada y por lo tanto, no se pueden contar las palabras de buenas a primeras. En realidad no es que estén mal hechos, sino que dependen de las limitaciones y la no disponibilidad del texto en formato digital.
  3. Los más o menos, que son el resultado del OCR de una imagen. O sea, son una foto, pero se pueden contar, aunque a veces con detalles y letras mal reconocidas.

Entonces, para el primer tipo, podemos usar la herramienta antes mencionada, o esta otra solución un poco más nerd que no requiere otros programas. Para ello, hay que pegar el siguiente código en la consola de JavaScript y ejecutarlo, (para ejecutarlo en Acrobat Reader se selecciona el código y se presiona control y enter al mismo tiempo… según me explican, yo lo probé con otro lector de PDF)

var cnt=0;

for (var p = 0; p < this.numPages; p++)

cnt += getPageNumWords(p);

console.println(“There are ” + cnt + ” words in this doc.”);

Para que les quede más claro, les dejo unas capturas de pantalla que me mandó la personita que me lo enseñó.

paso 1 paso 2 paso 3

Y creo que eso sería lo que iba a contarles. Hay otras herramientas (por ejemplo, Practicount & Invoice) pero no la conozco. Entiendo que presenta más funcionalidades y configurabilidad que podría resultar muy útil.

Ah, otra cosa: Anycount, viene incluido como función dentro del TO3000 del que les hablé en otra ocasión. Si lo compran  a través de este enlace, se supone que me toca comisión. No ha pasado nunca eso sí…o nadie me lee o nadie me cree. 🙂

Bonus track:

Me preguntaron por Facebook qué hacer en el caso de los hard copy,  pues nos vemos obligados  a contar a mano y perder mucho tiempo. Lamentablemente no es mucho lo que se puede hacer, pero lo que se me ocurre, sería:

1) Escanear a la mejor resolución posible.

2) Aplicar un buen OCR, por ejemplo AbbyFineReader. Si el presupuesto no alcanza para ello, probar con la herramienta que debe venir instalada con el escáner.

3) Al aplicar el OCR, centrarse solo en el texto, ya que eso es lo que estamos contando, por lo tanto, no habría que guardarlo ni como PDF escaneado ni como RTF, bastará solo con el texto sin formato.

4) Contar las palabras con Word o la herramienta de preferencia.

Como el éxito del procedimiento dependerá de la calidad del original, si el original es fax o una fotocopia de fotocopia y un texto todo reventado, saldrá más rápido y sano no contar las palabras. En ese caso, aplicar ojímetro y decirle al cliente que cobras N por x cantidad de palabras, y que calculas que saldrá y veces esa cantidad.  Sorry y gomen, Sole, pero eso es todo lo que se me ocurre.

 

 

 

 

Anuncios

12 comentarios

Archivado bajo CAT, Traducción

12 Respuestas a “Contar palabras (2a parte)

  1. Hola, Juan Luis: muchas gracias por la mención.

    Creo que una sugerencia al polifacético Ryan Ginstrom en cuanto a mirarse la configuración del caballo regalado (Count Anything) en su blog http://t.co/SKghdG2kMl no estaría de más. Capacidad para implementar tus sugerencias creo que tiene, vista la siguiente macro del mismo autor: http://ginstrom.com/software/wordmacros/wordcount.php.

    No conocía el truco del Javascript. pero me parece genial, así como el resto del artículo. Un saludo.

  2. Hace tiempo estuve buscando un corrector ortográfico de japonés. Llegué a la conclusión de que no existía nada parecido debido a la complejidad de separar las palabras.

    Además el resultado que te da el .ppt de la primera imagen me mosquea, ¿12.000 caracteres y 11.500 palabras?

    No sé nada de contar palabras en japonés, así que igual se me escapa algo, pero… ¿seguro que eso está bien?

    Saludos.

    • Hola.
      Lo único que conozco de correctores ortográficos en japonés es el de Word, pero en mi experiencia, no sirve mucho. Puedes escribir cualquier barbaridad y nunca detecta nada. Sólo algunas inconsistencias como コンピュータ y コンピューター en un mismo texto y cosas por el estilo.
      Con respecto al conteo, que haya mas caracteres que palabras se explica por que hay 11.300 letras japonesas + 200 palabras occidentales (que a su vez se componen de más caracteres) = 11.500 aprox.
      Saludos

      • Lo que quería decir es que, con ese conteo, casi todas las palabras tendrían que ser monosílabos.

        Lo único que se me ocurre es que al contar palabras en japonés se toma cada carácter como una palabra. ¿Es así?

      • Efectivamente, así es. Es que como no hay espacios, no hay manera de diferenciar. Además, no resulta tan fácil decidir qué es lo que se considera una palabra: ¿見れば o 見れ ば? (Mira este link http://chu.benesse.co.jp/qat/7394_j.html seguro te sorprende la forma en que separan las palabras). No existe un consenso al respecto. De todas formas, eso no afecta a la hora de contar caracteres para cotizar una traducción: que sean palabras, morfemas o signos de puntuación, es irrelevante.
        Saludos

      • aiueo

        Me viene justito para leerlo. ^^ Pero sí que es sorprendente. ¡¿«行きます» son dos palabras?!

        Pero pensándolo bien, tampoco es tan raro. Supongo que gramaticalmente ese 〜ます no lo verán muy distinto de un 〜ぐらい o un 〜にくい. Puede que sea nuestra forma de ver las palabras lo que nos confunde. ^^U

      • Exactamente, es el concepto de palabra el distinto. Saludos.

  3. Soledad

    Muchas gracias. Voy a tratar con alternativa 1 y 2. ya que 3 generalmente termina tomando mas tiempo en corregir los errores que contar a mano. deseame suerte. Todo lo demas me sera muy util para el resto.

  4. ¡Hola! Si estan interesados en localizar web software, PC software, móvil software o cualqier otro tipo de software, reccomendo con calor este rápido y intuitivo instrumento de localización: http://poeditor.com/.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s