Y seguimos entonces con esto del conteo. La idea era contarles de aplicaciones de pago, como Anycount, que sirven para el conteo en formatos distintos a Word, se pueden usar en varios archivos de forma simultánea y entregan un informe bien bonito, ordenado y detallado que podemos incluir en nuestra cotización. No obstante, gracias al comentario de Pablo Beauvier me enteré de la existencia de un pequeño programilla gratuito, que hace precisamente lo mismo, con la gracia de que incluso distingue entre letras asiáticas y occidentales. Se trata nada más y nada menos que de Count Anything. Hasta donde he podido probar, funciona bastante bien con archivos de Word, Excel, PowerPoint , HTML y PDF, aunque admite otros formatos que no he probado aún. (Tarea para el que quiera hacerlo).

Nótese que distinque tipos de caracteres y permite contar archivos de distinto formato al mismo tiempo
La única desventaja que le veo frente a Anycount, es que no se puede configurar lo que queremos que cuente o ignore. Por ejemplo, a veces nos piden traducir una presentación en PowerPoint, pero ignorar las notas del orador que incluyen algunas diapositivas. Anycount nos da la opción de ignorar las notas. Count Anything, no. Pero a caballo regalado, no le mires la configuración.
Otra cosa con respecto a los archivos de PowerPoint: Al hacer clic derecho en el archivo e ir a Propiedades > Estadísticas veremos una línea donde figura un número que corresponde a la cantidad de palabras. A partir de mi experiencia, iba a decir que no conviene fiarse de ese número porque suele ser inferior a la realidad, pero aparentemente a partir de Office 2007 resulta más preciso. Al menos con las pocas pruebas que acabo de hacer. Así que pueden sacar sus propias conclusiones.
¿Y qué pasa con los archivos PDF?
Primero, tenemos que entender que los hay de varios tipos:
- Los bien hechos o hechos «como la gente» de manera digital, en la que el texto se puede seleccionar y por lo tanto, contar.
- Los «hechos con los pies», que son en realidad una foto escaneada y por lo tanto, no se pueden contar las palabras de buenas a primeras. En realidad no es que estén mal hechos, sino que dependen de las limitaciones y la no disponibilidad del texto en formato digital.
- Los más o menos, que son el resultado del OCR de una imagen. O sea, son una foto, pero se pueden contar, aunque a veces con detalles y letras mal reconocidas.
Entonces, para el primer tipo, podemos usar la herramienta antes mencionada, o esta otra solución un poco más nerd que no requiere otros programas. Para ello, hay que pegar el siguiente código en la consola de JavaScript y ejecutarlo, (para ejecutarlo en Acrobat Reader se selecciona el código y se presiona control y enter al mismo tiempo… según me explican, yo lo probé con otro lector de PDF)
var cnt=0;
for (var p = 0; p < this.numPages; p++)
cnt += getPageNumWords(p);
console.println(«There are » + cnt + » words in this doc.»);
Para que les quede más claro, les dejo unas capturas de pantalla que me mandó la personita que me lo enseñó.
Y creo que eso sería lo que iba a contarles. Hay otras herramientas (por ejemplo, Practicount & Invoice) pero no la conozco. Entiendo que presenta más funcionalidades y configurabilidad que podría resultar muy útil.
Ah, otra cosa: Anycount, viene incluido como función dentro del TO3000 del que les hablé en otra ocasión. Si lo compran a través de este enlace, se supone que me toca comisión. No ha pasado nunca eso sí…o nadie me lee o nadie me cree. 🙂
Bonus track:
Me preguntaron por Facebook qué hacer en el caso de los hard copy, pues nos vemos obligados a contar a mano y perder mucho tiempo. Lamentablemente no es mucho lo que se puede hacer, pero lo que se me ocurre, sería:
1) Escanear a la mejor resolución posible.
2) Aplicar un buen OCR, por ejemplo AbbyFineReader. Si el presupuesto no alcanza para ello, probar con la herramienta que debe venir instalada con el escáner.
3) Al aplicar el OCR, centrarse solo en el texto, ya que eso es lo que estamos contando, por lo tanto, no habría que guardarlo ni como PDF escaneado ni como RTF, bastará solo con el texto sin formato.
4) Contar las palabras con Word o la herramienta de preferencia.
Como el éxito del procedimiento dependerá de la calidad del original, si el original es fax o una fotocopia de fotocopia y un texto todo reventado, saldrá más rápido y sano no contar las palabras. En ese caso, aplicar ojímetro y decirle al cliente que cobras N por x cantidad de palabras, y que calculas que saldrá y veces esa cantidad. Sorry y gomen, Sole, pero eso es todo lo que se me ocurre.