Las aplicaciones Open Source están presentes en todos los ámbitos, aunque en algunas áreas el soporte y prestaciones son inferiores a las que podemos encontrar en el mundo Windows. Es el caso del software de reconocimiento de textos, OCR, que permite escanear un documento de texto y trasladar ese texto a un fichero plano que podamos tratar como un documento de texto convencional.
Un usuario de Slashdot ha contado su experiencia con soluciones Open Source como CuneiForm y ExactImage, que teóricamente son capaces de tomar un documento escaneado y realizar el reconocimiento óptico de caracteres, pero el proceso es complejo y engorroso.
Sin embargo hay una solución al problema: se trata de WatchOCR, una distribución en formato LiveCD que crea un servidor en neustra red que proporciona un servicio OCR utilizando ciertas carpetas que se vigilan constantemente. Cuando se escanea un nuevo documento pasa a esos directorios o carpetas, y WatchOCR coge esos ficheros, los trata con sus algoritmos OCR y los divide en otra carpeta.
A partir de ahí WatchOCR usa precisamente CuneiForm y ExactImage para completar el proceso sin que el usuario tenga que escanear nada, e incluso se puede controlar todo de forma remota a través de una interfaz web. Una aplicación práctica: escanear documentos para obtener PDFs completamente legibles y en los que además sea posible realizar búsquedas de texto.
En los comentarios de Slashdot apuntan una pequeña desventaja: no hay código fuente para el proyecto, que está licenciado con la GNU GPL pero que curiosamente no da demasiados datos sobre ese código o cómo funciona todo el proceso. En cualquier caso, puede que WatchOCR os solucione vuestros problemas.
Via: MuyLinux