Supongamos que escaneamos un texto usando un escáner o que nos bajamos de Internet un archivo PDF en el que cada página es una imagen, entonces mientras no le pasemos un OCR (Optical Character Recognition), sólo tendremos una imagen (o varias) sobre la que no podremos realizar búsquedas o seleccionar parte del texto.
Si estamos en alguno de estos casos, podemos usar pdfocr. Se trata un programa que partiendo de un archivo PDF genera uno nuevo al que le añade una capa de texto por lo que si lo imprimimos lo veremos igual que el original pero ahora podemos buscar texto o seleccionarlo.
Para instalar pdfocr podemos ejecutar el siguiente comando en un terminal (Aplicaciones > Accesorios > Terminal):
sudo add-apt-repository ppa:gezakovacs/pdfocr && sudo aptitude update && sudo aptitude install pdfocr
Una vez instalado podemos pasarle el OCR a cualquier archivo PDF que tengamos con el siguiente comando:
pdfocr -i entrada.pdf -o salida.pdf
Donde entrada.pdf será el archivo PDF al que queremos añadirle la capa de texto para poder buscar en él y salida.pdf será el archivo que obtendremos. Si no te encuentras en la carpeta correspondiente, no olvides de añadirle la ruta.
También podemos indicar que use un idioma distinto del inglés para el OCR con la opción -l (ele). En nuestro caso, para el español sería con spa:
pdfocr -i entrada.pdf -o salida.pdf -l spa
Para ver la lista completa de idiomas que soporta cuneiform ejecuta:
cuneiform -l
Si el archivo PDF no indica la resolución, pdfocr la establecerá a 300 y esto implicará que las búsquedas no encontrarán el texto correctamente (estará desplazado).
Via: Slice Of Linux