OCR a un archivo de imagen – Debian y derivados
Hoy me doy con una noticia donde comentan que una agencia de ciber crimen esta buscando empleados. Para ello el primer problema es resolver una encriptacion escrita en hexadecimal.
El problema es que en vez de dejar el texto en un archivo texto plano dejan una imagen.
Para poder pasar esto a un texto plano lo que tenemos que hacer es OCR ( Desde la wiki ).
Vamos a necesitar una herramienta, mejor dicho, un motor OCR
# aptitude install tesseract-ocr-spa
El archivo tiene que estar en formato archivo.tif, por lo que lo convertimos con cualquier editor de imagen a la exentsion necesaria. En mi caso utilize GIMP (abrir el archivo, despues guardar como archivo.tif)
Ahora tenemos que pasar el OCR a la imagen para poder reconocer los caracteres.
#tesseract yojota/Imagenes/cyber.tif jota -l spa
Esto nos crea un archivo de texto plano jota.txt
#cat jota.txt eb 04 Exf C2 bf E3 81 EC 00 01 OO 00 31 C9 88 DC OC fe C1 75 f9 31 C0 ba ef be ad de 02 04 OC OO dû C1 Ca 08 8a 1C OC 8a 3C 04 88 1C 04 88 3C DC fe C1 75 SS E9 5C 00 OO OO 89 E3 81 C3 04 00 OO 00 5C 58 3d 41 41 41 41 75 43 58 3d 42 42 42 42 75 3b 5a 89 d1 89 ES 89 df 29 Cf f3 Ex4 89 de 89 d1 89 df 29 Cf 31 C0 31 db 31 d2 fe CO 02 1C O6 Sa 14 06 Sa 34 1e 88 34 06 88 14 1e OO f2 30 f6 Sa 1C 16 Sa 17 30 da 88 17 47 49 75 de 31 db 89 d8 fe CO Cd 80 90 90 E8 9d ff ff ff 41 41 41 41
Ahora vamos a ver si podemos decifrar esto, a buscar como


Convertir ascii a hex:
echo -n $* | od -tx1 | cut -c8- | tr -d ‘\n’
Convertir hex a ascii:
echo $* | xxd -r -p
Reemplaza el echo por “cat archivodetextodondepuseelcodigo”
eb 04 af c2 bf a3 81 ec 00 01 00 00 31 c9 88 0c
0c fe c1 75 f9 31 c0 ba ef be ad de 02 04 0c 00
d0 c1 ca 08 8a 1c 0c 8a 3c 04 88 1c 04 88 3c 0c
fe c1 75 e8 e9 5c 00 00 00 89 e3 81 c3 04 00 00
00 5c 58 3d 41 41 41 41 75 43 58 3d 42 42 42 42
75 3b 5a 89 d1 89 e6 89 df 29 cf f3 a4 89 de 89
d1 89 df 29 cf 31 c0 31 db 31 d2 fe c0 02 1c 06
8a 14 06 8a 34 1e 88 34 06 88 14 1e 00 f2 30 f6
8a 1c 16 8a 17 30 da 88 17 47 49 75 de 31 db 89
d8 fe c0 cd 80 90 90 e8 9d ff ff ff 41 41 41 41
Correcion por daniel andrada