Este blog se describe cómo escanear páginas de un libro impreso y convertir la imagen en texto usando la tecnología (OCR) reconocimiento óptico de caracteres.

Las herramientas que utilizo son:

SimpleScan
tesseract

Preparación

Para instalar manualmente en Debian: />
$ sudo apt-get install

tesseract es un programa OCR de línea de comandos.

Para instalar: />
$ sudo apt-get install tesseract-ocr

Si el Inglés es el idioma que se utiliza, que es todo lo que necesita para instalar. Si necesita otro idioma, debe instalar los paquetes de idioma tesseract adicionales. Ejemplos de ello son tesseract-ocr-rus para el ruso, tesseract-ocr-deu para el alemán, y Tesseract OCR-fra de francés.

Procedimiento OCR

Escanear las páginas utilizando SimpleScan.
Guarde la imagen.
Ejecute el comando tesseract:
```
 
 $  tesseract OnWritingWell.jpg cabo 
 Tesseract OCR Open Source Engine v3.02 con Leptonica 
 
```
El primer parámetro es el nombre de archivo de imagen de entrada. El segundo parámetro es el nombre base deseada del archivo de texto de salida. El valor predeterminado txt de extensión se agrega al nombre base, por ejemplo, out.txt .

Si el idioma no es el Inglés, es necesario especificar el idioma en la línea de comandos mediante un código de idioma de 3 caracteres (consulte el hombre tesseract página). El siguiente comando especifica el uso de 3 idiomas: ruso, alemán y francés.
```
 
 $  tesseract OnWritingWell.jpg myout-l rus + + deu fra 
 
```

OCR de escaneo

Preparación

Procedimiento OCR

Precisión

Deja un comentario Cancelar la respuesta

OCR de escaneo

Preparación

Procedimiento OCR

Precisión

Posts Relacionados

Deja un comentario Cancelar la respuesta