Como funciona el OCR en pdftoxlsx
Cuando subes un PDF, pdftoxlsx primero verifica si el archivo contiene texto seleccionable o imagenes escaneadas. Si el PDF es basado en imagenes (un escaneo o fotografia), pdftoxlsx activa automaticamente su motor OCR para reconocer caracteres, numeros y estructuras de tablas. El OCR identifica filas de transacciones, separa columnas de fecha, descripcion e importe, y reconstruye el diseno de la tabla. No se necesita configuracion - el OCR se activa automaticamente cuando es necesario.
Recomendaciones de calidad de escaneo
La calidad del escaneo afecta directamente la precision del OCR. Para mejores resultados: escanea a 300 DPI o mas (la mayoria de escaneres modernos usan 300 DPI por defecto). Usa modo color o escala de grises - evita el escaneo en blanco y negro puro (1-bit), que pierde detalle en fuentes finas y puntos decimales. Asegurate de que la pagina este plana y alineada en el escaner - las paginas torcidas reducen la precision. Si escaneas con la camara del movil, usa una app de escaneo de documentos (no la camara normal) y asegurate de tener iluminacion uniforme sin sombras sobre el texto.
Problemas comunes con extractos escaneados
Paginas torcidas o rotadas. pdftoxlsx puede manejar rotaciones leves (hasta 5 grados) automaticamente. Para escaneos muy torcidos, endereza la pagina en tu app de escaneo antes de subirla. Escaneos de bajo DPI. Escaneos por debajo de 200 DPI pueden producir errores en importes decimales y fechas. Vuelve a escanear a 300 DPI si es posible. Anotaciones manuscritas. Notas escritas a mano, sellos o firmas en el extracto pueden interferir con el OCR. pdftoxlsx ignora la mayoria de anotaciones, pero la escritura intensa sobre filas de transacciones puede causar errores. Disenos multicolumna. Algunos extractos tienen disenos complejos de multiples columnas. El OCR maneja bien los disenos estandar de dos columnas (debito/credito). Los disenos inusuales pueden requerir revision manual de algunas filas.
Consejos para mejores resultados de OCR
1. Usa el PDF original de tu banco siempre que sea posible - los PDFs digitales son siempre mas precisos que los escaneos. 2. Si debes escanear, usa un escaner plano a 300+ DPI en escala de grises o color. 3. Escanea una pagina a la vez y asegurate de que cada pagina este recta. 4. Retira clips, grapas y notas adhesivas antes de escanear. 5. Despues de la conversion, verifica los importes contra el extracto original - el OCR en documentos escaneados tipicamente logra 95-98% de precision frente al 99%+ de los PDFs digitales.
Preguntas frecuentes
Como puedo saber si mi PDF es escaneado o digital?
Abre el PDF e intenta seleccionar texto con el raton. Si puedes resaltar palabras individuales, es un PDF digital con texto incrustado. Si hacer clic y arrastrar no selecciona nada o selecciona toda la pagina como imagen, es un PDF escaneado. pdftoxlsx detecta esto automaticamente y aplica OCR cuando es necesario.
A cuantos DPI debo escanear mi extracto bancario?
Escanea a 300 DPI o mas para una precision OCR optima. 300 DPI es el estandar de la industria para escaneo de documentos y funciona bien con todos los tamanos de fuente de los extractos bancarios. Un DPI mayor (400-600) puede mejorar resultados en extractos con letra muy pequena pero aumenta el tamano del archivo sin ganancias significativas de precision.
Puede pdftoxlsx manejar una foto de un extracto bancario tomada con el movil?
Si, siempre que la imagen sea razonablemente clara con buena iluminacion. Usa una app de escaneo de documentos como el escaner de Notas de Apple, escaneo de Google Drive o Adobe Scan - estas apps recortan, enderezan y mejoran la imagen automaticamente. Evita fotos normales tomadas en angulo con sombras, ya que reducen significativamente la precision del OCR.
Es la precision del OCR tan buena como la conversion de PDF digital?
El OCR en documentos bien escaneados tipicamente logra 95-98% de precision, mientras que la conversion de PDF digital logra 99%+. La diferencia proviene de artefactos de imagen, renderizado de fuentes y problemas menores de alineacion inherentes al escaneo. Siempre verifica algunas transacciones despues de la conversion OCR, especialmente importes decimales y fechas.
Convierte tu extracto escaneado ahora
Sin registro. Los archivos se eliminan en 1 hora. GDPR compliant.
Convierte tu extracto escaneado ahora →