Nemotron OCR v2: OCR multilingüe rápido con datos sintéticos

Nemotron OCR v2 demuestra algo que muchos sospechábamos pero pocos habían cuantificado: con suficiente datos sintéticos realistas puedes entrenar un OCR multilingüe que sea a la vez preciso y veloz. ¿Cómo lo lograron? Combinando una granja de datos renderizados con una arquitectura que reaprovecha características para evitar trabajo redundante.

Qué lograron y por qué importa

Construyeron un modelo OCR multilingüe (inglés, chino, japonés, coreano, ruso) que alcanza errores casi nulos en pruebas sintéticas y procesa 34.7 páginas por segundo en una sola GPU A100. Eso no es sólo rapidez por la rapidez: significa pipelines de producción más baratos y respuestas en tiempo real para aplicaciones que deben leer documentos en varios idiomas sin detectar idioma previo.

La palanca principal fue el uso masivo de datos sintéticos: 12.2 millones de páginas generadas con anotación pixel-perfect (cajas a nivel de palabra, línea y párrafo, y grafos de orden de lectura). El dataset público es y el modelo está disponible como .

Language	Total Samples	Train	Test	Validation
English	1,825,089	1,460,304	183,629	181,156
Japanese	1,889,137	1,502,712	193,779	192,646
Korean	2,269,540	1,814,994	227,091	227,455
Russian	1,724,733	1,380,404	171,678	172,651
Chinese (Simplified)	2,335,343	1,914,948	210,143	210,252
Chinese (Traditional)	2,214,304	1,772,280	221,867	220,157
Total	12,258,146	9,845,642	1,208,187	1,204,317

Variante	Idiomas	Nivel de región	Capas reconocedor	Charset	Parámetros
`v2_english`	English	Word	3	855	54M
`v2_multilingual`	EN, ZH, JA, KO, RU	Line	6	14,244	84M

Language	PaddleOCR (base)	PaddleOCR (specialized)	OpenOCR (server)	Nemotron OCR v1	Nemotron OCR v2 (multi)
English	0.117	0.096	0.105	0.078	0.069
Japanese	0.201	0.201	0.586	0.723	0.046
Korean	0.943	0.133	0.837	0.923	0.047
Russian	0.959	0.163	0.950	0.564	0.043
Chinese (Simplified)	0.054	0.054	0.061	0.784	0.035
Chinese (Traditional)	0.094	0.094	0.127	0.700	0.065

Model	pages/s	EN	ZH	Mixed
PaddleOCR v5 (server)	1.2	0.027	0.037	0.041
OpenOCR (server)	1.5	0.024	0.033	0.049
Nemotron OCR v2 (multi)	34.7	0.048	0.072	0.142
Nemotron OCR v2 (EN)	40.7	0.038	0.830	0.437
Nemotron OCR v1	39.3	0.038	0.876	0.436
EasyOCR	0.4	0.095	0.117	0.326

Qué lograron y por qué importa

Datos sintéticos: la receta y por qué funciona

Extensiones importantes sobre SynthDoG

El dataset en cifras

Arquitectura: diseño para velocidad y estructura

Resultados: precisión y velocidad

Tradeoffs y decisiones de diseño

Licencia, demos y cómo probarlo

Fuente original

¡Mantente al día!

Nemotron OCR v2: OCR multilingüe rápido con datos sintéticos