PaddleOCR 3.5 añade backend Transformers para OCR

Cargando...

PaddleOCR 3.5 añade backend Transformers para OCR | Keryc

engine_config

Capa	Qué significa	Ejemplos
Capa de aplicación	Aplicaciones que consumen OCR y parsing documental	RAG, agentes, Document AI
Capa de modelo	Capacidades de OCR y parsing	PP-OCRv5, PaddleOCR-VL 1.5
Capa de backend de inferencia	Runtime para ejecutar los modelos	paddle_static, paddle_dynamic, transformers

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install 'paddleocr==3.5.0' 'paddlex==3.5.2' 'transformers>=5.4.0'

paddleocr ocr \
 -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
 --device gpu:0 \
 --engine transformers

from paddleocr import PaddleOCR
pipeline = PaddleOCR(
    device='gpu:0',
    engine='transformers',
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine_config={
        'dtype': 'float32',
    },
)
results = pipeline.predict('https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png')
for result in results:
    print(result)

engine_config = {
    'dtype': 'bfloat16',
    'device_type': 'gpu',
    'device_id': 0,
    'attn_implementation': 'sdpa',
}

Qué trae PaddleOCR 3.5

Ejemplos prácticos (instalación y uso)

¿Cuándo usar el backend Transformers y cuándo no?

Recomendaciones técnicas y buenas prácticas

Impacto para proyectos Document AI

Fuente original

¡Mantente al día!

PaddleOCR 3.5 añade backend Transformers para OCR