Nemotron-Personas-Brazil es una colección abierta de 6 millones de personas sintéticas en portugués brasileño, diseñada para entrenar y evaluar modelos que realmente entiendan la diversidad cultural y demográfica de Brasil. Está pensada para desarrolladores e investigadores que buscan datos localmente fundados, con licencia comercial (CC BY 4.0) y sin exponer a ninguna persona real.
¿Qué es Nemotron-Personas-Brazil?
Es un conjunto de datos sintéticos y estructurados: 1 millón de registros base, cada uno expandido en 6 personas distintas, para un total de 6 millones de personas. Los textos están en portugués brasileño natural y cada persona incluye antecedentes culturales, habilidades, metas, pasatiempos e intereses.
- Tamaño: ~1.4 mil millones de tokens en total, con ~450 millones de tokens de persona.
- Campos: 20 por registro (6 de persona + 14 contextuales con anclaje estadístico).
- Cobertura geográfica: los 26 estados brasileños más el Distrito Federal, anclado hasta nivel de municipio.
- Nombres únicos: ~457k nombres en portugués.
- Ocupaciones: 1,500+ categorías que reflejan la fuerza laboral real, incluyendo microemprendedores y oficios regionales.
- Tipos de persona: profesional, deportes, artes, viajes y otros.
Datos estadísticamente fundados: cada persona está alineada con distribuciones oficiales del Instituto Brasileño de Geografía y Estadística (IBGE), pero no representa a ninguna persona real.
Cómo se generó (visión técnica)
La generación combina modelos probabilísticos y modelos de lenguaje a gran escala dentro de la plataforma NeMo Data Designer de NVIDIA. El pipeline incluye generación estructurada, validación y mecanismos de reintento para escalar y mantener coherencia poblacional.
Componentes clave:
- Un Modelo Gráfico Probabilístico (licencia Apache-2.0) para garantizar que las combinaciones de atributos (edad, localización, ocupación, etapa de vida) sigan distribuciones reales.
- GPT-OSS-120B (Apache-2.0) para la generación narrativa en portugués brasileño, que produce textos naturales y culturalmente fieles.
- Flujos de validación automáticos que detectan inconsistencias y re-generan cuando es necesario.
Además, habrá una versión extendida disponible dentro de NeMo Data Designer para que tú puedas generar, refinar y extender personas como parte de pipelines sintéticos propios.
¿Por qué esa combinación?
El modelo probabilístico asegura que las estadísticas demográficas sean fieles a IBGE, mientras que el LLM aporta riqueza narrativa y coherencia lingüística. Esa mezcla es esencial cuando quieres que una persona sintética sea a la vez representativa y utilizable para tareas de lenguaje natural.
Qué contiene y cómo usarlo
- Formato: listo para cargar desde Hugging Face Datasets.
Ejemplo para empezar:
from datasets import load_dataset
dataset = load_dataset("nvidia/nemotron-personas-brazil")
Usos prácticos:
- Conversaciones multi-turno: semillas para generar diálogos auténticos en portugués brasileño.
- Entrenamiento de asistentes locales: fine-tuning para mejorar comprensión cultural y referencias regionales.
- Pruebas de sesgo y fairness: evaluar rendimiento entre zonas rurales y urbanas, grupos de edad y niveles educativos.
- Generación de datos de dominio: crear datasets anotados a partir de personas para sectores regulados o gubernamentales.
Consideraciones técnicas y de evaluación
- Tokenización y costos: con ~1.4B tokens, planea almacenamiento y presupuesto de cómputo según la tokenización de tu modelo (por ejemplo, subword BPE/Unigram).
- Fine-tuning: puedes usar estas personas para preentrenamiento adicional o para ajuste fino; considera separar personas por macro-región para análisis de generalización.
- Validación de distribución: compara estadísticos (p. ej., histogramas de edad, distribución por estado, clases de ocupación) entre el dataset y las tablas públicas del IBGE antes de entrenar.
- Métricas de equidad: usa métricas de disparidad de rendimiento y fairness (accuracy por subgrupo, calibración por subgrupo, AUC por segmento) para detectar brechas.
Ética, privacidad y límites
- No hay PII: el dataset está diseñado para no representar a personas reales. Nombres y combinaciones usan distribuciones reales pero son sintéticos.
- Riesgo de sesgos: la sinteticidad no elimina sesgos presentes en las fuentes estadísticas o en los modelos generativos. Requiere auditoría y pruebas de robustez.
- Licencia: CC BY 4.0 permite uso comercial con atribución; eso facilita adopción por startups y entidades públicas.
El hecho de que algo sea sintético no lo hace infalible. Necesitas evaluación técnica y social antes de desplegar modelos en producción.
Impacto para IA soberana en Brasil
Nemotron-Personas-Brazil reduce una barrera técnica y legal: ofrece datos en portugués brasileño, con cobertura nacional y licencia abierta. Para gobiernos, pymes y equipos de investigación brasileños esto significa poder entrenar y auditar modelos que comprenden mejor contextos locales sin depender exclusivamente de datos anglosajones o proveedores cerrados.
También sirve como recurso para iniciativas de gobernanza y regulación de IA: permite pruebas comparables y replicables sobre equidad y desempeño en poblaciones locales.
Recomendaciones rápidas para equipos técnicos
- Antes de entrenar: inspecciona distribuciones y muestrea por estado y ocupación.
- En entrenamiento: experimenta con fine-tuning y con clasificación calibrada por subgrupos.
- En validación: mide desempeño en tareas reales (p. ej., respuestas en diálogo, clasificación ocupacional) y evalúa disparidades.
- Para despliegue: combina datos sintéticos con pequeñas porciones de datos reales etiquetados y auditados para mejorar adaptación y seguridad.
Nemotron-Personas-Brazil es una apuesta práctica: pone datos representativos en manos de quienes construyen la IA en Brasil. No es la solución final a todas las trabas de datos, pero sí un recurso potente para que desarrolladores locales puedan construir, evaluar y justificar modelos con base en realidades brasileñas.
