Nemotron-Personas-Brazil es una colección abierta de 6 millones de personas sintéticas en portugués brasileño, diseñada para entrenar y evaluar modelos que realmente entiendan la diversidad cultural y demográfica de Brasil. Está pensada para desarrolladores e investigadores que buscan datos localmente fundados, con licencia comercial (CC BY 4.0) y sin exponer a ninguna persona real.
¿Qué es Nemotron-Personas-Brazil?
Es un conjunto de datos sintéticos y estructurados: 1 millón de registros base, cada uno expandido en 6 personas distintas, para un total de 6 millones de personas. Los textos están en portugués brasileño natural y cada persona incluye antecedentes culturales, habilidades, metas, pasatiempos e intereses.
Tamaño: ~1.4 mil millones de tokens en total, con ~450 millones de tokens de persona.
Campos: 20 por registro (6 de persona + 14 contextuales con anclaje estadístico).
Cobertura geográfica: los 26 estados brasileños más el Distrito Federal, anclado hasta nivel de municipio.
Nombres únicos: ~457k nombres en portugués.
Ocupaciones: 1,500+ categorías que reflejan la fuerza laboral real, incluyendo microemprendedores y oficios regionales.
Tipos de persona: profesional, deportes, artes, viajes y otros.
Datos estadísticamente fundados: cada persona está alineada con distribuciones oficiales del Instituto Brasileño de Geografía y Estadística (IBGE), pero no representa a ninguna persona real.
Cómo se generó (visión técnica)
La generación combina modelos probabilísticos y modelos de lenguaje a gran escala dentro de la plataforma NeMo Data Designer de NVIDIA. El pipeline incluye generación estructurada, validación y mecanismos de reintento para escalar y mantener coherencia poblacional.
Componentes clave:
Un Modelo Gráfico Probabilístico (licencia Apache-2.0) para garantizar que las combinaciones de atributos (edad, localización, ocupación, etapa de vida) sigan distribuciones reales.
GPT-OSS-120B (Apache-2.0) para la generación narrativa en portugués brasileño, que produce textos naturales y culturalmente fieles.
Flujos de validación automáticos que detectan inconsistencias y re-generan cuando es necesario.
Además, habrá una versión extendida disponible dentro de NeMo Data Designer para que tú puedas generar, refinar y extender personas como parte de pipelines sintéticos propios.
¿Por qué esa combinación?
El modelo probabilístico asegura que las estadísticas demográficas sean fieles a IBGE, mientras que el LLM aporta riqueza narrativa y coherencia lingüística. Esa mezcla es esencial cuando quieres que una persona sintética sea a la vez representativa y utilizable para tareas de lenguaje natural.
Qué contiene y cómo usarlo
Formato: listo para cargar desde Hugging Face Datasets.
Ejemplo para empezar:
from datasets import load_dataset
dataset = load_dataset("nvidia/nemotron-personas-brazil")
Usos prácticos:
Conversaciones multi-turno: semillas para generar diálogos auténticos en portugués brasileño.
Entrenamiento de asistentes locales: fine-tuning para mejorar comprensión cultural y referencias regionales.
Pruebas de sesgo y fairness: evaluar rendimiento entre zonas rurales y urbanas, grupos de edad y niveles educativos.
Generación de datos de dominio: crear datasets anotados a partir de personas para sectores regulados o gubernamentales.
Consideraciones técnicas y de evaluación
Tokenización y costos: con ~1.4B tokens, planea almacenamiento y presupuesto de cómputo según la tokenización de tu modelo (por ejemplo, subword BPE/Unigram).
Fine-tuning: puedes usar estas personas para preentrenamiento adicional o para ajuste fino; considera separar personas por macro-región para análisis de generalización.
Validación de distribución: compara estadísticos (p. ej., histogramas de edad, distribución por estado, clases de ocupación) entre el dataset y las tablas públicas del IBGE antes de entrenar.
Métricas de equidad: usa métricas de disparidad de rendimiento y fairness (accuracy por subgrupo, calibración por subgrupo, AUC por segmento) para detectar brechas.
Ética, privacidad y límites
No hay PII: el dataset está diseñado para no representar a personas reales. Nombres y combinaciones usan distribuciones reales pero son sintéticos.
Riesgo de sesgos: la sinteticidad no elimina sesgos presentes en las fuentes estadísticas o en los modelos generativos. Requiere auditoría y pruebas de robustez.
Licencia: CC BY 4.0 permite uso comercial con atribución; eso facilita adopción por startups y entidades públicas.
El hecho de que algo sea sintético no lo hace infalible. Necesitas evaluación técnica y social antes de desplegar modelos en producción.
Impacto para IA soberana en Brasil
Nemotron-Personas-Brazil reduce una barrera técnica y legal: ofrece datos en portugués brasileño, con cobertura nacional y licencia abierta. Para gobiernos, pymes y equipos de investigación brasileños esto significa poder entrenar y auditar modelos que comprenden mejor contextos locales sin depender exclusivamente de datos anglosajones o proveedores cerrados.
También sirve como recurso para iniciativas de gobernanza y regulación de IA: permite pruebas comparables y replicables sobre equidad y desempeño en poblaciones locales.
Recomendaciones rápidas para equipos técnicos
Antes de entrenar: inspecciona distribuciones y muestrea por estado y ocupación.
En entrenamiento: experimenta con fine-tuning y con clasificación calibrada por subgrupos.
En validación: mide desempeño en tareas reales (p. ej., respuestas en diálogo, clasificación ocupacional) y evalúa disparidades.
Para despliegue: combina datos sintéticos con pequeñas porciones de datos reales etiquetados y auditados para mejorar adaptación y seguridad.
Nemotron-Personas-Brazil es una apuesta práctica: pone datos representativos en manos de quienes construyen la IA en Brasil. No es la solución final a todas las trabas de datos, pero sí un recurso potente para que desarrolladores locales puedan construir, evaluar y justificar modelos con base en realidades brasileñas.