NVIDIA lanza Nemotron-Personas-Brazil para IA soberana

Nemotron-Personas-Brazil es una colección abierta de 6 millones de personas sintéticas en portugués brasileño, diseñada para entrenar y evaluar modelos que realmente entiendan la diversidad cultural y demográfica de Brasil. Está pensada para desarrolladores e investigadores que buscan datos localmente fundados, con licencia comercial (CC BY 4.0) y sin exponer a ninguna persona real.

¿Qué es Nemotron-Personas-Brazil?

Es un conjunto de datos sintéticos y estructurados: 1 millón de registros base, cada uno expandido en 6 personas distintas, para un total de 6 millones de personas. Los textos están en portugués brasileño natural y cada persona incluye antecedentes culturales, habilidades, metas, pasatiempos e intereses.

Tamaño: ~1.4 mil millones de tokens en total, con ~450 millones de tokens de persona.
Campos: 20 por registro (6 de persona + 14 contextuales con anclaje estadístico).
Cobertura geográfica: los 26 estados brasileños más el Distrito Federal, anclado hasta nivel de municipio.

¿Qué es Nemotron-Personas-Brazil?

Cómo se generó (visión técnica)

¿Por qué esa combinación?

Qué contiene y cómo usarlo

Consideraciones técnicas y de evaluación

Ética, privacidad y límites

Impacto para IA soberana en Brasil

Recomendaciones rápidas para equipos técnicos

Fuente original

¡Mantente al día!

NVIDIA lanza Nemotron-Personas-Brazil para IA soberana