Agentes coreanos con Nemotron-Personas y datos sintéticos

20 abr 2026Keryc Díaz4 minutos

¿Quieres que tu agente hable, piense y actúe como un profesional coreano real sin tocar datos personales sensibles? Nemotron-Personas-Korea lo hace posible: un banco de personas sintéticas demográficamente precisas que sirve para anclar agentes a contextos locales en Corea del Sur.

Qué es Nemotron-Personas-Korea

Nemotron-Personas-Korea es un dataset sintético de personas que integra estadísticas oficiales y datos semilla de fuentes coreanas: KOSIS, la Corte Suprema de Corea, el Servicio Nacional de Seguro de Salud y el Korea Rural Economic Institute. NAVER Cloud aportó datos semilla y experiencia de dominio durante el diseño.

La promesa: cada persona es demográficamente correcta pero no contiene información personal identificable (PII). Fue diseñada con la ley coreana de protección de datos PIPA en mente y sigue las guías oficiales de generación de datos sintéticos de Corea.

Total de personas: 7 millones (1 millón de registros multiplicados por 7 variantes de persona cada uno)
Campos por persona: 26 (7 campos de persona, 6 atributos de persona, 12 campos demográficos y geográficos, 1 identificador)
Cobertura geográfica: 17 provincias y 25 distritos
Nombres: ~209K nombres únicos (118 apellidos, ~21.4K nombres de pila)
Ocupaciones: 2000+ cátedoras, incluyendo tecnólogía, manufactura, sector público
Tipos de persona: profesional, familiar, deportes, artes, viaje, culinaria, concisa
Etapas de vida: estudiante, servicio militar, empleado, desempleado, jubilado
Idioma: coreano natural
Licencia: CC BY 4.0

Cómo se generó y arquitectura técnica

La generación utilizó NeMo Data Designer, el sistema de NVIDIA para datos sintéticos. La tubería combina un Probabilistic Graphical Model (Apache-2.0) para garantizar el anclaje estadístico con Gemma-4-31B para generar narrativas en coreano.

Fuentes poblacionales: KOSIS (lanzamientos 2020-2026). Distribuciones de nombres provienen de la Corte Suprema via namechart.kr. El resultado es una colección que puede usarse como semilla para entrenar, ajustar o condicionar agentes sin exponer PII real.

Si trabajas con agentes multilingües, la colección Nemotron-Personas incluye versiones para EE. UU., Japón, India, Singapur, Brasil y Francia, lo que permite combinar personas entre países en un mismo flujo de trabajo.

Ejemplo práctico: de dataset a agente coreano en ~20 minutos

¿Quieres un agente de salud pública que responda con confianza local? Podemos filtrar y montar una persona para que el agente use 존댓말 y referencias a políticas coreanas.

Cargar el dataset (Python, Hugging Face Datasets):

from datasets import load_dataset
# Cargar Nemotron-Personas-Korea
dataset = load_dataset("nvidia/Nemotron-Personas-Korea")
print(dataset["train"].column_names)
print(dataset["train"][0])

Filtrar por ocupación sanitaria y seleccionar una persona:

health_personas = dataset["train"].filter(
    lambda x: "보건" in x["occupation"] or "간호" in x["occupation"] or "의료" in x["occupation"]
)
print(f"Found {len(health_personas)} health personas")
persona = health_personas[0]
print(persona)

Construir un system prompt a partir de los campos estructurados y de la narrativa de la persona para anclar comportamiento:

system_prompt = f"""당신은 한국의 공중보건 상담 AI 에이전트입니다.
[신원]
- 이름: {persona['name']}
- 지역: {persona['region']}
- 직업: {persona['occupation']}
- 전문분야: {persona['skills']}
[행동 지침]
- 한국어 존댓말을 사용하여 응답하세요.
- 지역 보건소 및 공공 의료 체계에 대한 안내를 제공하세요.
- 한국 공중보건 정책과 절차를 기반으로 정확한 정보를 제공하세요.
"""

Conectar el prompt a un modelo para inferencia. Opciones:

API de NVIDIA (forma rápida de prueba)
NVIDIA NIM para inferencia autogestionada
NemoClaw para agentes always-on desplegados en OpenShell o infraestructuras NVIDIA

Ejemplo usando la interfaz OpenAI-compatible de NVIDIA:

from openai import OpenAI
client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="nvapi-YOUR_KEY"
)
response = client.chat.completions.create(
    model="nvidia/nemotron-nano-8b-v1",
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": "독감 예방접종은 언제 맞아야 하나요?"}
    ],
    temperature=0.7,
    max_tokens=512
)
print(response.choices[0].message.content)

Ese flujo te lleva de datos sintéticos a respuestas contextuales en coreano, con referencias locales y tono apropiado.

Consideraciones de gobernanza, evaluación y riesgos

¿Esto elimina todos los riesgos? No. Lo que hace la sintesis bien hecha es reducir riesgo de PII y mejorar el anclaje demográfico, pero igual necesitas controles.

Privacidad: Nemotron-Personas-Korea declara cero PII, diseñado con PIPA en mente. Aun así, audita tus pipelines por si emergen datos reidentificables tras combinaciones poco cuidadas.
Gobernanza: sigue la guía oficial de Corea para datos sintéticos cuando uses muestras de población o agrupes por subgrupos sensibles.
Sesgos y distribución: una persona sintética puede replicar sesgos estadísticos. Evaluá con slices por región, edad y ocupación.
Seguridad y alineamiento: protege contra prompt injection y define alcances claros en el system prompt. Registra consultas sensibles y revisa salidas en entornos de ensayo.
Medición: usa métricas de utilidad (exactitud en respuestas locales), confianza del usuario (encuestas) y rendimiento (latencia e inferencia costo).

Opciones de despliegue y buenas prácticas

Nemotron-Personas-Korea es framework-agnóstico. Recomendaciones rápidas:

Para prototipado rápido: llama la API de NVIDIA con el prompt de persona.
Para producción: NIM para inferencia privada o NemoClaw para agentes always-on.
Versionado de personas: mantén un registro de la versión del slice de personas usado para cada modelo/versión del prompt.
Pruebas A/B: compara agentes con y sin grounding de persona en tareas locales para medir ganancia en especificidad y confianza.

Reflexión final

Nemotron-Personas-Korea no es magia; es una herramienta para anclar agentes en contextos reales sin exponer PII. Si haces las preguntas correctas, filtras con cuidado y pones gobernanza, puedes construir agentes que no solo traduzcan palabras, sino que entiendan normas, horarios y expectativas locales. ¿Listo para probarlo y ver cómo cambia la experiencia de tus usuarios coreanos?

Fuente original

https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.