Agentes coreanos con Nemotron-Personas y datos sintéticos | Keryc
¿Quieres que tu agente hable, piense y actúe como un profesional coreano real sin tocar datos personales sensibles? Nemotron-Personas-Korea lo hace posible: un banco de personas sintéticas demográficamente precisas que sirve para anclar agentes a contextos locales en Corea del Sur.
Qué es Nemotron-Personas-Korea
Nemotron-Personas-Korea es un dataset sintético de personas que integra estadísticas oficiales y datos semilla de fuentes coreanas: KOSIS, la Corte Suprema de Corea, el Servicio Nacional de Seguro de Salud y el Korea Rural Economic Institute. NAVER Cloud aportó datos semilla y experiencia de dominio durante el diseño.
La promesa: cada persona es demográficamente correcta pero no contiene información personal identificable (PII). Fue diseñada con la ley coreana de protección de datos PIPA en mente y sigue las guías oficiales de generación de datos sintéticos de Corea.
Total de personas: 7 millones (1 millón de registros multiplicados por 7 variantes de persona cada uno)
Campos por persona: 26 (7 campos de persona, 6 atributos de persona, 12 campos demográficos y geográficos, 1 identificador)
Cobertura geográfica: 17 provincias y 25 distritos
Nombres: ~209K nombres únicos (118 apellidos, ~21.4K nombres de pila)
Tipos de persona: profesional, familiar, deportes, artes, viaje, culinaria, concisa
Etapas de vida: estudiante, servicio militar, empleado, desempleado, jubilado
Idioma: coreano natural
Licencia: CC BY 4.0
Cómo se generó y arquitectura técnica
La generación utilizó NeMo Data Designer, el sistema de NVIDIA para datos sintéticos. La tubería combina un Probabilistic Graphical Model (Apache-2.0) para garantizar el anclaje estadístico con Gemma-4-31B para generar narrativas en coreano.
Fuentes poblacionales: KOSIS (lanzamientos 2020-2026). Distribuciones de nombres provienen de la Corte Suprema via namechart.kr. El resultado es una colección que puede usarse como semilla para entrenar, ajustar o condicionar agentes sin exponer PII real.
Si trabajas con agentes multilingües, la colección Nemotron-Personas incluye versiones para EE. UU., Japón, India, Singapur, Brasil y Francia, lo que permite combinar personas entre países en un mismo flujo de trabajo.
Ejemplo práctico: de dataset a agente coreano en ~20 minutos
¿Quieres un agente de salud pública que responda con confianza local? Podemos filtrar y montar una persona para que el agente use 존댓말 y referencias a políticas coreanas.
Cargar el dataset (Python, Hugging Face Datasets):
Filtrar por ocupación sanitaria y seleccionar una persona:
health_personas = dataset["train"].filter(
lambda x: "보건" in x["occupation"] or "간호" in x["occupation"] or "의료" in x["occupation"]
)
print(f"Found {len(health_personas)} health personas")
persona = health_personas[0]
print(persona)
Construir un system prompt a partir de los campos estructurados y de la narrativa de la persona para anclar comportamiento:
system_prompt = f"""당신은 한국의 공중보건 상담 AI 에이전트입니다.
[신원]
- 이름: {persona['name']}
- 지역: {persona['region']}
- 직업: {persona['occupation']}
- 전문분야: {persona['skills']}
[행동 지침]
- 한국어 존댓말을 사용하여 응답하세요.
- 지역 보건소 및 공공 의료 체계에 대한 안내를 제공하세요.
- 한국 공중보건 정책과 절차를 기반으로 정확한 정보를 제공하세요.
"""
Conectar el prompt a un modelo para inferencia. Opciones:
API de NVIDIA (forma rápida de prueba)
NVIDIA NIM para inferencia autogestionada
NemoClaw para agentes always-on desplegados en OpenShell o infraestructuras NVIDIA
Ejemplo usando la interfaz OpenAI-compatible de NVIDIA:
Ese flujo te lleva de datos sintéticos a respuestas contextuales en coreano, con referencias locales y tono apropiado.
Consideraciones de gobernanza, evaluación y riesgos
¿Esto elimina todos los riesgos? No. Lo que hace la sintesis bien hecha es reducir riesgo de PII y mejorar el anclaje demográfico, pero igual necesitas controles.
Privacidad: Nemotron-Personas-Korea declara cero PII, diseñado con PIPA en mente. Aun así, audita tus pipelines por si emergen datos reidentificables tras combinaciones poco cuidadas.
Gobernanza: sigue la guía oficial de Corea para datos sintéticos cuando uses muestras de población o agrupes por subgrupos sensibles.
Sesgos y distribución: una persona sintética puede replicar sesgos estadísticos. Evaluá con slices por región, edad y ocupación.
Seguridad y alineamiento: protege contra prompt injection y define alcances claros en el system prompt. Registra consultas sensibles y revisa salidas en entornos de ensayo.
Medición: usa métricas de utilidad (exactitud en respuestas locales), confianza del usuario (encuestas) y rendimiento (latencia e inferencia costo).
Opciones de despliegue y buenas prácticas
Nemotron-Personas-Korea es framework-agnóstico. Recomendaciones rápidas:
Para prototipado rápido: llama la API de NVIDIA con el prompt de persona.
Para producción: NIM para inferencia privada o NemoClaw para agentes always-on.
Versionado de personas: mantén un registro de la versión del slice de personas usado para cada modelo/versión del prompt.
Pruebas A/B: compara agentes con y sin grounding de persona en tareas locales para medir ganancia en especificidad y confianza.
Reflexión final
Nemotron-Personas-Korea no es magia; es una herramienta para anclar agentes en contextos reales sin exponer PII. Si haces las preguntas correctas, filtras con cuidado y pones gobernanza, puedes construir agentes que no solo traduzcan palabras, sino que entiendan normas, horarios y expectativas locales. ¿Listo para probarlo y ver cómo cambia la experiencia de tus usuarios coreanos?