AutoDiscovery llega a AstaLabs para cambiar cómo interactúas con tus datos: en vez de esperar que le hagas la pregunta correcta, la IA explora por sí misma, genera hipótesis y prueba ideas reproducibles con código y análisis estadístico. ¿Te imaginas perder menos tiempo en exploración manual y encontrar señales que estaban escondidas en filas y columnas? Eso es justo lo que propone esta herramienta experimental.
Qué es AutoDiscovery y por qué importa
AutoDiscovery es una pipeline de descubrimiento científico automatizado integrada en AstaLabs. En vez de partir de una pregunta, parte de tu dataset estructurado (CSV, JSON, Parquet, etc.) y hace el trabajo pesado: generar hipótesis en lenguaje natural, proponer planes experimentales, escribir y ejecutar código Python, interpretar resultados estadísticos y luego formular nuevas hipótesis.
¿Qué gana la investigación? Velocidad reproducible y una búsqueda sistemática de lo inesperado. Grupos en ecología marina, oncología y ciencias sociales ya reportan hallazgos útiles, algunos verificados e incluso publicados tras auditoría independiente.
Cómo decide qué investigar (Bayesian surprise + MCTS)
AutoDiscovery evita dos fallas comunes en exploración abierta: vagar sin rumbo o replicar sesgos del entrenamiento. Lo hace con dos ideas técnicas claras:
-
Usa
Bayesian surprisepara priorizar hallazgos que cambian las creencias del sistema. Antes de un experimento mantiene unaprior(distribución de probabilidad extraída interrogando el modelo de lenguaje). Luego observa datos, calcula laposteriory mide la magnitud del cambio. Esa magnitud es la sorpresa. -
Navega el espacio infinito de preguntas con
MCTS(Monte Carlo Tree Search).MCTSbalancea explorar ramas nuevas y explotar ramas prometedoras, asignando recursos computacionales a los nodos más informativos.
Importante: AutoDiscovery no solo mide cuán grande es la sorpresa, también su dirección. Un giro negativo (evidencia que disminuye la creencia en una hipótesis) puede ser tan valioso como uno positivo, porque contradice supuestos prevalentes.
Resultados que cambian nuestras expectativas suelen ser más interesantes que los que simplemente confirman lo obvio. Por eso perseguir sorpresa tiene sentido científico.
Qué verás en AstaLabs: interfaz y trazabilidad
En AstaLabs la ejecución es transparente. A medida que corren experimentos aparece una tabla donde cada fila es una hipótesis probada. Observa columnas como "Before", "After" y la puntuación de Surprisal para entender cuánto cambió la creencia.
Además:
- El árbol de búsqueda muestra la secuencia de hipótesis exploradas.
- Al hacer clic en una fila abres el Inspector Panel con la hipótesis completa, el análisis estadístico y el código Python efectivo: todo reproducible.
- Puedes iterar: pasar learnings de una corrida como contexto para la siguiente.
Caso concreto: exclusividad mutua en mutaciones de cáncer
Un ejemplo práctico con oncólogos mostró cómo AutoDiscovery puede surfear espacios de búsqueda enormes. Partiendo de patrones de coocurrencia en mutaciones de cáncer de mama, el sistema encontró una rama que sugería exclusividad mutua entre PIK3CA y TP53.
- Prior: media 0.50 (incertidumbre neutral)
- Posterior tras el análisis: media 0.82
- Resultado: fuerte aumento de creencia y alta puntuación de surprisal, por eso fue marcado para seguimiento.
Los investigadores valoraron que la señal surgió de una exploración que sería inviable a mano y que AutoDiscovery propuso pasos concretos de validación.
Cómo probarlo en AstaLabs (paso a paso)
- Loguea en AstaLabs y prueba el dataset de Example Sessions para ver el flujo completo.
- Crea + New exploration: sube tu archivo (CSV, JSON, Parquet), describe el contexto para sembrar las creencias del sistema y ajusta el budget de experimentos.
- Inicia la corrida con Start Run. La tabla y el árbol se llenan en tiempo real. Puedes navegar fuera; los resultados quedan guardados.
- Inspecciona cualquier fila para ver la hipótesis, el análisis y el código reproducible.
Consejos prácticos: empieza pequeño (<10 hipótesis) como test drive; luego escala a 50-100 hipótesis para análisis profundos. Runs están limitados a 500 hipótesis por sesión.
Costos, privacidad y límites operativos
- Para acceso temprano hay una asignación de 1,000 Hypothesis Credits gratuita (1 hipótesis = 1 credit). Los créditos están disponibles hasta el 28 de febrero de 2026.
- Los runs suelen ser intensivos en cómputo y pueden durar horas.
- Confirma que tus datos no son confidenciales al subirlos. Los datasets fuente se eliminan automáticamente 7 días después de completar el análisis; AutoDiscovery retiene los outputs necesarios para reproducir y extender hallazgos (hipótesis, planes, código, resultados).
Riesgos, validación y buenas prácticas
AutoDiscovery es potente, pero no infalible. Algunas recomendaciones para usarlo con rigor:
- Trata sus hallazgos como puntos de partida, no como pruebas definitivas. Siempre valida con análisis adicionales y revisión de dominio.
- Revisa el código y los tests estadísticos que AutoDiscovery genera. La transparencia facilita auditoría humana.
- Considera sesgos en tus datos; la sorpresa puede resultar de artefactos de muestreo o de limpieza de datos.
- Usa presupuesto pequeño para explorar, iterar en el intent/contexto y luego escalar si los resultados son prometedores.
Reflexión final
AutoDiscovery cambia la relación entre científico y dataset: de depósitos estáticos a artefactos interactivos de investigación. Si trabajas con datos estructurados, esto te permite explorar preguntas que quizás no sabías formular. No reemplaza la intuición experta; la potencia y rapidez con la que sugiere direcciones inéditas es lo que la vuelve valiosa.
