Asta libera un tesoro de datos: 258,935 consultas y 432,059 eventos de interacción de investigadores que usaron herramientas de IA integradas con Semantic Scholar. ¿Qué hacen realmente los científicos cuando tienen a mano asistentes de investigación potentes? La respuesta difiere bastante de lo que los desarrolladores esperábamos.
Qué es Asta y cómo funciona
Asta es una plataforma de asistencia para investigación integrada con S2 (Semantic Scholar). Ofrece dos interfaces principales:
PaperFinder (PF): búsqueda de literatura mejorada con ranking y síntesis ligera generada por LLM.
ScholarQA (SQA): generación de informes estructurados con secciones y citas en línea, es decir, resúmenes científicos con evidencia referenciada.
Ambas usan retrieval-augmented generation (RAG) sobre un corpus académico, por lo que las afirmaciones se anclan en artículos recuperados. Como comparación, el estudio también mira búsquedas tradicionales por palabras clave en .
S2
Se usaron datos únicamente de usuarios que optaron por compartir sus interacciones y se anonimizó la información con identificadores hash, además de filtrar consultas con PII.
Hallazgos técnicos y patrones de uso
Los números iniciales son contundentes: las consultas a SQA son siete veces más largas que las búsquedas tradicionales en S2. Pero no es solo longitud: las consultas contienen más entidades, relaciones y restricciones explícitas. Entre 2022 y 2025, incluso las búsquedas tradicionales crecieron en complejidad (de 4.8 a más de 6 palabras en promedio y de 7% a 10% con al menos una restricción).
¿Significa eso que los usuarios solo escriben oraciones más largas? No. Los investigadores traen tácticas de chatbots generalistas: prompt engineering, asignación de roles, plantillas y hasta estrategias de escritura colaborativa. En algunos casos se intentó evadir detectores de plagio; el dataset lo documenta para que la comunidad comprenda el comportamiento real, no solo el ideal.
Comportamientos clave detectados
Consultas más ricas: más entidades (p. ej., genes, métodos, datasets), relaciones y filtros.
Lectura no lineal: los usuarios saltan secciones, reabren partes previas y navegan de forma no secuencial.
Resultados persistentes: más del 50% de usuarios de SQA y 42% de usuarios de PF revisitan informes, horas o días después.
Repetición baja: la tasa de consultas casi duplicadas es ~19% para SQA y ~15% para PF, menor que la tasa de revisita, lo que sugiere que los outputs se almacenan como artefactos reutilizables.
Implicaciones para desarrolladores y diseñadores
Estos hallazgos no son solo curiosidades; cambian cómo deberíamos diseñar herramientas:
Gestión de artefactos: si los usuarios vuelven a los informes, necesitas versionado, manejo de historial y formas fáciles de actualizar resultados a medida que aparece nueva literatura.
Soporte para lectura no lineal: las interfaces deben priorizar secciones colapsables, TL;DR y rutas rápidas hacia subsecciones relevantes en vez de asumir consumo secuencial.
Expectativas de capacidades: los usuarios tratan a estas herramientas como colaboradores. Eso requiere explicitar límites, mejorar trazabilidad de la evidencia y ofrecer controles para evitar malos usos (p. ej., evitar ayudas que faciliten plagio).
Telemetría rica y ética: los clickstreams (qué se expande, qué citas se siguen) son esenciales para entender la utilidad real; pero deben recolectarse con consentimiento y anonimización robusta.
Detalles técnicos del dataset (Asta Interaction Dataset - AID)
AID es a nuestra conocimiento el mayor dataset abierto sobre interacciones de investigadores con herramientas científicas impulsadas por IA. Lo que incluye:
Escala: 258,935 consultas y 432,059 interacciones de clickstream durante seis meses (febrero-agosto 2025).
Señales ricas: texto completo de las consultas, expansiones de secciones, clics en enlaces de S2, citas consultadas, títulos de secciones de informes, posiciones mostradas en resultados, y más.
Taxonomía: liberan una taxonomía reutilizable de intenciones de consulta, estilos de redacción y tipos de criterios de búsqueda, construida con un proceso humano + LLM iterativo.
Formato: seis archivos Parquet (queries, section expansions, S2 link clicks, report section titles, report corpus IDs, y PF shown results), listos para análisis a escala.
Si trabajas en herramientas para investigadores, estos datos probablemente te sorprenderán tanto como a los autores. Les permitió ver discrepancias importantes entre diseño previsto y uso real.
Qué puedes hacer con AID (ideas prácticas)
Analizar patrones de prompt engineering específicos del dominio científico para mejorar los modelos.
Evaluar la utilidad de diseños no lineales y medir qué secciones generan más acciones reproducibles.
Entrenar modelos de reranking o resumen que optimicen para persistencia y reutilización, no solo para impresiones inmediatas.
Usar la taxonomía como conjunto de etiquetas para clasificar consultas en estudios reproducibles.
Reflexión final
Los investigadores no usan la IA solo para buscar: la reescriben. Hacen consultas más largas y estructuradas, tratan los resultados como artefactos y traen hábitos aprendidos de chatbots generales. Para los constructores de herramientas esto es una invitación clara: adapta las interfaces, cuida la evidencia y piensa en el ciclo de vida del resultado, no solo en la respuesta instantánea.