DashboardKPI 7 de 8Quality
KPI 7Excelente

Quality

Evalúa la calidad de los argumentos y razonamientos que los modelos de IA utilizan al hablar de regulaciones sanitarias.

7.6
/10

Filtros

Resumen Ejecutivo

Dinámico

Generando resumen...

Puntuación General
7.6/10
Total Respuestas
1468
Modelos Analizados
4
Países
7

¿Qué mide este KPI?

  • Calidad argumentativa: Fuerte/Media/Débil
  • Coherencia lógica: Si los argumentos son sólidos y bien fundamentados
  • Profundidad analítica: Si las respuestas son superficiales o profundas
  • Calidad por modelo: Qué modelos producen mejores argumentos

Cómo Interpretar Esta Puntuación

Alta calidad - Argumentos sólidos, bien fundamentados y coherentes

Hallazgo Principal

Calidad 7.6/10

Análisis Detallado

Distribución de Argument Quality Score

Cantidad de respuestas por rango de calidad argumentativa

Interpretación: Mayoría en "Alta" indica argumentos sólidos. Promedio general: 7.56/10

Argument Quality Score por Modelo

Calidad argumentativa promedio (0-10) para cada modelo de IA

Interpretación: Scores entre 7.15-7.85/10. Gemini y ChatGPT lideran con 7.85

Evidence Quality Score por Modelo

Calidad de la evidencia presentada en argumentos (0-10)

Interpretación: ⚠️ CRÍTICO: Claude solo 4.70/10 - necesita más evidencia. ChatGPT lidera con 8.40

Logical Structure Score por Modelo

Calidad de la estructura lógica de los argumentos (0-10)

Interpretación: Scores consistentes 7.70-7.95/10. ChatGPT lidera con 7.95

Causal Reasoning Score por Modelo

Calidad del razonamiento causal en argumentos (0-10)

Interpretación: ⚠️ Todos los modelos bajos (6.40-7.10/10). Gemini lidera con 7.10 pero necesita mejora

Confidence Appropriateness Score por Modelo

Apropiación del nivel de confianza expresado (0-10)

Interpretación: Scores buenos 7.15-8.00/10. ChatGPT lidera con 8.00

Distribución de Falacias Lógicas

Cantidad de respuestas con y sin falacias lógicas detectadas

Interpretación: 5% de respuestas contienen falacias. Perplexity tiene todas las 5 falacias detectadas

Top 10 Debilidades Más Comunes

Problemas identificados con mayor frecuencia en los argumentos

Interpretación: ⚠️ #1 "Falta de fuentes citadas" (11 veces). #2 "Falta de datos cuantitativos" (8 veces)

Argument Quality Score por País

Calidad argumentativa promedio agrupada por país

Interpretación: Identifica países con argumentos de mayor/menor calidad

Argument Quality Score por Stakeholder

Calidad argumentativa según tipo de actor (paciente, industria, etc.)

Interpretación: Identifica stakeholders con mejor/peor calidad de argumentos

Total de Falacias Lógicas por Modelo

Cantidad total de falacias detectadas en cada modelo

Interpretación: ⚠️ CRÍTICO: Perplexity tiene todas las 5 falacias. Resto de modelos sin falacias