Hay una pregunta que todo director general deberia hacerse antes de firmar un contrato con cualquier proveedor de inteligencia artificial: "Que modelo necesito realmente, y cuanto deberia costar cada conversación?"

La industria quiere venderte el modelo más caro. Los demos siempre usan el modelo flagship. Los benchmarks comparan GPT-4 contra Claude Opus contra Gemini Ultra. Y tu, cómo decisión-maker, terminas asumiendo que necesitas el Ferrari cuando tu operación necesita una flota de camionetas confiables.

Este articulo documenta lo que descubrimos al operar 6 agentes de IA en producción conectados a un ERP real (Davix ERPx), atendiendo pacientes reales en una clínica estetica en Lima. No es teoria. Son números de producción.

La hipotesis que nos obligo a testear

Cuando diseñamos la arquitectura de Cerebra, teniamos dos opciones claras:

  • Variante A: Claude Haiku 4.5, el modelo economico de Anthropic. Rapido, barato, diseñado para tareas de alto volumen.
  • Variante B: Claude Sonnet, el modelo intermedio. Mas capaz en razonamiento complejo, significativamente más caro.

La hipotesis convencional dice: mejor modelo, mejores resultados. Pero la hipotesis operacional dice algo distinto: el contexto que le das al modelo importa más que la capacidad intrinseca del modelo.

Decidimos no asumir nada. Montamos un A/B test real.

Diseño del experimento

No fue un A/B test academico con grupos de control perfectos. Fue un test operacional: durante 4 semanas, alternamos variantes en producción y medimos resultados de negocio, no metricas de NLP.

Que medimos:

  1. Tasa de conversión de conversación a cita agendada
  2. Tasa de show-up (paciente que efectivamente llega)
  3. Tiempo promedio de conversación
  4. Costo por conversación
  5. Tasa de escalamiento a humano (handoff)
  6. Satisfaccion percibida (feedback cualitativo del equipo clinico)

Que NO medimos:

  • BLEU scores, perplexity, o cualquier metrica academica que no tenga impacto en la operación.

Los números: Haiku 4.5 vs Sonnet

Aqui esta lo que encontramos despues de procesar más de 2,000 conversaciones:

Metrica Haiku 4.5 Sonnet Diferencia
Costo mensual (volumen real) $7 USD $82 USD -91%
Conversión a cita 31% 34% +3pp
Show-up efectivo 39% 41% +2pp
Tiempo promedio conversación 4.2 min 3.8 min -0.4 min
Tasa de handoff 8% 5% -3pp
Respuestas "fuera de guion" 2.1% 0.8% -1.3pp

Leelo de nuevo. La diferencia en conversión entre un modelo de $7/mes y uno de $82/mes es de 3 puntos porcentuales. Tres. En un negocio donde el ticket promedio de primera consulta es de S/150, esos 3 puntos representan aproximadamente S/450 adicionales al mes. El costo adicional de Sonnet: $75 USD (aproximadamente S/280).

La matematica no cierra a favor de Sonnet para el 100% del tráfico.

El hallazgo contraintuitivo: el contexto importa más que la inteligencia

Este fue el aprendizaje más valioso de todo el experimento y, honestamente, el que más nos costo aceptar cómo ingenieros.

Este artículo es para miembros del Club MILENIUM

Apoya el periodismo independiente y accede a todo el contenido por el precio de un café.

Únete por S/ 5/mes

Cancela cuando quieras · Sin compromisos