Hay una pregunta que todo director general deberia hacerse antes de firmar un contrato con cualquier proveedor de inteligencia artificial: "Que modelo necesito realmente, y cuanto deberia costar cada conversación?"
La industria quiere venderte el modelo más caro. Los demos siempre usan el modelo flagship. Los benchmarks comparan GPT-4 contra Claude Opus contra Gemini Ultra. Y tu, cómo decisión-maker, terminas asumiendo que necesitas el Ferrari cuando tu operación necesita una flota de camionetas confiables.
Este articulo documenta lo que descubrimos al operar 6 agentes de IA en producción conectados a un ERP real (Davix ERPx), atendiendo pacientes reales en una clínica estetica en Lima. No es teoria. Son números de producción.
La hipotesis que nos obligo a testear
Cuando diseñamos la arquitectura de Cerebra, teniamos dos opciones claras:
- Variante A: Claude Haiku 4.5, el modelo economico de Anthropic. Rapido, barato, diseñado para tareas de alto volumen.
- Variante B: Claude Sonnet, el modelo intermedio. Mas capaz en razonamiento complejo, significativamente más caro.
La hipotesis convencional dice: mejor modelo, mejores resultados. Pero la hipotesis operacional dice algo distinto: el contexto que le das al modelo importa más que la capacidad intrinseca del modelo.
Decidimos no asumir nada. Montamos un A/B test real.
Diseño del experimento
No fue un A/B test academico con grupos de control perfectos. Fue un test operacional: durante 4 semanas, alternamos variantes en producción y medimos resultados de negocio, no metricas de NLP.
Que medimos:
- Tasa de conversión de conversación a cita agendada
- Tasa de show-up (paciente que efectivamente llega)
- Tiempo promedio de conversación
- Costo por conversación
- Tasa de escalamiento a humano (handoff)
- Satisfaccion percibida (feedback cualitativo del equipo clinico)
Que NO medimos:
- BLEU scores, perplexity, o cualquier metrica academica que no tenga impacto en la operación.
Los números: Haiku 4.5 vs Sonnet
Aqui esta lo que encontramos despues de procesar más de 2,000 conversaciones:
| Metrica | Haiku 4.5 | Sonnet | Diferencia |
|---|---|---|---|
| Costo mensual (volumen real) | $7 USD | $82 USD | -91% |
| Conversión a cita | 31% | 34% | +3pp |
| Show-up efectivo | 39% | 41% | +2pp |
| Tiempo promedio conversación | 4.2 min | 3.8 min | -0.4 min |
| Tasa de handoff | 8% | 5% | -3pp |
| Respuestas "fuera de guion" | 2.1% | 0.8% | -1.3pp |
Leelo de nuevo. La diferencia en conversión entre un modelo de $7/mes y uno de $82/mes es de 3 puntos porcentuales. Tres. En un negocio donde el ticket promedio de primera consulta es de S/150, esos 3 puntos representan aproximadamente S/450 adicionales al mes. El costo adicional de Sonnet: $75 USD (aproximadamente S/280).
La matematica no cierra a favor de Sonnet para el 100% del tráfico.
El hallazgo contraintuitivo: el contexto importa más que la inteligencia
Este fue el aprendizaje más valioso de todo el experimento y, honestamente, el que más nos costo aceptar cómo ingenieros.
Este artículo es para miembros del Club MILENIUM
Apoya el periodismo independiente y accede a todo el contenido por el precio de un café.
Cancela cuando quieras · Sin compromisos