6 agentes, $7/mes: Lo que aprendimos eligiendo Haiku sobre Sonnet

La diferencia en conversión entre un modelo de $7/mes y uno de $82/mes fue de 3 puntos porcentuales. La lección: un modelo económico con contexto excelente supera a un modelo premium con contexto mediocre. Siempre.

Hay una pregunta que todo director general deberia hacerse antes de firmar un contrato con cualquier proveedor de inteligencia artificial: "Que modelo necesito realmente, y cuanto deberia costar cada conversación?"

La industria quiere venderte el modelo más caro. Los demos siempre usan el modelo flagship. Los benchmarks comparan GPT-4 contra Claude Opus contra Gemini Ultra. Y tu, cómo decisión-maker, terminas asumiendo que necesitas el Ferrari cuando tu operación necesita una flota de camionetas confiables.

Este articulo documenta lo que descubrimos al operar 6 agentes de IA en producción conectados a un ERP real (Davix ERPx), atendiendo pacientes reales en una clínica estetica en Lima. No es teoria. Son números de producción.

La hipotesis que nos obligo a testear

Cuando diseñamos la arquitectura de Cerebra, teniamos dos opciones claras:

Variante A: Claude Haiku 4.5, el modelo economico de Anthropic. Rapido, barato, diseñado para tareas de alto volumen.
Variante B: Claude Sonnet, el modelo intermedio. Mas capaz en razonamiento complejo, significativamente más caro.

La hipotesis convencional dice: mejor modelo, mejores resultados. Pero la hipotesis operacional dice algo distinto: el contexto que le das al modelo importa más que la capacidad intrinseca del modelo.

Decidimos no asumir nada. Montamos un A/B test real.

Diseño del experimento

No fue un A/B test academico con grupos de control perfectos. Fue un test operacional: durante 4 semanas, alternamos variantes en producción y medimos resultados de negocio, no metricas de NLP.

Que medimos:

Tasa de conversión de conversación a cita agendada
Tasa de show-up (paciente que efectivamente llega)
Tiempo promedio de conversación
Costo por conversación
Tasa de escalamiento a humano (handoff)
Satisfaccion percibida (feedback cualitativo del equipo clinico)

Que NO medimos:

BLEU scores, perplexity, o cualquier metrica academica que no tenga impacto en la operación.

Los números: Haiku 4.5 vs Sonnet

Aqui esta lo que encontramos despues de procesar más de 2,000 conversaciones:

Metrica	Haiku 4.5	Sonnet	Diferencia
Costo mensual (volumen real)	$7 USD	$82 USD	-91%
Conversión a cita	31%	34%	+3pp
Show-up efectivo	39%	41%	+2pp
Tiempo promedio conversación	4.2 min	3.8 min	-0.4 min
Tasa de handoff	8%	5%	-3pp
Respuestas "fuera de guion"	2.1%	0.8%	-1.3pp

Leelo de nuevo. La diferencia en conversión entre un modelo de $7/mes y uno de $82/mes es de 3 puntos porcentuales. Tres. En un negocio donde el ticket promedio de primera consulta es de S/150, esos 3 puntos representan aproximadamente S/450 adicionales al mes. El costo adicional de Sonnet: $75 USD (aproximadamente S/280).

La matematica no cierra a favor de Sonnet para el 100% del tráfico.

El hallazgo contraintuitivo: el contexto importa más que la inteligencia

Este fue el aprendizaje más valioso de todo el experimento y, honestamente, el que más nos costo aceptar cómo ingenieros.

Este artículo es para miembros del Club MILENIUM

Apoya el periodismo independiente y accede a todo el contenido por el precio de un café.

Únete por S/ 5/mes

Cancela cuando quieras · Sin compromisos

La hipotesis que nos obligo a testear

Diseño del experimento

Los números: Haiku 4.5 vs Sonnet

El hallazgo contraintuitivo: el contexto importa más que la inteligencia

Este artículo es para miembros del Club MILENIUM

Este artículo es para miembros del Club MILENIUM

Más de MILENIUM

Por primera vez en 30 años, ser una empresa peruana mediana es una ventaja competitiva

Artemis II despegó sin SpaceX. Pero SpaceX ya controla lo que viene después.

De un agente a cincuenta: cómo escalar IA sin que tu organización colapse