Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo
Gonzalo Monzón
Fundador & Arquitecto Principal
Cuando OpenAI tiene una caída, todo tu producto se va al garete. Cuando Google cambia el pricing de Gemini, tus márgenes desaparecen de un día para otro. Esa fue exactamente nuestra motivación: construir desde cero un AI Gateway multi-proveedor que garantice que ningún fallo externo tumbe nuestros productos en producción.
La Trampa del Proveedor Único
La mayoría de startups y empresas eligen un proveedor de IA y construyen todo su producto alrededor de esa API. Es cómodo al principio — un solo SDK, una factura, un set de documentación — pero la realidad llega rápido:
- Caídas en producción: Todos los grandes proveedores han tenido caídas de varias horas en el último año. Si tu app depende 100% de uno, tus usuarios se quedan sin servicio
- Cambios de precio sin previo aviso: El pricing de GPT-4o ha cambiado 3 veces desde su lanzamiento. DeepSeek hizo un dumping de precios que obligó a la competencia a reaccionar
- Rate limits que escalan mal: ¿Llegas al límite de tu tier a las 3 de la tarde? Tus usuarios esperan o reciben errores 429
- Varianza de calidad: Gemini es increíble para tareas de clasificación rápida, Claude domina en razonamiento largo, GPT-4o combina bien vision + texto. Usar solo uno es desperdiciar el potencial de los demás
Nuestro Enfoque: El AI Gateway Centralizado
Cada llamada a IA en todo el ecosistema Cadences — desde la generación de contenido en Perspectiva Studio hasta los agentes de voz en tiempo real — pasa por nuestro AI Gateway centralizado. Es un Cloudflare Worker que actúa como proxy inteligente con tres responsabilidades:
- Routing inteligente: Decide qué proveedor usar según el tipo de tarea, coste y disponibilidad
- Fallback automático: Si un proveedor falla, la petición se reintenta automáticamente con el siguiente de la cadena
- Tracking de costes por petición: Cada llamada se registra en D1 con proveedor, modelo, tokens usados y coste calculado
El overhead del gateway es inferior a 5ms por petición — básicamente invisible para el usuario final.
Los Números Reales: Desglose de Producción
Estos son los datos reales de un mes típico de producción (no benchmarks sintéticos, no demos):
📊 11.200+ llamadas/mes a través del gateway
💰 ~$184 coste total — menos de $0.017 por llamada de media
❌ 2.4% tasa de error — incluyendo reintentos transparentes al usuario
⚡ <5ms overhead del gateway por petición
Distribución por Proveedor: Quién Hace Qué
No todos los proveedores son iguales, y es ahí donde el routing inteligente marca la diferencia. Cada uno se usa para lo que mejor sabe hacer:
- Google Gemini: ~5.200 llamadas/mes — $28. Nuestro workhorse para clasificación, extracción de datos y tareas de alto volumen. Mejor relación calidad/precio
- Anthropic Claude: ~820 llamadas/mes — $52. Usado para razonamiento complejo, generación de contenido largo y análisis de documentos. Caro pero vale cada céntimo donde lo usamos
- OpenAI GPT-4o: ~580 llamadas/mes — $38. Multitask: combinaciones vision + texto, generación de código, tareas que requieren function calling robusto
- FLUX (generación de imágenes): ~1.800 llamadas/mes — $0.00. Thumbnails, covers, assets visuales para publicaciones. Coste cero vía tier gratuito
- Cloudflare Workers AI: ~1.100 llamadas/mes — $0.00. Embeddings y clasificación rápida. Se ejecuta en el mismo edge que nuestro gateway, latencia mínima
- DeepSeek + Groq: Tareas de velocidad extrema y fallback secundario
- ElevenLabs: Síntesis de voz para agentes conversacionales y audiocontent
La Cadena de Fallback: Cero Puntos de Fallo
El concepto clave es la cadena de fallback por tipo de tarea. No es un simple "si falla A, usa B". Es una cadena priorizada según calidad, coste y latencia para cada categoría:
- Generación de texto: Claude → GPT-4o → Gemini → DeepSeek
- Clasificación/extracción: Gemini → Workers AI → GPT-4o
- Vision: GPT-4o → Gemini → Claude
- Embeddings: Workers AI → OpenAI → Gemini
- Generación de imágenes: FLUX → Workers AI
Cuando un proveedor devuelve un error 5xx o timeout, el gateway reintenta automáticamente con el siguiente de la cadena. El usuario ni se entera — solo ve que su petición tarda unos milisegundos más.
Rate Limiting por Tiers: Sin Sorpresas
Cada llamada al gateway pasa por un sistema de rate limiting con tres niveles configurados en D1:
- Tier FREE: 100 llamadas/hora, 1.000/día — para demos y uso básico
- Tier PRO: 1.000 llamadas/hora, 10.000/día — para clientes en producción
- Tier UNLIMITED: Sin límites de rate, con prioridad en la cola — para nuestros propios productos internos
Los límites se rastrean con contadores en D1 con TTL automático. Cuando un usuario alcanza su límite, recibe un error 429 con un header Retry-After que indica cuándo puede reintentar.
Tracking de Costes en Tiempo Real: Cada Céntimo Rastreado
Cada llamada al gateway genera un registro en nuestra base de datos D1 con:
- Timestamp, proveedor, modelo, tipo de tarea
- Tokens de input y output (o unidades equivalentes para imágenes/voz)
- Coste calculado según la tabla de precios del proveedor
- Latencia total y latencia del gateway
- Si se activó fallback (y a qué proveedor alternativo)
Con estos datos alimentamos 6 vistas SQL que nos dan dashboards en tiempo real: coste por proveedor, coste por producto, tendencias de uso, tasa de fallback, distribución de errores y alertas de anomalías de gasto.
Detección de Patrones de Error
El gateway no solo reacciona a errores — los anticipa. Mantenemos una ventana deslizante de los últimos 100 requests por proveedor. Si la tasa de error supera el 10% en esa ventana:
- El proveedor se marca automáticamente como "degradado"
- Las nuevas peticiones se enrutan directamente al siguiente en la cadena de fallback
- Se envía una alerta al equipo via webhook
- Cada 5 minutos se hace un health check para ver si el proveedor se ha recuperado
Esto significa que cuando OpenAI tiene una caída de 2 horas (como pasó en enero), nuestros usuarios ni se enteran. Las peticiones simplemente fluyen por Gemini o Claude automáticamente.
El Stack Técnico Completo
El gateway corre 100% en el edge de Cloudflare, sin servidores de origen:
- Cloudflare Workers: Lógica de routing, fallback y rate limiting
- D1 (SQLite distribuido): 4 tablas — logs de llamadas, configuración de proveedores, rate limit counters, alertas
- 6 vistas SQL: Análisis de costes, tendencias, errores, fallbacks
- 10+ endpoints API: CRUD de configuración, analytics, health checks, admin
- KV: Cache de respuestas frecuentes y configuración de modelos
El coste de infraestructura del propio gateway es $0 — sí, cero — porque Cloudflare Workers tiene un tier gratuito generoso que cubre nuestro volumen actual con margen de sobra.
Lecciones Después de +11.000 Llamadas/Mes
Después de meses de producción real con este sistema, estas son las lecciones más importantes:
- La diversificación no es opcional: Es el equivalente de tener backup de tu base de datos. Te parece innecesario hasta que un proveedor se cae a las 3 de la mañana un martes
- El coste se optimiza con routing, no con negociación: No necesitas descuentos por volumen si envías cada tarea al modelo más barato que puede resolverla bien
- Los logs detallados se pagan solos: Saber que Claude cuesta $0.063 por llamada media vs Gemini a $0.005 te permite tomar decisiones de producto informadas
- El overhead del gateway es despreciable: <5ms es ruido comparado con los 500ms-3s que tarda el proveedor en responder
- El tier gratuito de Cloudflare es absurdamente generoso: Workers AI + D1 + KV cubren todo el gateway sin pagar un céntimo de infra
Si estás construyendo cualquier producto que depende de IA, no pongas todos los huevos en la misma cesta. Un gateway multi-proveedor no es complejidad innecesaria — es la diferencia entre un producto que aguanta las caídas y uno que se cae con ellas.
Etiquetas
Sobre el Autor
Gonzalo Monzón
Fundador & Arquitecto Principal
Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.
Artículos Relacionados
Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real
Construimos una oficina animada estilo SimTower donde agentes IA con capacidades multimodales — visión, generación de imágenes, búsqueda web, evolución iterativa de imágenes — colaboran en tareas reales. Zero dependencias, Vanilla JS puro, corriendo en Cloudflare.
Perspectiva Studio: 19.000 Líneas de Vanilla JS Que Crean Audiolibros, Blogs y Sesiones con AI Coach
Construimos un motor completo de creación de contenido — audiolibros con 15+ voces de ElevenLabs, artículos de blog con imágenes generadas por IA de 5 proveedores, documentos PDF y sesiones interactivas con AI Coach en tiempo real — todo en Vanilla JS sin dependencias corriendo en Cloudflare.
Heartbeat: Un Motor de Salud Proactiva Que Piensa Antes de Que Preguntes
Construimos un motor de salud que late como un corazón — analizando periódicamente el contexto del usuario mediante análisis Deep Pulse con IA, perfiles User DNA, simulación de crisis y evolución visual para generar recomendaciones proactivas antes de que el usuario las pida.