Volver al Blog
IA & LLMs 12 de febrero de 2026 · 9 min lectura

Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo

GM

Gonzalo Monzón

Fundador & Arquitecto Principal

Cuando OpenAI tiene una caída, todo tu producto se va al garete. Cuando Google cambia el pricing de Gemini, tus márgenes desaparecen de un día para otro. Esa fue exactamente nuestra motivación: construir desde cero un AI Gateway multi-proveedor que garantice que ningún fallo externo tumbe nuestros productos en producción.

La Trampa del Proveedor Único

La mayoría de startups y empresas eligen un proveedor de IA y construyen todo su producto alrededor de esa API. Es cómodo al principio — un solo SDK, una factura, un set de documentación — pero la realidad llega rápido:

  • Caídas en producción: Todos los grandes proveedores han tenido caídas de varias horas en el último año. Si tu app depende 100% de uno, tus usuarios se quedan sin servicio
  • Cambios de precio sin previo aviso: El pricing de GPT-4o ha cambiado 3 veces desde su lanzamiento. DeepSeek hizo un dumping de precios que obligó a la competencia a reaccionar
  • Rate limits que escalan mal: ¿Llegas al límite de tu tier a las 3 de la tarde? Tus usuarios esperan o reciben errores 429
  • Varianza de calidad: Gemini es increíble para tareas de clasificación rápida, Claude domina en razonamiento largo, GPT-4o combina bien vision + texto. Usar solo uno es desperdiciar el potencial de los demás

Nuestro Enfoque: El AI Gateway Centralizado

Cada llamada a IA en todo el ecosistema Cadences — desde la generación de contenido en Perspectiva Studio hasta los agentes de voz en tiempo real — pasa por nuestro AI Gateway centralizado. Es un Cloudflare Worker que actúa como proxy inteligente con tres responsabilidades:

  • Routing inteligente: Decide qué proveedor usar según el tipo de tarea, coste y disponibilidad
  • Fallback automático: Si un proveedor falla, la petición se reintenta automáticamente con el siguiente de la cadena
  • Tracking de costes por petición: Cada llamada se registra en D1 con proveedor, modelo, tokens usados y coste calculado

El overhead del gateway es inferior a 5ms por petición — básicamente invisible para el usuario final.

Los Números Reales: Desglose de Producción

Estos son los datos reales de un mes típico de producción (no benchmarks sintéticos, no demos):

📊 11.200+ llamadas/mes a través del gateway

💰 ~$184 coste total — menos de $0.017 por llamada de media

2.4% tasa de error — incluyendo reintentos transparentes al usuario

<5ms overhead del gateway por petición

Distribución por Proveedor: Quién Hace Qué

No todos los proveedores son iguales, y es ahí donde el routing inteligente marca la diferencia. Cada uno se usa para lo que mejor sabe hacer:

  • Google Gemini: ~5.200 llamadas/mes — $28. Nuestro workhorse para clasificación, extracción de datos y tareas de alto volumen. Mejor relación calidad/precio
  • Anthropic Claude: ~820 llamadas/mes — $52. Usado para razonamiento complejo, generación de contenido largo y análisis de documentos. Caro pero vale cada céntimo donde lo usamos
  • OpenAI GPT-4o: ~580 llamadas/mes — $38. Multitask: combinaciones vision + texto, generación de código, tareas que requieren function calling robusto
  • FLUX (generación de imágenes): ~1.800 llamadas/mes — $0.00. Thumbnails, covers, assets visuales para publicaciones. Coste cero vía tier gratuito
  • Cloudflare Workers AI: ~1.100 llamadas/mes — $0.00. Embeddings y clasificación rápida. Se ejecuta en el mismo edge que nuestro gateway, latencia mínima
  • DeepSeek + Groq: Tareas de velocidad extrema y fallback secundario
  • ElevenLabs: Síntesis de voz para agentes conversacionales y audiocontent

La Cadena de Fallback: Cero Puntos de Fallo

El concepto clave es la cadena de fallback por tipo de tarea. No es un simple "si falla A, usa B". Es una cadena priorizada según calidad, coste y latencia para cada categoría:

  • Generación de texto: Claude → GPT-4o → Gemini → DeepSeek
  • Clasificación/extracción: Gemini → Workers AI → GPT-4o
  • Vision: GPT-4o → Gemini → Claude
  • Embeddings: Workers AI → OpenAI → Gemini
  • Generación de imágenes: FLUX → Workers AI

Cuando un proveedor devuelve un error 5xx o timeout, el gateway reintenta automáticamente con el siguiente de la cadena. El usuario ni se entera — solo ve que su petición tarda unos milisegundos más.

Rate Limiting por Tiers: Sin Sorpresas

Cada llamada al gateway pasa por un sistema de rate limiting con tres niveles configurados en D1:

  • Tier FREE: 100 llamadas/hora, 1.000/día — para demos y uso básico
  • Tier PRO: 1.000 llamadas/hora, 10.000/día — para clientes en producción
  • Tier UNLIMITED: Sin límites de rate, con prioridad en la cola — para nuestros propios productos internos

Los límites se rastrean con contadores en D1 con TTL automático. Cuando un usuario alcanza su límite, recibe un error 429 con un header Retry-After que indica cuándo puede reintentar.

Tracking de Costes en Tiempo Real: Cada Céntimo Rastreado

Cada llamada al gateway genera un registro en nuestra base de datos D1 con:

  • Timestamp, proveedor, modelo, tipo de tarea
  • Tokens de input y output (o unidades equivalentes para imágenes/voz)
  • Coste calculado según la tabla de precios del proveedor
  • Latencia total y latencia del gateway
  • Si se activó fallback (y a qué proveedor alternativo)

Con estos datos alimentamos 6 vistas SQL que nos dan dashboards en tiempo real: coste por proveedor, coste por producto, tendencias de uso, tasa de fallback, distribución de errores y alertas de anomalías de gasto.

Detección de Patrones de Error

El gateway no solo reacciona a errores — los anticipa. Mantenemos una ventana deslizante de los últimos 100 requests por proveedor. Si la tasa de error supera el 10% en esa ventana:

  • El proveedor se marca automáticamente como "degradado"
  • Las nuevas peticiones se enrutan directamente al siguiente en la cadena de fallback
  • Se envía una alerta al equipo via webhook
  • Cada 5 minutos se hace un health check para ver si el proveedor se ha recuperado

Esto significa que cuando OpenAI tiene una caída de 2 horas (como pasó en enero), nuestros usuarios ni se enteran. Las peticiones simplemente fluyen por Gemini o Claude automáticamente.

El Stack Técnico Completo

El gateway corre 100% en el edge de Cloudflare, sin servidores de origen:

  • Cloudflare Workers: Lógica de routing, fallback y rate limiting
  • D1 (SQLite distribuido): 4 tablas — logs de llamadas, configuración de proveedores, rate limit counters, alertas
  • 6 vistas SQL: Análisis de costes, tendencias, errores, fallbacks
  • 10+ endpoints API: CRUD de configuración, analytics, health checks, admin
  • KV: Cache de respuestas frecuentes y configuración de modelos

El coste de infraestructura del propio gateway es $0 — sí, cero — porque Cloudflare Workers tiene un tier gratuito generoso que cubre nuestro volumen actual con margen de sobra.

Lecciones Después de +11.000 Llamadas/Mes

Después de meses de producción real con este sistema, estas son las lecciones más importantes:

  • La diversificación no es opcional: Es el equivalente de tener backup de tu base de datos. Te parece innecesario hasta que un proveedor se cae a las 3 de la mañana un martes
  • El coste se optimiza con routing, no con negociación: No necesitas descuentos por volumen si envías cada tarea al modelo más barato que puede resolverla bien
  • Los logs detallados se pagan solos: Saber que Claude cuesta $0.063 por llamada media vs Gemini a $0.005 te permite tomar decisiones de producto informadas
  • El overhead del gateway es despreciable: <5ms es ruido comparado con los 500ms-3s que tarda el proveedor en responder
  • El tier gratuito de Cloudflare es absurdamente generoso: Workers AI + D1 + KV cubren todo el gateway sin pagar un céntimo de infra

Si estás construyendo cualquier producto que depende de IA, no pongas todos los huevos en la misma cesta. Un gateway multi-proveedor no es complejidad innecesaria — es la diferencia entre un producto que aguanta las caídas y uno que se cae con ellas.

Etiquetas

AI Gateway Multi-Proveedor Cloudflare Workers Optimización Costes LLMs Resiliencia D1 Analytics

Sobre el Autor

Gonzalo Monzón

Gonzalo Monzón

Fundador & Arquitecto Principal

Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.

Mantente al día

Recibe notificaciones cuando publiquemos nuevos artículos sobre automatización IA, casos de uso y guías prácticas.