IA & LLMs 12 de febrero de 2026 · 9 min lectura

Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo

Gonzalo Monzón

Fundador & Arquitecto Principal

Cuando OpenAI tiene una caída, todo tu producto se va al garete. Cuando Google cambia el pricing de Gemini, tus márgenes desaparecen de un día para otro. Esa fue exactamente nuestra motivación: construir desde cero un AI Gateway multi-proveedor que garantice que ningún fallo externo tumbe nuestros productos en producción.

La Trampa del Proveedor Único

La mayoría de startups y empresas eligen un proveedor de IA y construyen todo su producto alrededor de esa API. Es cómodo al principio — un solo SDK, una factura, un set de documentación — pero la realidad llega rápido:

Caídas en producción: Todos los grandes proveedores han tenido caídas de varias horas en el último año. Si tu app depende 100% de uno, tus usuarios se quedan sin servicio
Cambios de precio sin previo aviso: El pricing de GPT-4o ha cambiado 3 veces desde su lanzamiento. DeepSeek hizo un dumping de precios que obligó a la competencia a reaccionar
Rate limits que escalan mal: ¿Llegas al límite de tu tier a las 3 de la tarde? Tus usuarios esperan o reciben errores 429
Varianza de calidad: Gemini es increíble para tareas de clasificación rápida, Claude domina en razonamiento largo, GPT-4o combina bien vision + texto. Usar solo uno es desperdiciar el potencial de los demás

Nuestro Enfoque: El AI Gateway Centralizado

Cada llamada a IA en todo el ecosistema Cadences — desde la generación de contenido en Perspectiva Studio hasta los agentes de voz en tiempo real — pasa por nuestro AI Gateway centralizado. Es un Cloudflare Worker que actúa como proxy inteligente con tres responsabilidades:

Routing inteligente: Decide qué proveedor usar según el tipo de tarea, coste y disponibilidad
Fallback automático: Si un proveedor falla, la petición se reintenta automáticamente con el siguiente de la cadena
Tracking de costes por petición: Cada llamada se registra en D1 con proveedor, modelo, tokens usados y coste calculado

El overhead del gateway es inferior a 5ms por petición — básicamente invisible para el usuario final.

Los Números Reales: Desglose de Producción

Estos son los datos reales de un mes típico de producción (no benchmarks sintéticos, no demos):

📊 11.200+ llamadas/mes a través del gateway

💰 ~$184 coste total — menos de $0.017 por llamada de media

❌ 2.4% tasa de error — incluyendo reintentos transparentes al usuario

⚡ <5ms overhead del gateway por petición

Distribución por Proveedor: Quién Hace Qué

No todos los proveedores son iguales, y es ahí donde el routing inteligente marca la diferencia. Cada uno se usa para lo que mejor sabe hacer:

Google Gemini: ~5.200 llamadas/mes — $28. Nuestro workhorse para clasificación, extracción de datos y tareas de alto volumen. Mejor relación calidad/precio
Anthropic Claude: ~820 llamadas/mes — $52. Usado para razonamiento complejo, generación de contenido largo y análisis de documentos. Caro pero vale cada céntimo donde lo usamos
OpenAI GPT-4o: ~580 llamadas/mes — $38. Multitask: combinaciones vision + texto, generación de código, tareas que requieren function calling robusto
FLUX (generación de imágenes): ~1.800 llamadas/mes — $0.00. Thumbnails, covers, assets visuales para publicaciones. Coste cero vía tier gratuito
Cloudflare Workers AI: ~1.100 llamadas/mes — $0.00. Embeddings y clasificación rápida. Se ejecuta en el mismo edge que nuestro gateway, latencia mínima
DeepSeek + Groq: Tareas de velocidad extrema y fallback secundario
ElevenLabs: Síntesis de voz para agentes conversacionales y audiocontent

La Cadena de Fallback: Cero Puntos de Fallo

El concepto clave es la cadena de fallback por tipo de tarea. No es un simple "si falla A, usa B". Es una cadena priorizada según calidad, coste y latencia para cada categoría:

Generación de texto: Claude → GPT-4o → Gemini → DeepSeek
Clasificación/extracción: Gemini → Workers AI → GPT-4o
Vision: GPT-4o → Gemini → Claude
Embeddings: Workers AI → OpenAI → Gemini
Generación de imágenes: FLUX → Workers AI

Cuando un proveedor devuelve un error 5xx o timeout, el gateway reintenta automáticamente con el siguiente de la cadena. El usuario ni se entera — solo ve que su petición tarda unos milisegundos más.

Rate Limiting por Tiers: Sin Sorpresas

Cada llamada al gateway pasa por un sistema de rate limiting con tres niveles configurados en D1:

Tier FREE: 100 llamadas/hora, 1.000/día — para demos y uso básico
Tier PRO: 1.000 llamadas/hora, 10.000/día — para clientes en producción
Tier UNLIMITED: Sin límites de rate, con prioridad en la cola — para nuestros propios productos internos

Los límites se rastrean con contadores en D1 con TTL automático. Cuando un usuario alcanza su límite, recibe un error 429 con un header Retry-After que indica cuándo puede reintentar.

Tracking de Costes en Tiempo Real: Cada Céntimo Rastreado

Cada llamada al gateway genera un registro en nuestra base de datos D1 con:

Timestamp, proveedor, modelo, tipo de tarea
Tokens de input y output (o unidades equivalentes para imágenes/voz)
Coste calculado según la tabla de precios del proveedor
Latencia total y latencia del gateway
Si se activó fallback (y a qué proveedor alternativo)

Con estos datos alimentamos 6 vistas SQL que nos dan dashboards en tiempo real: coste por proveedor, coste por producto, tendencias de uso, tasa de fallback, distribución de errores y alertas de anomalías de gasto.

Detección de Patrones de Error

El gateway no solo reacciona a errores — los anticipa. Mantenemos una ventana deslizante de los últimos 100 requests por proveedor. Si la tasa de error supera el 10% en esa ventana:

El proveedor se marca automáticamente como "degradado"
Las nuevas peticiones se enrutan directamente al siguiente en la cadena de fallback
Se envía una alerta al equipo via webhook
Cada 5 minutos se hace un health check para ver si el proveedor se ha recuperado

Esto significa que cuando OpenAI tiene una caída de 2 horas (como pasó en enero), nuestros usuarios ni se enteran. Las peticiones simplemente fluyen por Gemini o Claude automáticamente.

El Stack Técnico Completo

El gateway corre 100% en el edge de Cloudflare, sin servidores de origen:

Cloudflare Workers: Lógica de routing, fallback y rate limiting
D1 (SQLite distribuido): 4 tablas — logs de llamadas, configuración de proveedores, rate limit counters, alertas
6 vistas SQL: Análisis de costes, tendencias, errores, fallbacks
10+ endpoints API: CRUD de configuración, analytics, health checks, admin
KV: Cache de respuestas frecuentes y configuración de modelos

El coste de infraestructura del propio gateway es $0 — sí, cero — porque Cloudflare Workers tiene un tier gratuito generoso que cubre nuestro volumen actual con margen de sobra.

Lecciones Después de +11.000 Llamadas/Mes

Después de meses de producción real con este sistema, estas son las lecciones más importantes:

La diversificación no es opcional: Es el equivalente de tener backup de tu base de datos. Te parece innecesario hasta que un proveedor se cae a las 3 de la mañana un martes
El coste se optimiza con routing, no con negociación: No necesitas descuentos por volumen si envías cada tarea al modelo más barato que puede resolverla bien
Los logs detallados se pagan solos: Saber que Claude cuesta $0.063 por llamada media vs Gemini a $0.005 te permite tomar decisiones de producto informadas
El overhead del gateway es despreciable: <5ms es ruido comparado con los 500ms-3s que tarda el proveedor en responder
El tier gratuito de Cloudflare es absurdamente generoso: Workers AI + D1 + KV cubren todo el gateway sin pagar un céntimo de infra

Si estás construyendo cualquier producto que depende de IA, no pongas todos los huevos en la misma cesta. Un gateway multi-proveedor no es complejidad innecesaria — es la diferencia entre un producto que aguanta las caídas y uno que se cae con ellas.

Etiquetas

AI Gateway Multi-Proveedor Cloudflare Workers Optimización Costes LLMs Resiliencia D1 Analytics

← Artículo Anterior Cómo un Equipo de 3 Personas Gestiona 200+ Leads al Mes con IA Siguiente Artículo → Construir un Bot de WhatsApp Que No Se Banee — El Enfoque Desktop Agent

Sobre el Autor

Gonzalo Monzón

Fundador & Arquitecto Principal

Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.

Ver perfil completo → Conectar en LinkedIn

Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real

Construimos una oficina animada estilo SimTower donde agentes IA con capacidades multimodales — visión, generación de imágenes, búsqueda web, evolución iterativa de imágenes — colaboran en tareas reales. Zero dependencias, Vanilla JS puro, corriendo en Cloudflare.

8 de septiembre de 2025

Leer Artículo →

IA & LLMs

12 min lectura

Perspectiva Studio: 19.000 Líneas de Vanilla JS Que Crean Audiolibros, Blogs y Sesiones con AI Coach

Construimos un motor completo de creación de contenido — audiolibros con 15+ voces de ElevenLabs, artículos de blog con imágenes generadas por IA de 5 proveedores, documentos PDF y sesiones interactivas con AI Coach en tiempo real — todo en Vanilla JS sin dependencias corriendo en Cloudflare.

22 de septiembre de 2025

Leer Artículo →

Salud Digital

10 min lectura

Heartbeat: Un Motor de Salud Proactiva Que Piensa Antes de Que Preguntes

Construimos un motor de salud que late como un corazón — analizando periódicamente el contexto del usuario mediante análisis Deep Pulse con IA, perfiles User DNA, simulación de crisis y evolución visual para generar recomendaciones proactivas antes de que el usuario las pida.

6 de octubre de 2025

Leer Artículo →

Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo

La Trampa del Proveedor Único

Nuestro Enfoque: El AI Gateway Centralizado

Los Números Reales: Desglose de Producción

Distribución por Proveedor: Quién Hace Qué

La Cadena de Fallback: Cero Puntos de Fallo

Rate Limiting por Tiers: Sin Sorpresas

Tracking de Costes en Tiempo Real: Cada Céntimo Rastreado

Detección de Patrones de Error

El Stack Técnico Completo

Lecciones Después de +11.000 Llamadas/Mes

Etiquetas

Sobre el Autor

Mantente al día

Artículos Relacionados

Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real

Perspectiva Studio: 19.000 Líneas de Vanilla JS Que Crean Audiolibros, Blogs y Sesiones con AI Coach

Heartbeat: Un Motor de Salud Proactiva Que Piensa Antes de Que Preguntes