IA & Automatización
2023 — Presente

AI Gateway

Infraestructura IA Centralizada Multi-Proveedor

~34K líneas de código IA gestionando todas las llamadas del ecosistema. Smart routing con 4 estrategias, resolución de API keys en 6 niveles, tracking de costes con 7 vistas SQL, sistema de alertas, gestión de presupuesto de neurons y fallback automático a Workers AI gratuito.

Año

2023 — Presente

Rol

Arquitecto & Developer

Tecnologías

11 tecnologías

El Desafío

Un ecosistema con 14+ productos llamando a múltiples proveedores de IA necesita gestión centralizada — no llamadas API dispersas.

  • Control de costes entre 9+ proveedores con diferentes modelos de pricing, conteo de tokens y unidades de facturación
  • Routing inteligente — elegir el modelo más barato, rápido o de mayor calidad según el contexto de la petición
  • Resolución de API keys entre organizaciones, usuarios y tiers del sistema — con fallback a modelos gratuitos cuando todo lo demás falla
  • Monitorización en tiempo real: alertas cuando el gasto se dispara, detección de patrones de error y tracking de salud de modelos

El Enfoque

Una capa gateway que intercepta cada llamada IA del ecosistema:

  • Smart Router con 4 estrategias — cheapest, fastest, quality o balanced (scoring: quality×2 + speed - log₁₀(cost)×2). Cada petición se rutea al modelo óptimo según la estrategia elegida
  • Resolución de API key en 6 niveles — user → org → system-tier → system-all → env → Workers AI gratis. La primera key válida gana; si todas fallan, la llamada cae a Cloudflare Workers AI a coste cero
  • Adapters por proveedor — cada proveedor tiene su propio adapter que normaliza requests/responses a un formato común. Proveedores custom (LMStudio, Ollama, vLLM) usan un adapter openai_compatible
  • Gestión de presupuesto de neurons — el tier gratuito de Workers AI da 10K neurons/día. El gateway trackea el consumo y selecciona modelos que encajan en el presupuesto restante

La Solución

Ciclo de vida completo de la petición gestionado end-to-end:

  • Pipeline — Request → Verificación de Tier (DB) → Rate Limiting (por tier, fail-open) → Smart Routing → Resolución de API Key (6 niveles) → Adapter por Proveedor → callAI() wrapper → Normalización de Respuesta (todos los proveedores → formato OpenAI)
  • 9 modalidades — LLM chat, Vision/OCR, Generación de Imagen (TTI), TTS, STT, Generación de Video, Embeddings, Gemini Live (voz bidireccional), ElevenLabs Conversational AI
  • Gestión de errores — 9 tipos de error detectados (rate_limit, auth, timeout, model_not_found, content_filter, quota_exceeded...), salud del modelo auto-actualizada, cadenas de fallback por categoría
  • Alertas — umbrales $1/hr warning, $5/hr critical. 7 vistas SQL para analytics de costes, uso por modelo y patrones de error
  • Rate limiting por tier — FREE: 10/día, PERSONAL: 100/día, PROFESSIONAL: 1000/día, BUSINESS: ilimitado pay-as-you-go

Resultados Clave

  • ~34K líneas en 66+ archivos (backend 15.5K, frontend 14K, voz 2.5K)
  • 9 proveedores cloud + custom (LMStudio, Ollama, vLLM, OpenAI-compatible)
  • 9 modalidades: LLM, Vision/OCR, Imagen, TTS, STT, Video, Embeddings, Gemini Live, IA Conversacional
  • Smart Router: 4 estrategias con scoring quality×2 + speed - log₁₀(cost)×2
  • Resolución de API key en 6 niveles: user → org → system-tier → system-all → env → Workers AI
  • 12+ tablas D1, 7 vistas SQL, sistema de alertas ($1/hr warning, $5/hr critical)
  • Tracking de presupuesto de neurons Workers AI (10K/día gratis, selección de modelo adaptativa)
  • Rate limiting por tier: FREE 10/día → BUSINESS ilimitado pay-as-you-go

Tecnologías

Cloudflare Pages Functions D1 Gemini OpenAI Anthropic DeepSeek Groq xAI Perplexity Together AI ElevenLabs
$ cat project.json
{
"name": "AI Gateway",
"status": "production",
"stack": [11],
"results": [8]
}