Perspectiva Studio
Motor de Creación de Contenido con IA
85K+ líneas de estudio de creación de contenido sin frameworks. Blog Studio con pipeline IA de 4 fases, narración Audiobook con 4 proveedores TTS, Super Chat con 14 herramientas de function calling, Gemini Live con 8 voces, Video Studio con 4 proveedores IA de vídeo, Publications para 6 plataformas sociales y búsqueda vectorial client-side — todo vanilla JS.
Año
2024 — Presente
Rol
Full-Stack Developer
Tecnologías
9 tecnologías
El Desafío
La creación de contenido en audio, texto, imagen, vídeo y PDF vive en herramientas separadas sin contexto compartido. Cada formato exige sus propias integraciones de proveedores, almacenamiento y pipeline de publicación.
- Silos de formato — las herramientas de blog, audiobook, vídeo y PDF no comparten datos de sesión ni análisis IA
- Vendor lock-in — cambiar entre 10+ proveedores IA (LLM, TTS, STT, imagen, vídeo) requiere reescribir integraciones
- Sin workflow offline — las herramientas cloud-only fallan cuando la conectividad cae en mitad de sesión
- Contexto perdido entre sesiones — transcripción, análisis e insights de coaching no son buscables después
El Enfoque
Construir un monolito zero-framework (85K+ líneas de vanilla JS, patrón IIFE modular) que gestione el ciclo completo de contenido — ideación → escritura → ilustración → narración → publicación — con IA en cada paso y un Model Registry centralizado que enruta a cualquier proveedor.
- Entry point único — index.html de 14,615 líneas carga dinámicamente 20+ módulos JS sin herramientas de build
- Model Registry — 7 categorías IA (LLM, Image, TTS, STT, Embedding, Video, Other), 10+ proveedores, cambio transparente vía abstracción callAI()
- Persistencia híbrida — IndexedDB para acceso local instantáneo + sync R2 cloud; funciona completamente offline
- Patrón SessionTools — interfaz idéntica de function calling compartida entre chat texto (10 tools) y Super Chat (14 tools), permitiendo que texto y voz ejecuten las mismas operaciones
La Solución
Perspectiva Studio incluye 12 módulos integrados más 9 endpoints backend (~2,920 líneas de Cloudflare Workers):
- Blog Studio — pipeline IA de 4 fases (analizar → generar → ensamblar → auto-imágenes), 8 tipos de sección, 4 tonos de escritura, suite SEO completa con Schema.org JSON-LD y RSS
- Audiobook Studio — 4 proveedores TTS (Browser, gTTS, MeloTTS, ElevenLabs con voces clonadas), narración página a página, sistema visual de temperatura (literal → metafórico)
- Super Chat — 5 proveedores IA, 14 herramientas de function calling (introspección de sesión + búsqueda web), 7 modos de propósito, detección de creador con 17 patrones regex
- Gemini Live — voz bidireccional por WebSocket con 8 voces, 10 session tools vía function calling, instrucciones de sistema dinámicas desde contexto de sesión en vivo
- Video Studio — 4 tiers de movimiento (estático → Ken Burns → parallax 3D → vídeo IA), 4 proveedores IA (Luma, Runway, Kling, Haiper), 4 aspect ratios
- Publications Studio — 6 plataformas sociales (Instagram, IG Story, X, Facebook, LinkedIn, TikTok) con tono, límites de caracteres y optimización de hashtags por plataforma
- Embeddings Search — vector store client-side (IndexedDB), Gemini text-embedding-004, similitud coseno, chunks de 1K caracteres con overlap de 100
- AI Coach — 5 patrones de detección con debounce de 5s, sugerencias flotantes en tiempo real durante sesiones en vivo
- Creative Library — persistencia dual (IndexedDB + R2), 7 tipos de asset (blogs, audiobooks, PDFs, imágenes, publications, vídeos, audios)
- Model Tester — health checks por lotes por categoría IA, ajuste de parámetros por modelo vía modal de configuración
- Cost Viewer — tracking de costes por perspectiva, categoría, proveedor y modelo con gráficas de tendencia diaria
- Motor CYOA — ficción interactiva basada en grafos con inventario, flags, stats y 4 tipos de final
Resultados Clave
- 85K+ líneas de vanilla JS zero-framework (módulos IIFE, sin build tools)
- Blog Studio: pipeline IA de 4 fases, 8 tipos de sección, auto-SEO con Schema.org + RSS
- Audiobook: 4 proveedores TTS incluyendo voces clonadas ElevenLabs
- Super Chat: 14 herramientas function calling con 5 proveedores IA
- Gemini Live: 8 voces + 10 session tools vía WebSocket
- Video Studio: 4 proveedores IA de vídeo (Luma, Runway, Kling, Haiper)
- Publications: 6 plataformas sociales con optimización por plataforma
- Búsqueda vectorial client-side: embeddings + similitud coseno en IndexedDB
- 9 endpoints backend en Cloudflare Workers (~2,920 líneas)