Perspectiva Studio: 19.000 Líneas de Vanilla JS Que Crean Audiolibros, Blogs y Sesiones con AI Coach
Gonzalo Monzón
Fundador & Arquitecto Principal
¿Y si un solo editor pudiera producir audiolibros narrados, artículos de blog ilustrados, PDFs profesionales y sesiones de coaching interactivas con IA — todo desde la misma interfaz? Perspectiva Studio es exactamente eso: un motor de contenido de 19.000+ líneas de Vanilla JS que orquesta 10+ modelos de IA en texto, imagen, voz y búsqueda para crear contenido listo para publicar con un solo click.
Sin React, sin paso de build, sin dependencias npm. Solo JS puro, CSS e integrar un número absurdo de proveedores de IA. Este artículo cubre los cinco módulos de creación, el pipeline de publicación, la estrategia de generación de imágenes con 5 proveedores y las herramientas para desarrolladores (versionado de bloques, búsqueda por embeddings, visor de costes) que hacen que todo sea manejable.
Blog Studio: 12 Tipos de Sección, Zero Formateo Manual
Blog Studio genera artículos completos con IA. No solo párrafos de texto — artículos estructurados con 12 tipos de sección distintos: párrafo, lista, cita, bloque de código, imagen, tabla, FAQ, timeline, comparación, callout, estadísticas y media embebida.
El pipeline de generación:
- Input del tema — un título, brief, o incluso una idea de una línea
- IA estructura el artículo — Claude o Gemini crean un plan de secciones con tipos, orden, puntos clave por sección
- Generación de contenido — cada sección se genera con su formato apropiado (tablas con datos, FAQs con pares Q&A, timelines con entradas cronológicas)
- Generación de imágenes — FLUX/DALL-E/Imagen 3 crean imágenes contextuales para secciones visuales
- SEO automático — slugs, meta descriptions, Open Graph tags, Schema.org structured data, canonical URLs — todo generado automáticamente
- Generación estática — HTML optimizado con imágenes lazy-loaded y JSON-LD embebido
El output se publica simultáneamente en múltiples destinos: cadences.app, storefronts Codex (sites white-label de clientes), feeds RSS y sitemaps. Un click, múltiples plataformas.
Audiobook Studio: Pipeline de Narración Profesional
Aquí es donde las cosas se ponen realmente impresionantes. Audiobook Studio convierte texto largo en audiolibros narrados profesionalmente usando ElevenLabs:
Texto → Segmentación inteligente → TTS (ElevenLabs) → Chunks de audio
→ Narración continua → Metadata → Publicación
Capacidades clave:
| Feature | Detalle |
|---|---|
| 15+ voces | ElevenLabs Multilingual v2 y Turbo v2.5 — diferentes personalidades, acentos, tonos |
| Chunking inteligente | Segmentación automática por capítulos para textos largos — respeta límites de párrafo y pausas naturales |
| Control de prosodia | Pausas, énfasis, velocidad ajustable por sección |
| Cloud storage | Audio almacenado en R2 con URLs firmadas — sin exposición pública |
| Publicación | Disponible en storefront Codex como audiolibro comprable o contenido gratuito |
El sistema de chunking es crítico. Un libro de 50.000 palabras no puede enviarse a ElevenLabs en una sola llamada API — necesita segmentarse en chunks manejables (típicamente 3.000-5.000 caracteres) respetando puntos de corte naturales. El sistema une los chunks de audio en una narración continua con voz consistente de principio a fin.
AI Coach: Sesiones Interactivas en Tiempo Real
AI Coach va más allá del texto — es una conversación de voz bidireccional con una IA que tiene contexto completo de tu contenido y organización:
- Tú hablas, el coach responde con voz — conversación real, no teclear
- Transcripción en vivo — ElevenLabs Scribe diariza la conversación (quién dijo qué)
- Contexto persistente — el coach recuerda toda la sesión, construyendo sobre intercambios anteriores
- Function calling — durante la conversación, el coach puede ejecutar acciones: crear contenido, buscar datos, generar imágenes
La integración con Gemini Live lleva esto más lejos con 8 voces distintas, streaming bidireccional de audio y function calling en tiempo real — Gemini puede activar herramientas mientras te habla.
Casos de uso: sesiones de brainstorming de contenido, revisión editorial, discusiones estratégicas, exploración de datos guiada por voz. La transcripción se convierte en un artefacto estructurado que puede convertirse en posts de blog, notas de reunión o action items.
PDF Studio: Generación de Documentos Profesionales
Un pipeline de 3 pasos para documentos profesionales:
- Estructura — IA define el esqueleto del documento: secciones, jerarquía, tipos de contenido
- Contenido — Cada sección poblada con contenido generado o curado
- Formato — Formateo profesional: tablas, encabezados, tipografía, branding (colores, logos, fuentes de la organización)
Optimizado tanto para impresión como para salida digital. Usado para informes a clientes, propuestas y documentación que necesita verse pulida sin trabajo manual de diseño.
Generación de Imágenes: 5 Proveedores, 1 Interfaz
Perspectiva Studio integra 5 proveedores de generación de imágenes, cada uno con diferentes trade-offs coste-calidad:
| Proveedor | Modelo | Coste | Calidad | Mejor Para |
|---|---|---|---|---|
| Cloudflare AI | FLUX Schnell | Gratis | Buena | Borradores, contenido interno |
| Cloudflare AI | SDXL Lightning | Gratis | Muy buena | Posts de blog, redes sociales |
| OpenAI | DALL-E 3 | $0,04-0,08 | Excelente | Imágenes hero, contenido destacado |
| Imagen 3 | $0,02-0,04 | Excelente | Fotorrealismo, marketing | |
| Recraft | Recraft V3 | Variable | Excelente | Ilustraciones, arte consistente con marca |
La estrategia: usar modelos gratuitos de Cloudflare para iteración y borradores, y cambiar a proveedores premium (DALL-E 3 o Imagen 3) para outputs finales. La mayoría de posts de blog usan FLUX Schnell o SDXL Lightning — gratis, rápidos y suficientemente buenos. Las imágenes hero de cara al cliente reciben tratamiento DALL-E 3. Coste total de generación de imágenes en un mes típico: menos de $5.
Todas las imágenes se almacenan en R2 con URLs firmadas y se optimizan automáticamente para entrega web (lazy loading, tamaños responsive).
El Pipeline de Publicación
El contenido creado en Perspectiva pasa por un pipeline de publicación automatizado:
Contenido creado en Perspectiva
│
├── SEO automático
│ ├── Slug generado desde título
│ ├── Meta description vía IA
│ ├── Open Graph tags
│ ├── Schema.org structured data
│ └── Canonical URLs
│
├── Generación estática (SSG)
│ ├── HTML optimizado
│ ├── Imágenes con lazy loading
│ └── JSON-LD embedido
│
└── Multi-destino
├── cadences.app/perspectiva/[slug]
├── Storefront Codex (si configurado)
├── Feed RSS
└── Sitemap.xml
Cada pieza de contenido está lista para SEO desde el momento de su creación. Sin etiquetado manual, sin workflow SEO separado. La IA genera meta descriptions que realmente son buenas (porque tiene contexto completo del contenido), y el markup Schema.org es específico al tipo de contenido (Article, AudioObject, FAQPage, etc.).
Herramientas para Desarrolladores: El Poder Oculto
Block Versioning
Cada sección de contenido tiene su propio historial de versiones. ¿Cambiaste un párrafo y te arrepientes? Vuelve a cualquier versión anterior con un click. El diff visual muestra exactamente qué cambió entre versiones. No es complejidad nivel Git — es undo/redo instantáneo a nivel de bloque.
Búsqueda por Embeddings
Todo el contenido se vectoriza a través de Cloudflare Vectorize. En lugar de buscar por keywords, puedes buscar por significado: "artículos sobre optimización de costes" encuentra contenido sobre gestión de presupuestos, estrategias de precios y eficiencia — aunque esas palabras exactas no aparezcan. Resultados rankeados por relevancia contextual usando embeddings all-MiniLM-L6-v2.
Model Registry & Tester
Un dashboard para gestionar cada modelo de IA integrado en el sistema. Test rápido con prompts de muestra, comparar latencia y calidad del output lado a lado, activar/desactivar modelos al vuelo. Cuando un nuevo modelo se lanza (pasa semanalmente ya), lo añadimos al registro, ejecutamos nuestra suite de tests, y está disponible en todos los módulos en minutos.
Cost Viewer
Seguimiento de costes en tiempo real integrado con nuestro AI Gateway:
- Desglose de costes por modelo, proveedor y categoría de contenido
- Tendencias históricas de gasto
- Alertas de presupuesto antes de que alcances los límites
- Atribución de coste por artículo y por audiolibro
Los Números: 19.000+ Líneas de Vanilla JS
| Métrica | Valor |
|---|---|
| perspectiva-studio.js | 19.000+ líneas |
| index.html | 14.000+ líneas |
| Modelos de IA integrados | 10+ |
| Tipos de sección de blog | 12 |
| Voces TTS | 15+ |
| Proveedores de imagen | 5 |
| Dependencias | 0 |
19.000 líneas de JavaScript en un solo archivo. Sin módulos, sin imports, sin bundler. ¿Suena una locura? Funciona mejor de lo que esperarías. El archivo está organizado por sección (generación de blog, pipeline de audiolibros, AI coach, generación de imágenes, publicación, herramientas). Con la búsqueda de un IDE moderno, navegar 19K líneas es más rápido que navegar 200 archivos en un proyecto React típico.
¿Y el despliegue? Todo el estudio son archivos estáticos servidos desde Cloudflare Pages. Sin servidor Node.js, sin contenedores Docker, sin cold starts. CDN global, cargas instantáneas.
Matriz de Proveedores de IA
| Función | Proveedores |
|---|---|
| Generación de texto | Claude Sonnet 4, Gemini 2.5, GPT-4o |
| Generación de imágenes | FLUX, SDXL, DALL-E 3, Imagen 3, Recraft V3 |
| Narración (TTS) | ElevenLabs (Multilingual v2, Turbo v2.5), Edge TTS |
| Transcripción (STT) | ElevenLabs Scribe, OpenAI Whisper |
| Embeddings | Cloudflare Vectorize, all-MiniLM-L6-v2 |
Multi-proveedor por diseño. Cuando OpenAI tiene una caída (pasa más de lo que piensas), cambiamos a Gemini. Cuando la generación de imágenes de Gemini tiene bloqueos de política, hacemos fallback a FLUX. La redundancia no es un lujo — es lo que mantiene el pipeline de contenido funcionando 24/7.
Conclusiones Clave
1. Un solo editor para todos los tipos de contenido es un multiplicador de fuerza. Cambiar entre herramientas (Canva para imágenes, WordPress para blog, Descript para audio) mata el momentum. Una interfaz que maneja texto, audio, imágenes y sesiones interactivas significa que la creación de contenido fluye en lugar de estancarse.
2. Los modelos de IA de tier gratuito son suficientes para el 80% del contenido. FLUX Schnell y SDXL Lightning producen imágenes que funcionan perfectamente para posts de blog y contenido interno. Los modelos premium se reservan para imágenes hero de cara al cliente. Coste total de imágenes: menos de $5/mes.
3. Las sesiones con AI Coach son la feature más infravalorada. Brainstorming por voz con una IA que puede ejecutar acciones durante la conversación (generar imágenes, buscar datos, crear borradores) es dramáticamente más productivo que escribir prompts.
4. El versionado por bloques hace que la edición asistida por IA sea sin miedo. Cuando la IA puede regenerar cualquier sección, necesitas historial de versiones a nivel de bloque, no de documento. Prueba 5 introducciones diferentes generadas por IA, compáralas, elige la mejor — sin perder trabajo.
5. 19.000 líneas en un archivo es una feature, no un bug. Cuando controlas todo el codebase y hay zero dependencias, un archivo monolito es realmente más fácil de mantener que un árbol de archivos extenso. La búsqueda es instantánea, no hay cadenas de imports que rastrear, y el deploy es copiar archivos.
Etiquetas
Sobre el Autor
Gonzalo Monzón
Fundador & Arquitecto Principal
Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.
Artículos Relacionados
Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo
11.200+ llamadas/mes, ~$184 de coste total, 2.4% de errores. Así es como nuestro AI Gateway en Cloudflare Workers enruta entre Gemini, GPT-4o, Claude y más — con fallback automático, rate limiting por tiers y tracking de costes en tiempo real.
De 4 Horas de Respuesta a Instantáneo: Cómo Nuestros Agentes de Voz IA Hacen Llamadas Reales
Twilio para llamadas, Gemini Flash para conversación en tiempo real, ElevenLabs para 15+ voces naturales. Construimos agentes IA que confirman citas en 35 segundos, cualifican leads con 3 preguntas y cambian entre español, inglés y catalán en medio de la llamada. Además: God Mode permite supervisión humana en vivo.
Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real
Construimos una oficina animada estilo SimTower donde agentes IA con capacidades multimodales — visión, generación de imágenes, búsqueda web, evolución iterativa de imágenes — colaboran en tareas reales. Zero dependencias, Vanilla JS puro, corriendo en Cloudflare.