IA & LLMs 22 de septiembre de 2025 · 12 min lectura

Perspectiva Studio: 19.000 Líneas de Vanilla JS Que Crean Audiolibros, Blogs y Sesiones con AI Coach

Gonzalo Monzón

Fundador & Arquitecto Principal

¿Y si un solo editor pudiera producir audiolibros narrados, artículos de blog ilustrados, PDFs profesionales y sesiones de coaching interactivas con IA — todo desde la misma interfaz? Perspectiva Studio es exactamente eso: un motor de contenido de 19.000+ líneas de Vanilla JS que orquesta 10+ modelos de IA en texto, imagen, voz y búsqueda para crear contenido listo para publicar con un solo click.

Sin React, sin paso de build, sin dependencias npm. Solo JS puro, CSS e integrar un número absurdo de proveedores de IA. Este artículo cubre los cinco módulos de creación, el pipeline de publicación, la estrategia de generación de imágenes con 5 proveedores y las herramientas para desarrolladores (versionado de bloques, búsqueda por embeddings, visor de costes) que hacen que todo sea manejable.

Blog Studio: 12 Tipos de Sección, Zero Formateo Manual

Blog Studio genera artículos completos con IA. No solo párrafos de texto — artículos estructurados con 12 tipos de sección distintos: párrafo, lista, cita, bloque de código, imagen, tabla, FAQ, timeline, comparación, callout, estadísticas y media embebida.

El pipeline de generación:

Input del tema — un título, brief, o incluso una idea de una línea
IA estructura el artículo — Claude o Gemini crean un plan de secciones con tipos, orden, puntos clave por sección
Generación de contenido — cada sección se genera con su formato apropiado (tablas con datos, FAQs con pares Q&A, timelines con entradas cronológicas)
Generación de imágenes — FLUX/DALL-E/Imagen 3 crean imágenes contextuales para secciones visuales
SEO automático — slugs, meta descriptions, Open Graph tags, Schema.org structured data, canonical URLs — todo generado automáticamente
Generación estática — HTML optimizado con imágenes lazy-loaded y JSON-LD embebido

El output se publica simultáneamente en múltiples destinos: cadences.app, storefronts Codex (sites white-label de clientes), feeds RSS y sitemaps. Un click, múltiples plataformas.

Audiobook Studio: Pipeline de Narración Profesional

Aquí es donde las cosas se ponen realmente impresionantes. Audiobook Studio convierte texto largo en audiolibros narrados profesionalmente usando ElevenLabs:

Texto → Segmentación inteligente → TTS (ElevenLabs) → Chunks de audio
  → Narración continua → Metadata → Publicación

Capacidades clave:

Feature	Detalle
15+ voces	ElevenLabs Multilingual v2 y Turbo v2.5 — diferentes personalidades, acentos, tonos
Chunking inteligente	Segmentación automática por capítulos para textos largos — respeta límites de párrafo y pausas naturales
Control de prosodia	Pausas, énfasis, velocidad ajustable por sección
Cloud storage	Audio almacenado en R2 con URLs firmadas — sin exposición pública
Publicación	Disponible en storefront Codex como audiolibro comprable o contenido gratuito

El sistema de chunking es crítico. Un libro de 50.000 palabras no puede enviarse a ElevenLabs en una sola llamada API — necesita segmentarse en chunks manejables (típicamente 3.000-5.000 caracteres) respetando puntos de corte naturales. El sistema une los chunks de audio en una narración continua con voz consistente de principio a fin.

AI Coach: Sesiones Interactivas en Tiempo Real

AI Coach va más allá del texto — es una conversación de voz bidireccional con una IA que tiene contexto completo de tu contenido y organización:

Tú hablas, el coach responde con voz — conversación real, no teclear
Transcripción en vivo — ElevenLabs Scribe diariza la conversación (quién dijo qué)
Contexto persistente — el coach recuerda toda la sesión, construyendo sobre intercambios anteriores
Function calling — durante la conversación, el coach puede ejecutar acciones: crear contenido, buscar datos, generar imágenes

La integración con Gemini Live lleva esto más lejos con 8 voces distintas, streaming bidireccional de audio y function calling en tiempo real — Gemini puede activar herramientas mientras te habla.

Casos de uso: sesiones de brainstorming de contenido, revisión editorial, discusiones estratégicas, exploración de datos guiada por voz. La transcripción se convierte en un artefacto estructurado que puede convertirse en posts de blog, notas de reunión o action items.

PDF Studio: Generación de Documentos Profesionales

Un pipeline de 3 pasos para documentos profesionales:

Estructura — IA define el esqueleto del documento: secciones, jerarquía, tipos de contenido
Contenido — Cada sección poblada con contenido generado o curado
Formato — Formateo profesional: tablas, encabezados, tipografía, branding (colores, logos, fuentes de la organización)

Optimizado tanto para impresión como para salida digital. Usado para informes a clientes, propuestas y documentación que necesita verse pulida sin trabajo manual de diseño.

Generación de Imágenes: 5 Proveedores, 1 Interfaz

Perspectiva Studio integra 5 proveedores de generación de imágenes, cada uno con diferentes trade-offs coste-calidad:

Proveedor	Modelo	Coste	Calidad	Mejor Para
Cloudflare AI	FLUX Schnell	Gratis	Buena	Borradores, contenido interno
Cloudflare AI	SDXL Lightning	Gratis	Muy buena	Posts de blog, redes sociales
OpenAI	DALL-E 3	$0,04-0,08	Excelente	Imágenes hero, contenido destacado
Google	Imagen 3	$0,02-0,04	Excelente	Fotorrealismo, marketing
Recraft	Recraft V3	Variable	Excelente	Ilustraciones, arte consistente con marca

La estrategia: usar modelos gratuitos de Cloudflare para iteración y borradores, y cambiar a proveedores premium (DALL-E 3 o Imagen 3) para outputs finales. La mayoría de posts de blog usan FLUX Schnell o SDXL Lightning — gratis, rápidos y suficientemente buenos. Las imágenes hero de cara al cliente reciben tratamiento DALL-E 3. Coste total de generación de imágenes en un mes típico: menos de $5.

Todas las imágenes se almacenan en R2 con URLs firmadas y se optimizan automáticamente para entrega web (lazy loading, tamaños responsive).

El Pipeline de Publicación

El contenido creado en Perspectiva pasa por un pipeline de publicación automatizado:

Contenido creado en Perspectiva
  │
  ├── SEO automático
  │     ├── Slug generado desde título
  │     ├── Meta description vía IA
  │     ├── Open Graph tags
  │     ├── Schema.org structured data
  │     └── Canonical URLs
  │
  ├── Generación estática (SSG)
  │     ├── HTML optimizado
  │     ├── Imágenes con lazy loading
  │     └── JSON-LD embedido
  │
  └── Multi-destino
        ├── cadences.app/perspectiva/[slug]
        ├── Storefront Codex (si configurado)
        ├── Feed RSS
        └── Sitemap.xml

Cada pieza de contenido está lista para SEO desde el momento de su creación. Sin etiquetado manual, sin workflow SEO separado. La IA genera meta descriptions que realmente son buenas (porque tiene contexto completo del contenido), y el markup Schema.org es específico al tipo de contenido (Article, AudioObject, FAQPage, etc.).

Herramientas para Desarrolladores: El Poder Oculto

Block Versioning

Cada sección de contenido tiene su propio historial de versiones. ¿Cambiaste un párrafo y te arrepientes? Vuelve a cualquier versión anterior con un click. El diff visual muestra exactamente qué cambió entre versiones. No es complejidad nivel Git — es undo/redo instantáneo a nivel de bloque.

Búsqueda por Embeddings

Todo el contenido se vectoriza a través de Cloudflare Vectorize. En lugar de buscar por keywords, puedes buscar por significado: "artículos sobre optimización de costes" encuentra contenido sobre gestión de presupuestos, estrategias de precios y eficiencia — aunque esas palabras exactas no aparezcan. Resultados rankeados por relevancia contextual usando embeddings all-MiniLM-L6-v2.

Model Registry & Tester

Un dashboard para gestionar cada modelo de IA integrado en el sistema. Test rápido con prompts de muestra, comparar latencia y calidad del output lado a lado, activar/desactivar modelos al vuelo. Cuando un nuevo modelo se lanza (pasa semanalmente ya), lo añadimos al registro, ejecutamos nuestra suite de tests, y está disponible en todos los módulos en minutos.

Cost Viewer

Seguimiento de costes en tiempo real integrado con nuestro AI Gateway:

Desglose de costes por modelo, proveedor y categoría de contenido
Tendencias históricas de gasto
Alertas de presupuesto antes de que alcances los límites
Atribución de coste por artículo y por audiolibro

Los Números: 19.000+ Líneas de Vanilla JS

Métrica	Valor
perspectiva-studio.js	19.000+ líneas
index.html	14.000+ líneas
Modelos de IA integrados	10+
Tipos de sección de blog	12
Voces TTS	15+
Proveedores de imagen	5
Dependencias	0

19.000 líneas de JavaScript en un solo archivo. Sin módulos, sin imports, sin bundler. ¿Suena una locura? Funciona mejor de lo que esperarías. El archivo está organizado por sección (generación de blog, pipeline de audiolibros, AI coach, generación de imágenes, publicación, herramientas). Con la búsqueda de un IDE moderno, navegar 19K líneas es más rápido que navegar 200 archivos en un proyecto React típico.

¿Y el despliegue? Todo el estudio son archivos estáticos servidos desde Cloudflare Pages. Sin servidor Node.js, sin contenedores Docker, sin cold starts. CDN global, cargas instantáneas.

Matriz de Proveedores de IA

Función	Proveedores
Generación de texto	Claude Sonnet 4, Gemini 2.5, GPT-4o
Generación de imágenes	FLUX, SDXL, DALL-E 3, Imagen 3, Recraft V3
Narración (TTS)	ElevenLabs (Multilingual v2, Turbo v2.5), Edge TTS
Transcripción (STT)	ElevenLabs Scribe, OpenAI Whisper
Embeddings	Cloudflare Vectorize, all-MiniLM-L6-v2

Multi-proveedor por diseño. Cuando OpenAI tiene una caída (pasa más de lo que piensas), cambiamos a Gemini. Cuando la generación de imágenes de Gemini tiene bloqueos de política, hacemos fallback a FLUX. La redundancia no es un lujo — es lo que mantiene el pipeline de contenido funcionando 24/7.

Conclusiones Clave

1. Un solo editor para todos los tipos de contenido es un multiplicador de fuerza. Cambiar entre herramientas (Canva para imágenes, WordPress para blog, Descript para audio) mata el momentum. Una interfaz que maneja texto, audio, imágenes y sesiones interactivas significa que la creación de contenido fluye en lugar de estancarse.

2. Los modelos de IA de tier gratuito son suficientes para el 80% del contenido. FLUX Schnell y SDXL Lightning producen imágenes que funcionan perfectamente para posts de blog y contenido interno. Los modelos premium se reservan para imágenes hero de cara al cliente. Coste total de imágenes: menos de $5/mes.

3. Las sesiones con AI Coach son la feature más infravalorada. Brainstorming por voz con una IA que puede ejecutar acciones durante la conversación (generar imágenes, buscar datos, crear borradores) es dramáticamente más productivo que escribir prompts.

4. El versionado por bloques hace que la edición asistida por IA sea sin miedo. Cuando la IA puede regenerar cualquier sección, necesitas historial de versiones a nivel de bloque, no de documento. Prueba 5 introducciones diferentes generadas por IA, compáralas, elige la mejor — sin perder trabajo.

5. 19.000 líneas en un archivo es una feature, no un bug. Cuando controlas todo el codebase y hay zero dependencias, un archivo monolito es realmente más fácil de mantener que un árbol de archivos extenso. La búsqueda es instantánea, no hay cadenas de imports que rastrear, y el deploy es copiar archivos.

Etiquetas

Creación de Contenido Audiolibros ElevenLabs Generación de Imágenes Vanilla JS AI Coach

← Artículo Anterior Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real Siguiente Artículo → Heartbeat: Un Motor de Salud Proactiva Que Piensa Antes de Que Preguntes

Sobre el Autor

Gonzalo Monzón

Fundador & Arquitecto Principal

Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.

Ver perfil completo → Conectar en LinkedIn

Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo

11.200+ llamadas/mes, ~$184 de coste total, 2.4% de errores. Así es como nuestro AI Gateway en Cloudflare Workers enruta entre Gemini, GPT-4o, Claude y más — con fallback automático, rate limiting por tiers y tracking de costes en tiempo real.

12 de febrero de 2026

Leer Artículo →

Casos de Uso

10 min lectura

De 4 Horas de Respuesta a Instantáneo: Cómo Nuestros Agentes de Voz IA Hacen Llamadas Reales

Twilio para llamadas, Gemini Flash para conversación en tiempo real, ElevenLabs para 15+ voces naturales. Construimos agentes IA que confirman citas en 35 segundos, cualifican leads con 3 preguntas y cambian entre español, inglés y catalán en medio de la llamada. Además: God Mode permite supervisión humana en vivo.

29 de diciembre de 2025

Leer Artículo →

IA & LLMs

11 min lectura

Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real

Construimos una oficina animada estilo SimTower donde agentes IA con capacidades multimodales — visión, generación de imágenes, búsqueda web, evolución iterativa de imágenes — colaboran en tareas reales. Zero dependencias, Vanilla JS puro, corriendo en Cloudflare.

8 de septiembre de 2025

Leer Artículo →

Perspectiva Studio: 19.000 Líneas de Vanilla JS Que Crean Audiolibros, Blogs y Sesiones con AI Coach

Blog Studio: 12 Tipos de Sección, Zero Formateo Manual

Audiobook Studio: Pipeline de Narración Profesional

AI Coach: Sesiones Interactivas en Tiempo Real

PDF Studio: Generación de Documentos Profesionales

Generación de Imágenes: 5 Proveedores, 1 Interfaz

El Pipeline de Publicación

Herramientas para Desarrolladores: El Poder Oculto

Block Versioning

Búsqueda por Embeddings

Model Registry & Tester

Cost Viewer

Los Números: 19.000+ Líneas de Vanilla JS

Matriz de Proveedores de IA

Conclusiones Clave

Etiquetas

Sobre el Autor

Mantente al día

Artículos Relacionados

Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo

De 4 Horas de Respuesta a Instantáneo: Cómo Nuestros Agentes de Voz IA Hacen Llamadas Reales

Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real