Volver al Blog
IA & LLMs 22 de septiembre de 2025 · 12 min lectura

Perspectiva Studio: 19.000 Líneas de Vanilla JS Que Crean Audiolibros, Blogs y Sesiones con AI Coach

GM

Gonzalo Monzón

Fundador & Arquitecto Principal

¿Y si un solo editor pudiera producir audiolibros narrados, artículos de blog ilustrados, PDFs profesionales y sesiones de coaching interactivas con IA — todo desde la misma interfaz? Perspectiva Studio es exactamente eso: un motor de contenido de 19.000+ líneas de Vanilla JS que orquesta 10+ modelos de IA en texto, imagen, voz y búsqueda para crear contenido listo para publicar con un solo click.

Sin React, sin paso de build, sin dependencias npm. Solo JS puro, CSS e integrar un número absurdo de proveedores de IA. Este artículo cubre los cinco módulos de creación, el pipeline de publicación, la estrategia de generación de imágenes con 5 proveedores y las herramientas para desarrolladores (versionado de bloques, búsqueda por embeddings, visor de costes) que hacen que todo sea manejable.

Blog Studio: 12 Tipos de Sección, Zero Formateo Manual

Blog Studio genera artículos completos con IA. No solo párrafos de texto — artículos estructurados con 12 tipos de sección distintos: párrafo, lista, cita, bloque de código, imagen, tabla, FAQ, timeline, comparación, callout, estadísticas y media embebida.

El pipeline de generación:

  1. Input del tema — un título, brief, o incluso una idea de una línea
  2. IA estructura el artículo — Claude o Gemini crean un plan de secciones con tipos, orden, puntos clave por sección
  3. Generación de contenido — cada sección se genera con su formato apropiado (tablas con datos, FAQs con pares Q&A, timelines con entradas cronológicas)
  4. Generación de imágenes — FLUX/DALL-E/Imagen 3 crean imágenes contextuales para secciones visuales
  5. SEO automático — slugs, meta descriptions, Open Graph tags, Schema.org structured data, canonical URLs — todo generado automáticamente
  6. Generación estática — HTML optimizado con imágenes lazy-loaded y JSON-LD embebido

El output se publica simultáneamente en múltiples destinos: cadences.app, storefronts Codex (sites white-label de clientes), feeds RSS y sitemaps. Un click, múltiples plataformas.

Audiobook Studio: Pipeline de Narración Profesional

Aquí es donde las cosas se ponen realmente impresionantes. Audiobook Studio convierte texto largo en audiolibros narrados profesionalmente usando ElevenLabs:

Texto → Segmentación inteligente → TTS (ElevenLabs) → Chunks de audio
  → Narración continua → Metadata → Publicación

Capacidades clave:

FeatureDetalle
15+ vocesElevenLabs Multilingual v2 y Turbo v2.5 — diferentes personalidades, acentos, tonos
Chunking inteligenteSegmentación automática por capítulos para textos largos — respeta límites de párrafo y pausas naturales
Control de prosodiaPausas, énfasis, velocidad ajustable por sección
Cloud storageAudio almacenado en R2 con URLs firmadas — sin exposición pública
PublicaciónDisponible en storefront Codex como audiolibro comprable o contenido gratuito

El sistema de chunking es crítico. Un libro de 50.000 palabras no puede enviarse a ElevenLabs en una sola llamada API — necesita segmentarse en chunks manejables (típicamente 3.000-5.000 caracteres) respetando puntos de corte naturales. El sistema une los chunks de audio en una narración continua con voz consistente de principio a fin.

AI Coach: Sesiones Interactivas en Tiempo Real

AI Coach va más allá del texto — es una conversación de voz bidireccional con una IA que tiene contexto completo de tu contenido y organización:

  • Tú hablas, el coach responde con voz — conversación real, no teclear
  • Transcripción en vivo — ElevenLabs Scribe diariza la conversación (quién dijo qué)
  • Contexto persistente — el coach recuerda toda la sesión, construyendo sobre intercambios anteriores
  • Function calling — durante la conversación, el coach puede ejecutar acciones: crear contenido, buscar datos, generar imágenes

La integración con Gemini Live lleva esto más lejos con 8 voces distintas, streaming bidireccional de audio y function calling en tiempo real — Gemini puede activar herramientas mientras te habla.

Casos de uso: sesiones de brainstorming de contenido, revisión editorial, discusiones estratégicas, exploración de datos guiada por voz. La transcripción se convierte en un artefacto estructurado que puede convertirse en posts de blog, notas de reunión o action items.

PDF Studio: Generación de Documentos Profesionales

Un pipeline de 3 pasos para documentos profesionales:

  1. Estructura — IA define el esqueleto del documento: secciones, jerarquía, tipos de contenido
  2. Contenido — Cada sección poblada con contenido generado o curado
  3. Formato — Formateo profesional: tablas, encabezados, tipografía, branding (colores, logos, fuentes de la organización)

Optimizado tanto para impresión como para salida digital. Usado para informes a clientes, propuestas y documentación que necesita verse pulida sin trabajo manual de diseño.

Generación de Imágenes: 5 Proveedores, 1 Interfaz

Perspectiva Studio integra 5 proveedores de generación de imágenes, cada uno con diferentes trade-offs coste-calidad:

ProveedorModeloCosteCalidadMejor Para
Cloudflare AIFLUX SchnellGratisBuenaBorradores, contenido interno
Cloudflare AISDXL LightningGratisMuy buenaPosts de blog, redes sociales
OpenAIDALL-E 3$0,04-0,08ExcelenteImágenes hero, contenido destacado
GoogleImagen 3$0,02-0,04ExcelenteFotorrealismo, marketing
RecraftRecraft V3VariableExcelenteIlustraciones, arte consistente con marca

La estrategia: usar modelos gratuitos de Cloudflare para iteración y borradores, y cambiar a proveedores premium (DALL-E 3 o Imagen 3) para outputs finales. La mayoría de posts de blog usan FLUX Schnell o SDXL Lightning — gratis, rápidos y suficientemente buenos. Las imágenes hero de cara al cliente reciben tratamiento DALL-E 3. Coste total de generación de imágenes en un mes típico: menos de $5.

Todas las imágenes se almacenan en R2 con URLs firmadas y se optimizan automáticamente para entrega web (lazy loading, tamaños responsive).

El Pipeline de Publicación

El contenido creado en Perspectiva pasa por un pipeline de publicación automatizado:

Contenido creado en Perspectiva
  │
  ├── SEO automático
  │     ├── Slug generado desde título
  │     ├── Meta description vía IA
  │     ├── Open Graph tags
  │     ├── Schema.org structured data
  │     └── Canonical URLs
  │
  ├── Generación estática (SSG)
  │     ├── HTML optimizado
  │     ├── Imágenes con lazy loading
  │     └── JSON-LD embedido
  │
  └── Multi-destino
        ├── cadences.app/perspectiva/[slug]
        ├── Storefront Codex (si configurado)
        ├── Feed RSS
        └── Sitemap.xml

Cada pieza de contenido está lista para SEO desde el momento de su creación. Sin etiquetado manual, sin workflow SEO separado. La IA genera meta descriptions que realmente son buenas (porque tiene contexto completo del contenido), y el markup Schema.org es específico al tipo de contenido (Article, AudioObject, FAQPage, etc.).

Herramientas para Desarrolladores: El Poder Oculto

Block Versioning

Cada sección de contenido tiene su propio historial de versiones. ¿Cambiaste un párrafo y te arrepientes? Vuelve a cualquier versión anterior con un click. El diff visual muestra exactamente qué cambió entre versiones. No es complejidad nivel Git — es undo/redo instantáneo a nivel de bloque.

Búsqueda por Embeddings

Todo el contenido se vectoriza a través de Cloudflare Vectorize. En lugar de buscar por keywords, puedes buscar por significado: "artículos sobre optimización de costes" encuentra contenido sobre gestión de presupuestos, estrategias de precios y eficiencia — aunque esas palabras exactas no aparezcan. Resultados rankeados por relevancia contextual usando embeddings all-MiniLM-L6-v2.

Model Registry & Tester

Un dashboard para gestionar cada modelo de IA integrado en el sistema. Test rápido con prompts de muestra, comparar latencia y calidad del output lado a lado, activar/desactivar modelos al vuelo. Cuando un nuevo modelo se lanza (pasa semanalmente ya), lo añadimos al registro, ejecutamos nuestra suite de tests, y está disponible en todos los módulos en minutos.

Cost Viewer

Seguimiento de costes en tiempo real integrado con nuestro AI Gateway:

  • Desglose de costes por modelo, proveedor y categoría de contenido
  • Tendencias históricas de gasto
  • Alertas de presupuesto antes de que alcances los límites
  • Atribución de coste por artículo y por audiolibro

Los Números: 19.000+ Líneas de Vanilla JS

MétricaValor
perspectiva-studio.js19.000+ líneas
index.html14.000+ líneas
Modelos de IA integrados10+
Tipos de sección de blog12
Voces TTS15+
Proveedores de imagen5
Dependencias0

19.000 líneas de JavaScript en un solo archivo. Sin módulos, sin imports, sin bundler. ¿Suena una locura? Funciona mejor de lo que esperarías. El archivo está organizado por sección (generación de blog, pipeline de audiolibros, AI coach, generación de imágenes, publicación, herramientas). Con la búsqueda de un IDE moderno, navegar 19K líneas es más rápido que navegar 200 archivos en un proyecto React típico.

¿Y el despliegue? Todo el estudio son archivos estáticos servidos desde Cloudflare Pages. Sin servidor Node.js, sin contenedores Docker, sin cold starts. CDN global, cargas instantáneas.

Matriz de Proveedores de IA

FunciónProveedores
Generación de textoClaude Sonnet 4, Gemini 2.5, GPT-4o
Generación de imágenesFLUX, SDXL, DALL-E 3, Imagen 3, Recraft V3
Narración (TTS)ElevenLabs (Multilingual v2, Turbo v2.5), Edge TTS
Transcripción (STT)ElevenLabs Scribe, OpenAI Whisper
EmbeddingsCloudflare Vectorize, all-MiniLM-L6-v2

Multi-proveedor por diseño. Cuando OpenAI tiene una caída (pasa más de lo que piensas), cambiamos a Gemini. Cuando la generación de imágenes de Gemini tiene bloqueos de política, hacemos fallback a FLUX. La redundancia no es un lujo — es lo que mantiene el pipeline de contenido funcionando 24/7.

Conclusiones Clave

1. Un solo editor para todos los tipos de contenido es un multiplicador de fuerza. Cambiar entre herramientas (Canva para imágenes, WordPress para blog, Descript para audio) mata el momentum. Una interfaz que maneja texto, audio, imágenes y sesiones interactivas significa que la creación de contenido fluye en lugar de estancarse.

2. Los modelos de IA de tier gratuito son suficientes para el 80% del contenido. FLUX Schnell y SDXL Lightning producen imágenes que funcionan perfectamente para posts de blog y contenido interno. Los modelos premium se reservan para imágenes hero de cara al cliente. Coste total de imágenes: menos de $5/mes.

3. Las sesiones con AI Coach son la feature más infravalorada. Brainstorming por voz con una IA que puede ejecutar acciones durante la conversación (generar imágenes, buscar datos, crear borradores) es dramáticamente más productivo que escribir prompts.

4. El versionado por bloques hace que la edición asistida por IA sea sin miedo. Cuando la IA puede regenerar cualquier sección, necesitas historial de versiones a nivel de bloque, no de documento. Prueba 5 introducciones diferentes generadas por IA, compáralas, elige la mejor — sin perder trabajo.

5. 19.000 líneas en un archivo es una feature, no un bug. Cuando controlas todo el codebase y hay zero dependencias, un archivo monolito es realmente más fácil de mantener que un árbol de archivos extenso. La búsqueda es instantánea, no hay cadenas de imports que rastrear, y el deploy es copiar archivos.

Etiquetas

Creación de Contenido Audiolibros ElevenLabs Generación de Imágenes Vanilla JS AI Coach

Sobre el Autor

Gonzalo Monzón

Gonzalo Monzón

Fundador & Arquitecto Principal

Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.

Mantente al día

Recibe notificaciones cuando publiquemos nuevos artículos sobre automatización IA, casos de uso y guías prácticas.