IA & LLMs 17 de noviembre de 2025 · 8 min lectura

Transcriptor: De una Grabación de Reunión a Actas Estructuradas, Análisis Psicológico y Chat de Retrospectiva con IA

Gonzalo Monzón

Fundador & Arquitecto Principal

¿Qué pasa después de que termina una reunión? Normalmente, nada. Quizá alguien envía un resumen parcial. Los action items se olvidan. Aquella decisión crucial se atribuye a la persona equivocada una semana después. Construimos Transcriptor para solucionar eso — una herramienta que toma una grabación de audio y genera actas estructuradas, análisis psicológico por participante, un chat de retrospectiva con IA, imágenes resumen y conclusiones narradas. Todo potenciado por ElevenLabs Scribe, Gemini 2.5 y FLUX, funcionando en 4.500 líneas de JavaScript vanilla sin dependencias.

El Pipeline: Audio de Entrada, Documentación de Salida

Transcriptor ejecuta un pipeline de 7 etapas sobre cada grabación de reunión:

Etapa	Qué Hace	Potenciado Por
1. Transcripción	Speech-to-text con diarización de hablantes — quién dijo qué, cuándo	ElevenLabs Scribe
2. Acta Estructurada	Acta formal: asistentes, temas, decisiones, action items con responsables y plazos	Gemini 2.5
3. Análisis Psicológico	Estilo comunicativo, nivel de participación, tono emocional y análisis de influencia por participante	Gemini 2.5
4. Módulo de Conclusiones	Conclusiones clave, riesgos identificados, oportunidades detectadas	Gemini 2.5
5. Chat de Retrospectiva	Interfaz estilo WhatsApp para preguntar cualquier cosa sobre la reunión — la IA responde con contexto completo	Gemini 2.5
6. Imagen Resumen	Representación visual generada por IA de los puntos clave de la reunión	FLUX
7. Narración TTS	Narración de audio del resumen ejecutivo con chunking inteligente para textos largos	ElevenLabs

Sube un archivo de audio. Obtén un paquete completo de documentación de reunión. Cada etapa alimenta la siguiente — la transcripción alimenta el acta, el acta alimenta el análisis, todo alimenta el chat de retrospectiva.

Etapa 1: Transcripción con Diarización de Hablantes

Obtener palabras del audio es la parte fácil. Saber quién las dijo — esa es la parte difícil. Transcriptor usa ElevenLabs Scribe como motor STT primario porque maneja la diarización de forma nativa:

Identificación de hablantes — cada segmento etiquetado con un ID de hablante (Hablante 1, Hablante 2, etc.)
Timestamps por segmento — temporización precisa para cada intervención
Multi-idioma — español, inglés y más
Fallback con Whisper — OpenAI Whisper maneja idiomas o casos que Scribe no soporta

La calidad de la diarización importa porque todo lo posterior depende de ella. Cuando el análisis psicológico dice "El Hablante 2 dominó la conversación", necesita ser realmente el Hablante 2.

Etapa 2: Acta Estructurada vía IA

Gemini 2.5 toma la transcripción diarizada completa y genera actas formales:

Asistentes — identificados por patrones de habla y menciones, con nivel de participación
Temas tratados — agrupados y numerados automáticamente
Decisiones tomadas — extraídas del contexto conversacional ("Entonces quedamos en que...")
Action items — tarea, responsable, plazo — extraídos de la conversación natural
Próximos pasos — fechas de reuniones de seguimiento, revisiones pendientes

Las actas son editables. Si la IA atribuye una decisión a la persona equivocada, la corriges en línea. Pero en la práctica, con buena diarización, la precisión es sorprendentemente alta.

Etapa 3: Análisis Psicológico

Esta es la feature que hace que los team leads se inclinen hacia adelante. Para cada participante, Gemini analiza:

Dimensión	Qué Se Mide
Estilo Comunicativo	Directo, colaborativo, pasivo, dominante — ¿cómo expresa sus ideas esta persona?
Nivel de Participación	% del tiempo de habla, frecuencia de intervenciones, iniciativa vs. reactivo
Tono Emocional	Positivo, neutral, negativo, ansioso, entusiasta — por tema y global
Interacciones	Quién responde a quién, alianzas, tensiones, quién es interrumpido
Influencia	Quién genera más acuerdo/desacuerdo, quién cambia la dirección de la conversación

El módulo psicológico no diagnostica — revela patrones. Un manager podría descubrir que un miembro más callado del equipo realmente introduce las ideas que se adoptan, simplemente no pelea por el crédito. O que dos personas consistentemente hablan sin entenderse en temas de timeline del proyecto. Estos patrones son invisibles en tiempo real pero se vuelven obvios cuando la IA los mapea.

Etapa 4: El Chat de Retrospectiva

Una interfaz de chat estilo WhatsApp donde puedes preguntar cualquier cosa sobre la reunión después de que termine:

"¿Qué dijo María sobre el presupuesto?"
"¿Se tomó alguna decisión sobre el lanzamiento?"
"¿Quién propuso la idea del partnership?"
"Resume los 3 puntos más importantes"
"¿Cuál fue el tono emocional durante la discusión del timeline?"

La IA tiene contexto completo: la transcripción cruda, las actas estructuradas y el análisis psicológico. Así puede responder tanto preguntas factuales ("¿Qué se decidió?") como analíticas ("¿Hubo tensión entre Juan y María?"). Es como tener una memoria perfecta de cada reunión que has tenido.

Etapas 5-6: Imagen Resumen y Narración TTS

Dos formatos de salida para diferentes estilos de consumo:

Imagen resumen — FLUX genera una representación visual tipo infografía de los puntos clave de la reunión. Útil para compartir en Slack o embeber en documentación
Narración TTS — ElevenLabs narra el resumen ejecutivo con voz profesional. El chunking inteligente divide resúmenes largos en segmentos de audio manejables. Descargable como MP3 para escuchar en el trayecto

La Interfaz: 7 Paneles

Panel	Función
Upload	Arrastra o selecciona la grabación de audio
Transcripción	Vista de timeline con hablantes diferenciados por color
Acta	Documento estructurado — editable
Análisis	Cards por participante con métricas e insights
Chat	Interfaz de retrospectiva estilo WhatsApp
Imagen	Visual resumen generado por IA
Audio	Reproductor de narración TTS con descarga

Detalles Técnicos

Métrica	Valor
Código	4.500+ líneas de JavaScript vanilla — cero dependencias de frameworks
Proveedores STT	2 — ElevenLabs Scribe (primario), OpenAI Whisper (fallback)
IA para Actas	Gemini 2.5 — salida estructurada vía function calling
Generación de Imágenes	FLUX vía Workers AI
TTS	ElevenLabs — voz profesional, salida MP3
Dependencias	Cero — solo vanilla JS + CSS

Conclusiones Clave

1. La diarización es la base de la que todo lo demás depende. La calidad de identificación de hablantes determina la precisión de las actas, el análisis psicológico y las respuestas de retrospectiva. La diarización nativa de ElevenLabs Scribe fue el avance — intentos anteriores con pipelines solo de Whisper requerían un paso de diarización separado que introducía errores.

2. El análisis psicológico de transcripciones de reuniones revela dinámicas de equipo invisibles. Los managers a menudo se sorprenden con lo que revela el análisis: quién realmente introduce las ideas que se adoptan, quién domina improductivamente, qué temas crean tensión. Estos patrones son invisibles en tiempo real pero obvios cuando la IA los mapea.

3. El chat de retrospectiva convierte las reuniones en conocimiento buscable. La capacidad de preguntar "¿Qué decidimos sobre X hace tres reuniones?" y obtener una respuesta precisa transforma cómo los equipos rastrean decisiones. No más scrollear por Slack o buscar en hilos de email.

4. La salida multi-formato se adapta a diferentes estilos de consumo. Algunas personas leen actas. Otras prefieren un resumen visual para compartir. Otras escuchan la narración de audio durante el trayecto. Generar todos los formatos automáticamente significa que la documentación de la reunión realmente se consume.

5. 4.500 líneas de vanilla JS demuestran que los frameworks no siempre son la respuesta. Sin React, sin Vue, sin paso de build. Toda la herramienta es JavaScript vanilla y CSS. Para una herramienta interna con alcance bien definido, la sobrecarga de un framework añadiría complejidad sin beneficio proporcional. Rápido de construir, rápido de iterar, cero mantenimiento de dependencias.

Etiquetas

IA Reuniones Transcripción Diarización Analítica de Equipo Vanilla JS ElevenLabs

← Artículo Anterior VOID: Un Juego Space Opera Donde Tu Copiloto IA Lo Recuerda Todo y Genera el Universo Siguiente Artículo → Video Studio: Generación de Video con IA Usando Image-to-Video con Niveles de Movimiento Progresivos

Sobre el Autor

Gonzalo Monzón

Fundador & Arquitecto Principal

Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.

Ver perfil completo → Conectar en LinkedIn

Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo

11.200+ llamadas/mes, ~$184 de coste total, 2.4% de errores. Así es como nuestro AI Gateway en Cloudflare Workers enruta entre Gemini, GPT-4o, Claude y más — con fallback automático, rate limiting por tiers y tracking de costes en tiempo real.

12 de febrero de 2026

Leer Artículo →

Casos de Uso

10 min lectura

De 4 Horas de Respuesta a Instantáneo: Cómo Nuestros Agentes de Voz IA Hacen Llamadas Reales

Twilio para llamadas, Gemini Flash para conversación en tiempo real, ElevenLabs para 15+ voces naturales. Construimos agentes IA que confirman citas en 35 segundos, cualifican leads con 3 preguntas y cambian entre español, inglés y catalán en medio de la llamada. Además: God Mode permite supervisión humana en vivo.

29 de diciembre de 2025

Leer Artículo →

IA & LLMs

11 min lectura

Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real

Construimos una oficina animada estilo SimTower donde agentes IA con capacidades multimodales — visión, generación de imágenes, búsqueda web, evolución iterativa de imágenes — colaboran en tareas reales. Zero dependencias, Vanilla JS puro, corriendo en Cloudflare.

8 de septiembre de 2025

Leer Artículo →

Transcriptor: De una Grabación de Reunión a Actas Estructuradas, Análisis Psicológico y Chat de Retrospectiva con IA

El Pipeline: Audio de Entrada, Documentación de Salida

Etapa 1: Transcripción con Diarización de Hablantes

Etapa 2: Acta Estructurada vía IA

Etapa 3: Análisis Psicológico

Etapa 4: El Chat de Retrospectiva

Etapas 5-6: Imagen Resumen y Narración TTS

La Interfaz: 7 Paneles

Detalles Técnicos

Conclusiones Clave

Etiquetas

Sobre el Autor

Mantente al día

Artículos Relacionados

Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo

De 4 Horas de Respuesta a Instantáneo: Cómo Nuestros Agentes de Voz IA Hacen Llamadas Reales

Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real