Transcriptor: De una Grabación de Reunión a Actas Estructuradas, Análisis Psicológico y Chat de Retrospectiva con IA
Gonzalo Monzón
Fundador & Arquitecto Principal
¿Qué pasa después de que termina una reunión? Normalmente, nada. Quizá alguien envía un resumen parcial. Los action items se olvidan. Aquella decisión crucial se atribuye a la persona equivocada una semana después. Construimos Transcriptor para solucionar eso — una herramienta que toma una grabación de audio y genera actas estructuradas, análisis psicológico por participante, un chat de retrospectiva con IA, imágenes resumen y conclusiones narradas. Todo potenciado por ElevenLabs Scribe, Gemini 2.5 y FLUX, funcionando en 4.500 líneas de JavaScript vanilla sin dependencias.
El Pipeline: Audio de Entrada, Documentación de Salida
Transcriptor ejecuta un pipeline de 7 etapas sobre cada grabación de reunión:
| Etapa | Qué Hace | Potenciado Por |
|---|---|---|
| 1. Transcripción | Speech-to-text con diarización de hablantes — quién dijo qué, cuándo | ElevenLabs Scribe |
| 2. Acta Estructurada | Acta formal: asistentes, temas, decisiones, action items con responsables y plazos | Gemini 2.5 |
| 3. Análisis Psicológico | Estilo comunicativo, nivel de participación, tono emocional y análisis de influencia por participante | Gemini 2.5 |
| 4. Módulo de Conclusiones | Conclusiones clave, riesgos identificados, oportunidades detectadas | Gemini 2.5 |
| 5. Chat de Retrospectiva | Interfaz estilo WhatsApp para preguntar cualquier cosa sobre la reunión — la IA responde con contexto completo | Gemini 2.5 |
| 6. Imagen Resumen | Representación visual generada por IA de los puntos clave de la reunión | FLUX |
| 7. Narración TTS | Narración de audio del resumen ejecutivo con chunking inteligente para textos largos | ElevenLabs |
Sube un archivo de audio. Obtén un paquete completo de documentación de reunión. Cada etapa alimenta la siguiente — la transcripción alimenta el acta, el acta alimenta el análisis, todo alimenta el chat de retrospectiva.
Etapa 1: Transcripción con Diarización de Hablantes
Obtener palabras del audio es la parte fácil. Saber quién las dijo — esa es la parte difícil. Transcriptor usa ElevenLabs Scribe como motor STT primario porque maneja la diarización de forma nativa:
- Identificación de hablantes — cada segmento etiquetado con un ID de hablante (Hablante 1, Hablante 2, etc.)
- Timestamps por segmento — temporización precisa para cada intervención
- Multi-idioma — español, inglés y más
- Fallback con Whisper — OpenAI Whisper maneja idiomas o casos que Scribe no soporta
La calidad de la diarización importa porque todo lo posterior depende de ella. Cuando el análisis psicológico dice "El Hablante 2 dominó la conversación", necesita ser realmente el Hablante 2.
Etapa 2: Acta Estructurada vía IA
Gemini 2.5 toma la transcripción diarizada completa y genera actas formales:
- Asistentes — identificados por patrones de habla y menciones, con nivel de participación
- Temas tratados — agrupados y numerados automáticamente
- Decisiones tomadas — extraídas del contexto conversacional ("Entonces quedamos en que...")
- Action items — tarea, responsable, plazo — extraídos de la conversación natural
- Próximos pasos — fechas de reuniones de seguimiento, revisiones pendientes
Las actas son editables. Si la IA atribuye una decisión a la persona equivocada, la corriges en línea. Pero en la práctica, con buena diarización, la precisión es sorprendentemente alta.
Etapa 3: Análisis Psicológico
Esta es la feature que hace que los team leads se inclinen hacia adelante. Para cada participante, Gemini analiza:
| Dimensión | Qué Se Mide |
|---|---|
| Estilo Comunicativo | Directo, colaborativo, pasivo, dominante — ¿cómo expresa sus ideas esta persona? |
| Nivel de Participación | % del tiempo de habla, frecuencia de intervenciones, iniciativa vs. reactivo |
| Tono Emocional | Positivo, neutral, negativo, ansioso, entusiasta — por tema y global |
| Interacciones | Quién responde a quién, alianzas, tensiones, quién es interrumpido |
| Influencia | Quién genera más acuerdo/desacuerdo, quién cambia la dirección de la conversación |
El módulo psicológico no diagnostica — revela patrones. Un manager podría descubrir que un miembro más callado del equipo realmente introduce las ideas que se adoptan, simplemente no pelea por el crédito. O que dos personas consistentemente hablan sin entenderse en temas de timeline del proyecto. Estos patrones son invisibles en tiempo real pero se vuelven obvios cuando la IA los mapea.
Etapa 4: El Chat de Retrospectiva
Una interfaz de chat estilo WhatsApp donde puedes preguntar cualquier cosa sobre la reunión después de que termine:
- "¿Qué dijo María sobre el presupuesto?"
- "¿Se tomó alguna decisión sobre el lanzamiento?"
- "¿Quién propuso la idea del partnership?"
- "Resume los 3 puntos más importantes"
- "¿Cuál fue el tono emocional durante la discusión del timeline?"
La IA tiene contexto completo: la transcripción cruda, las actas estructuradas y el análisis psicológico. Así puede responder tanto preguntas factuales ("¿Qué se decidió?") como analíticas ("¿Hubo tensión entre Juan y María?"). Es como tener una memoria perfecta de cada reunión que has tenido.
Etapas 5-6: Imagen Resumen y Narración TTS
Dos formatos de salida para diferentes estilos de consumo:
- Imagen resumen — FLUX genera una representación visual tipo infografía de los puntos clave de la reunión. Útil para compartir en Slack o embeber en documentación
- Narración TTS — ElevenLabs narra el resumen ejecutivo con voz profesional. El chunking inteligente divide resúmenes largos en segmentos de audio manejables. Descargable como MP3 para escuchar en el trayecto
La Interfaz: 7 Paneles
| Panel | Función |
|---|---|
| Upload | Arrastra o selecciona la grabación de audio |
| Transcripción | Vista de timeline con hablantes diferenciados por color |
| Acta | Documento estructurado — editable |
| Análisis | Cards por participante con métricas e insights |
| Chat | Interfaz de retrospectiva estilo WhatsApp |
| Imagen | Visual resumen generado por IA |
| Audio | Reproductor de narración TTS con descarga |
Detalles Técnicos
| Métrica | Valor |
|---|---|
| Código | 4.500+ líneas de JavaScript vanilla — cero dependencias de frameworks |
| Proveedores STT | 2 — ElevenLabs Scribe (primario), OpenAI Whisper (fallback) |
| IA para Actas | Gemini 2.5 — salida estructurada vía function calling |
| Generación de Imágenes | FLUX vía Workers AI |
| TTS | ElevenLabs — voz profesional, salida MP3 |
| Dependencias | Cero — solo vanilla JS + CSS |
Conclusiones Clave
1. La diarización es la base de la que todo lo demás depende. La calidad de identificación de hablantes determina la precisión de las actas, el análisis psicológico y las respuestas de retrospectiva. La diarización nativa de ElevenLabs Scribe fue el avance — intentos anteriores con pipelines solo de Whisper requerían un paso de diarización separado que introducía errores.
2. El análisis psicológico de transcripciones de reuniones revela dinámicas de equipo invisibles. Los managers a menudo se sorprenden con lo que revela el análisis: quién realmente introduce las ideas que se adoptan, quién domina improductivamente, qué temas crean tensión. Estos patrones son invisibles en tiempo real pero obvios cuando la IA los mapea.
3. El chat de retrospectiva convierte las reuniones en conocimiento buscable. La capacidad de preguntar "¿Qué decidimos sobre X hace tres reuniones?" y obtener una respuesta precisa transforma cómo los equipos rastrean decisiones. No más scrollear por Slack o buscar en hilos de email.
4. La salida multi-formato se adapta a diferentes estilos de consumo. Algunas personas leen actas. Otras prefieren un resumen visual para compartir. Otras escuchan la narración de audio durante el trayecto. Generar todos los formatos automáticamente significa que la documentación de la reunión realmente se consume.
5. 4.500 líneas de vanilla JS demuestran que los frameworks no siempre son la respuesta. Sin React, sin Vue, sin paso de build. Toda la herramienta es JavaScript vanilla y CSS. Para una herramienta interna con alcance bien definido, la sobrecarga de un framework añadiría complejidad sin beneficio proporcional. Rápido de construir, rápido de iterar, cero mantenimiento de dependencias.
Etiquetas
Sobre el Autor
Gonzalo Monzón
Fundador & Arquitecto Principal
Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.
Artículos Relacionados
Por Qué Usamos 7 Proveedores de IA (No Solo Uno) — Y Cómo Rastreamos Cada Céntimo
11.200+ llamadas/mes, ~$184 de coste total, 2.4% de errores. Así es como nuestro AI Gateway en Cloudflare Workers enruta entre Gemini, GPT-4o, Claude y más — con fallback automático, rate limiting por tiers y tracking de costes en tiempo real.
De 4 Horas de Respuesta a Instantáneo: Cómo Nuestros Agentes de Voz IA Hacen Llamadas Reales
Twilio para llamadas, Gemini Flash para conversación en tiempo real, ElevenLabs para 15+ voces naturales. Construimos agentes IA que confirman citas en 35 segundos, cualifican leads con 3 preguntas y cambian entre español, inglés y catalán en medio de la llamada. Además: God Mode permite supervisión humana en vivo.
Synapse Studio: Una Oficina Virtual 2D Donde los Agentes IA Hacen el Trabajo Real
Construimos una oficina animada estilo SimTower donde agentes IA con capacidades multimodales — visión, generación de imágenes, búsqueda web, evolución iterativa de imágenes — colaboran en tareas reales. Zero dependencias, Vanilla JS puro, corriendo en Cloudflare.