Volver al Blog
IA & LLMs 17 de noviembre de 2025 · 8 min lectura

Transcriptor: De una Grabación de Reunión a Actas Estructuradas, Análisis Psicológico y Chat de Retrospectiva con IA

GM

Gonzalo Monzón

Fundador & Arquitecto Principal

¿Qué pasa después de que termina una reunión? Normalmente, nada. Quizá alguien envía un resumen parcial. Los action items se olvidan. Aquella decisión crucial se atribuye a la persona equivocada una semana después. Construimos Transcriptor para solucionar eso — una herramienta que toma una grabación de audio y genera actas estructuradas, análisis psicológico por participante, un chat de retrospectiva con IA, imágenes resumen y conclusiones narradas. Todo potenciado por ElevenLabs Scribe, Gemini 2.5 y FLUX, funcionando en 4.500 líneas de JavaScript vanilla sin dependencias.

El Pipeline: Audio de Entrada, Documentación de Salida

Transcriptor ejecuta un pipeline de 7 etapas sobre cada grabación de reunión:

EtapaQué HacePotenciado Por
1. TranscripciónSpeech-to-text con diarización de hablantes — quién dijo qué, cuándoElevenLabs Scribe
2. Acta EstructuradaActa formal: asistentes, temas, decisiones, action items con responsables y plazosGemini 2.5
3. Análisis PsicológicoEstilo comunicativo, nivel de participación, tono emocional y análisis de influencia por participanteGemini 2.5
4. Módulo de ConclusionesConclusiones clave, riesgos identificados, oportunidades detectadasGemini 2.5
5. Chat de RetrospectivaInterfaz estilo WhatsApp para preguntar cualquier cosa sobre la reunión — la IA responde con contexto completoGemini 2.5
6. Imagen ResumenRepresentación visual generada por IA de los puntos clave de la reuniónFLUX
7. Narración TTSNarración de audio del resumen ejecutivo con chunking inteligente para textos largosElevenLabs

Sube un archivo de audio. Obtén un paquete completo de documentación de reunión. Cada etapa alimenta la siguiente — la transcripción alimenta el acta, el acta alimenta el análisis, todo alimenta el chat de retrospectiva.

Etapa 1: Transcripción con Diarización de Hablantes

Obtener palabras del audio es la parte fácil. Saber quién las dijo — esa es la parte difícil. Transcriptor usa ElevenLabs Scribe como motor STT primario porque maneja la diarización de forma nativa:

  • Identificación de hablantes — cada segmento etiquetado con un ID de hablante (Hablante 1, Hablante 2, etc.)
  • Timestamps por segmento — temporización precisa para cada intervención
  • Multi-idioma — español, inglés y más
  • Fallback con Whisper — OpenAI Whisper maneja idiomas o casos que Scribe no soporta

La calidad de la diarización importa porque todo lo posterior depende de ella. Cuando el análisis psicológico dice "El Hablante 2 dominó la conversación", necesita ser realmente el Hablante 2.

Etapa 2: Acta Estructurada vía IA

Gemini 2.5 toma la transcripción diarizada completa y genera actas formales:

  • Asistentes — identificados por patrones de habla y menciones, con nivel de participación
  • Temas tratados — agrupados y numerados automáticamente
  • Decisiones tomadas — extraídas del contexto conversacional ("Entonces quedamos en que...")
  • Action items — tarea, responsable, plazo — extraídos de la conversación natural
  • Próximos pasos — fechas de reuniones de seguimiento, revisiones pendientes

Las actas son editables. Si la IA atribuye una decisión a la persona equivocada, la corriges en línea. Pero en la práctica, con buena diarización, la precisión es sorprendentemente alta.

Etapa 3: Análisis Psicológico

Esta es la feature que hace que los team leads se inclinen hacia adelante. Para cada participante, Gemini analiza:

DimensiónQué Se Mide
Estilo ComunicativoDirecto, colaborativo, pasivo, dominante — ¿cómo expresa sus ideas esta persona?
Nivel de Participación% del tiempo de habla, frecuencia de intervenciones, iniciativa vs. reactivo
Tono EmocionalPositivo, neutral, negativo, ansioso, entusiasta — por tema y global
InteraccionesQuién responde a quién, alianzas, tensiones, quién es interrumpido
InfluenciaQuién genera más acuerdo/desacuerdo, quién cambia la dirección de la conversación

El módulo psicológico no diagnostica — revela patrones. Un manager podría descubrir que un miembro más callado del equipo realmente introduce las ideas que se adoptan, simplemente no pelea por el crédito. O que dos personas consistentemente hablan sin entenderse en temas de timeline del proyecto. Estos patrones son invisibles en tiempo real pero se vuelven obvios cuando la IA los mapea.

Etapa 4: El Chat de Retrospectiva

Una interfaz de chat estilo WhatsApp donde puedes preguntar cualquier cosa sobre la reunión después de que termine:

  • "¿Qué dijo María sobre el presupuesto?"
  • "¿Se tomó alguna decisión sobre el lanzamiento?"
  • "¿Quién propuso la idea del partnership?"
  • "Resume los 3 puntos más importantes"
  • "¿Cuál fue el tono emocional durante la discusión del timeline?"

La IA tiene contexto completo: la transcripción cruda, las actas estructuradas y el análisis psicológico. Así puede responder tanto preguntas factuales ("¿Qué se decidió?") como analíticas ("¿Hubo tensión entre Juan y María?"). Es como tener una memoria perfecta de cada reunión que has tenido.

Etapas 5-6: Imagen Resumen y Narración TTS

Dos formatos de salida para diferentes estilos de consumo:

  • Imagen resumen — FLUX genera una representación visual tipo infografía de los puntos clave de la reunión. Útil para compartir en Slack o embeber en documentación
  • Narración TTS — ElevenLabs narra el resumen ejecutivo con voz profesional. El chunking inteligente divide resúmenes largos en segmentos de audio manejables. Descargable como MP3 para escuchar en el trayecto

La Interfaz: 7 Paneles

PanelFunción
UploadArrastra o selecciona la grabación de audio
TranscripciónVista de timeline con hablantes diferenciados por color
ActaDocumento estructurado — editable
AnálisisCards por participante con métricas e insights
ChatInterfaz de retrospectiva estilo WhatsApp
ImagenVisual resumen generado por IA
AudioReproductor de narración TTS con descarga

Detalles Técnicos

MétricaValor
Código4.500+ líneas de JavaScript vanilla — cero dependencias de frameworks
Proveedores STT2 — ElevenLabs Scribe (primario), OpenAI Whisper (fallback)
IA para ActasGemini 2.5 — salida estructurada vía function calling
Generación de ImágenesFLUX vía Workers AI
TTSElevenLabs — voz profesional, salida MP3
DependenciasCero — solo vanilla JS + CSS

Conclusiones Clave

1. La diarización es la base de la que todo lo demás depende. La calidad de identificación de hablantes determina la precisión de las actas, el análisis psicológico y las respuestas de retrospectiva. La diarización nativa de ElevenLabs Scribe fue el avance — intentos anteriores con pipelines solo de Whisper requerían un paso de diarización separado que introducía errores.

2. El análisis psicológico de transcripciones de reuniones revela dinámicas de equipo invisibles. Los managers a menudo se sorprenden con lo que revela el análisis: quién realmente introduce las ideas que se adoptan, quién domina improductivamente, qué temas crean tensión. Estos patrones son invisibles en tiempo real pero obvios cuando la IA los mapea.

3. El chat de retrospectiva convierte las reuniones en conocimiento buscable. La capacidad de preguntar "¿Qué decidimos sobre X hace tres reuniones?" y obtener una respuesta precisa transforma cómo los equipos rastrean decisiones. No más scrollear por Slack o buscar en hilos de email.

4. La salida multi-formato se adapta a diferentes estilos de consumo. Algunas personas leen actas. Otras prefieren un resumen visual para compartir. Otras escuchan la narración de audio durante el trayecto. Generar todos los formatos automáticamente significa que la documentación de la reunión realmente se consume.

5. 4.500 líneas de vanilla JS demuestran que los frameworks no siempre son la respuesta. Sin React, sin Vue, sin paso de build. Toda la herramienta es JavaScript vanilla y CSS. Para una herramienta interna con alcance bien definido, la sobrecarga de un framework añadiría complejidad sin beneficio proporcional. Rápido de construir, rápido de iterar, cero mantenimiento de dependencias.

Etiquetas

IA Reuniones Transcripción Diarización Analítica de Equipo Vanilla JS ElevenLabs

Sobre el Autor

Gonzalo Monzón

Gonzalo Monzón

Fundador & Arquitecto Principal

Gonzalo Monzón es Arquitecto de Soluciones Senior e Ingeniero IA con más de 26 años construyendo sistemas críticos en Sanidad, Automatización Industrial e IA empresarial. Fundador de Cadences Lab, está especializado en conectar infraestructura legacy con tecnología de vanguardia.

Mantente al día

Recibe notificaciones cuando publiquemos nuevos artículos sobre automatización IA, casos de uso y guías prácticas.