Transcriptor
Documentación de Reuniones con IA
Motor de documentación de reuniones de ~15K líneas en vanilla JS. 3 proveedores STT con diarización de hablantes, 7 presets de análisis, perfilado psicológico (estilos comunicativos, dinámicas grupales, análisis emocional), chat retrospectivo estilo WhatsApp, 4 proveedores TTS con chunking inteligente, generación de imágenes (Imagen 4 + FLUX), documentos/imágenes de contexto, y 4 formatos de exportación.
Año
2025
Rol
Full-Stack Developer
Tecnologías
7 tecnologías
El Desafío
La documentación de reuniones es tediosa e imprecisa. Los equipos necesitan más que una transcripción — necesitan actas estructuradas, análisis psicológico de dinámicas de grupo, conclusiones accionables y la capacidad de interrogar el contenido de la reunión después.
- Transcripciones raw inútiles — sin estructura, las decisiones y acciones quedan enterradas en texto
- Dinámicas de grupo invisibles — patrones de comunicación, conflictos latentes y corrientes emocionales pasan desapercibidos
- Sin reflexión post-reunión — una vez termina la reunión, no hay forma de hacer preguntas de seguimiento sobre lo discutido
- Gaps de contexto — el audio solo pierde documentos de soporte, fotos de pizarra y diagramas compartidos
El Enfoque
Construir un motor de reuniones zero-dependency (~15K líneas en 5 archivos) que combina 3 proveedores STT con análisis LLM (Gemini 2.5) a través de 7 presets configurables — cada preset moldea la estructura del acta, la lente psicológica y el estilo de imagen.
- 3 proveedores STT — Groq Whisper (rápido, $0.04/hr, 99 idiomas), ElevenLabs Scribe (diarización de 1-32 hablantes), OpenAI Whisper (fallback preciso)
- Rolling Summary — para transcripciones largas (>30K chars), divide en segmentos procesados iterativamente manteniendo contexto, luego refina en acta final
- Enriquecimiento de contexto — hasta 5 documentos (PDF/TXT/MD, extracción pdf.js) + 10 imágenes (análisis Gemini Vision) inyectados en todos los pipelines de generación IA
- Persistencia — IndexedDB para datos binarios (audio, docs) + localStorage auto-guardado cada 5 segundos con restauración completa de sesión
La Solución
Transcriptor procesa audio de reuniones a través de un pipeline multi-etapa — transcripción → acta estructurada → análisis psicológico → conclusiones → retrospectiva — con generación de imágenes y TTS en cada etapa:
- 7 presets — Corporativo (acta + dinámicas + plan de acción), Narrativo (historia + personajes + moraleja), Educativo (conceptos + ejemplos + takeaways), Motivacional, Creativo, Documental, Autoanálisis — cada uno con 3 bloques de contenido personalizados y estilo de imagen
- Análisis psicológico — perfil profesional psicólogo-psiquiatra: estilos comunicativos (asertivo/pasivo/agresivo), roles grupales (líder/facilitador/crítico), mapeo emocional, conflictos latentes, recomendaciones de coaching, alertas de burnout/desmotivación
- Módulo de conclusiones — JSON estructurado: fortalezas, áreas de mejora, recomendaciones, plan de acción con plazos (corto/medio/largo) y prioridades (alta/media/baja), reflexión final motivacional
- Chat retrospectivo — chat IA estilo WhatsApp con contexto completo de sesión (3K chars transcripción + 2.5K resumen + 2.5K análisis), input de voz vía Whisper, toggle auto-TTS, historial de 10 mensajes
- Generación de imágenes — Gemini Imagen 4 + FLUX.1, modo auto extrae 3-8 puntos clave, prompts estilizados por preset, categorías acta + psicología, "Analizar Contenido" para prompts optimizados
- 4 proveedores TTS — Browser (Web Speech API), gTTS (7 idiomas), MeloTTS (6 idiomas), ElevenLabs (voces clonadas), chunking inteligente en límites de párrafo/frase/coma
- 4 formatos de exportación — Markdown, PDF (HTML print-styled), Libro HTML Interactivo (capítulos con toggle dark/light, ToC), .perspectiva (JSON completo con audio/imágenes base64)
- Grabación en vivo — MediaRecorder en navegador con pausa/reanudación, temporizador, negociación de formato (webm/mp4/ogg), procesamiento secuencial multi-archivo
Resultados Clave
- ~15K líneas de vanilla JS (3.2x más de lo inicialmente estimado)
- 3 proveedores STT: Groq Whisper, ElevenLabs Scribe (diarización), OpenAI Whisper
- 7 presets configurables con 3 bloques de contenido + estilo de imagen
- Perfilado psicológico: estilos comunicativos, dinámicas grupales, análisis emocional, coaching
- Chat retrospectivo: estilo WhatsApp con contexto completo e input de voz
- 4 proveedores TTS con chunking inteligente y voces clonadas
- Generación de imágenes: Imagen 4 + FLUX con extracción automática de prompts
- 4 formatos de exportación: Markdown, PDF, Libro HTML Interactivo, .perspectiva
- Enriquecimiento de contexto: 5 documentos (PDF/TXT/MD) + 10 imágenes (Gemini Vision)