Productos SaaS
2025

Transcriptor

Documentación de Reuniones con IA

Motor de documentación de reuniones de ~15K líneas en vanilla JS. 3 proveedores STT con diarización de hablantes, 7 presets de análisis, perfilado psicológico (estilos comunicativos, dinámicas grupales, análisis emocional), chat retrospectivo estilo WhatsApp, 4 proveedores TTS con chunking inteligente, generación de imágenes (Imagen 4 + FLUX), documentos/imágenes de contexto, y 4 formatos de exportación.

Año

2025

Rol

Full-Stack Developer

Tecnologías

7 tecnologías

El Desafío

La documentación de reuniones es tediosa e imprecisa. Los equipos necesitan más que una transcripción — necesitan actas estructuradas, análisis psicológico de dinámicas de grupo, conclusiones accionables y la capacidad de interrogar el contenido de la reunión después.

  • Transcripciones raw inútiles — sin estructura, las decisiones y acciones quedan enterradas en texto
  • Dinámicas de grupo invisibles — patrones de comunicación, conflictos latentes y corrientes emocionales pasan desapercibidos
  • Sin reflexión post-reunión — una vez termina la reunión, no hay forma de hacer preguntas de seguimiento sobre lo discutido
  • Gaps de contexto — el audio solo pierde documentos de soporte, fotos de pizarra y diagramas compartidos

El Enfoque

Construir un motor de reuniones zero-dependency (~15K líneas en 5 archivos) que combina 3 proveedores STT con análisis LLM (Gemini 2.5) a través de 7 presets configurables — cada preset moldea la estructura del acta, la lente psicológica y el estilo de imagen.

  • 3 proveedores STT — Groq Whisper (rápido, $0.04/hr, 99 idiomas), ElevenLabs Scribe (diarización de 1-32 hablantes), OpenAI Whisper (fallback preciso)
  • Rolling Summary — para transcripciones largas (>30K chars), divide en segmentos procesados iterativamente manteniendo contexto, luego refina en acta final
  • Enriquecimiento de contexto — hasta 5 documentos (PDF/TXT/MD, extracción pdf.js) + 10 imágenes (análisis Gemini Vision) inyectados en todos los pipelines de generación IA
  • Persistencia — IndexedDB para datos binarios (audio, docs) + localStorage auto-guardado cada 5 segundos con restauración completa de sesión

La Solución

Transcriptor procesa audio de reuniones a través de un pipeline multi-etapa — transcripción → acta estructurada → análisis psicológico → conclusiones → retrospectiva — con generación de imágenes y TTS en cada etapa:

  • 7 presets — Corporativo (acta + dinámicas + plan de acción), Narrativo (historia + personajes + moraleja), Educativo (conceptos + ejemplos + takeaways), Motivacional, Creativo, Documental, Autoanálisis — cada uno con 3 bloques de contenido personalizados y estilo de imagen
  • Análisis psicológico — perfil profesional psicólogo-psiquiatra: estilos comunicativos (asertivo/pasivo/agresivo), roles grupales (líder/facilitador/crítico), mapeo emocional, conflictos latentes, recomendaciones de coaching, alertas de burnout/desmotivación
  • Módulo de conclusiones — JSON estructurado: fortalezas, áreas de mejora, recomendaciones, plan de acción con plazos (corto/medio/largo) y prioridades (alta/media/baja), reflexión final motivacional
  • Chat retrospectivo — chat IA estilo WhatsApp con contexto completo de sesión (3K chars transcripción + 2.5K resumen + 2.5K análisis), input de voz vía Whisper, toggle auto-TTS, historial de 10 mensajes
  • Generación de imágenes — Gemini Imagen 4 + FLUX.1, modo auto extrae 3-8 puntos clave, prompts estilizados por preset, categorías acta + psicología, "Analizar Contenido" para prompts optimizados
  • 4 proveedores TTS — Browser (Web Speech API), gTTS (7 idiomas), MeloTTS (6 idiomas), ElevenLabs (voces clonadas), chunking inteligente en límites de párrafo/frase/coma
  • 4 formatos de exportación — Markdown, PDF (HTML print-styled), Libro HTML Interactivo (capítulos con toggle dark/light, ToC), .perspectiva (JSON completo con audio/imágenes base64)
  • Grabación en vivo — MediaRecorder en navegador con pausa/reanudación, temporizador, negociación de formato (webm/mp4/ogg), procesamiento secuencial multi-archivo

Resultados Clave

  • ~15K líneas de vanilla JS (3.2x más de lo inicialmente estimado)
  • 3 proveedores STT: Groq Whisper, ElevenLabs Scribe (diarización), OpenAI Whisper
  • 7 presets configurables con 3 bloques de contenido + estilo de imagen
  • Perfilado psicológico: estilos comunicativos, dinámicas grupales, análisis emocional, coaching
  • Chat retrospectivo: estilo WhatsApp con contexto completo e input de voz
  • 4 proveedores TTS con chunking inteligente y voces clonadas
  • Generación de imágenes: Imagen 4 + FLUX con extracción automática de prompts
  • 4 formatos de exportación: Markdown, PDF, Libro HTML Interactivo, .perspectiva
  • Enriquecimiento de contexto: 5 documentos (PDF/TXT/MD) + 10 imágenes (Gemini Vision)

Tecnologías

Vanilla JS (~15K líneas) Gemini 2.5 ElevenLabs Scribe Groq Whisper OpenAI Whisper FLUX Imagen 4
$ cat project.json
{
"name": "Transcriptor",
"status": "production",
"stack": [7],
"results": [9]
}