El pipeline de 3 pasadas: Cómo procesa el audio auraScribe
auraScribe no procesa el audio en una sola pasada. En su lugar, utiliza un pipeline de 3 pasadas cuidadosamente orquestado donde cada pasada se optimiza para una tarea diferente. Esta arquitectura maximiza la calidad de la transcripción, minimiza los costos de IA y permite el profundo análisis de comportamiento que diferencia a auraScribe.
Pasada 1 — Transcripción
La primera pasada se enfoca exclusivamente en la velocidad y la precisión: transcribir el audio tan rápido como sea posible, con la diarización de los hablantes (identificando quién dijo qué), pero sin análisis del comportamiento.
Esta es la única pasada que incorpora el audio sin procesar. Si el audio es más largo de lo que la IA puede procesar en una sola solicitud, un ciclo de continuación reanuda automáticamente donde se quedó, utilizando el anclaje de la marca de tiempo para avanzar. Cada palabra se procesa — no hay truncamientos, independientemente de la longitud.
La salida: una transcripción completa con marcas de tiempo con etiquetas acústicas del hablante (Voz 1, Voz 2, etc.).
Pasada 1.5 — Identificación de hablantes
Una pasada ligera de solo texto que lee la transcripción y deduce nombres reales, puestos de trabajo, empresas y funciones a partir del contexto conversacional. Al separar la diarización acústica (Pasada 1) de la atribución de nombres (Pasada 1.5), el modelo evita el error común de confundir las etiquetas de voz con la identidad.
Pasada 2 — Perfil de hablantes y análisis del comportamiento
Aquí es donde se genera el principal diferenciador de auraScribe: Raw Audio Cues. Al usar una memoria caché de contexto que contiene tanto el audio como la transcripción, la Pasada 2 realiza tres tareas simultáneamente:
- Verificación de la voz: Contar diferentes voces, detectar oradores fusionados o duplicados
- Identificación de los hablantes: Verificar nombres, funciones, roles y empresas
- Generación de Raw Audio Cues: El exhaustivo registro cronológico del comportamiento — microseñales, cambios de tono, vacilaciones, interrupciones, risas, patrones de participación y dinámicas interpersonales
Esta es la única pasada de análisis de audio. La arquitectura consciente de los costos significa que los tokens de audio se usan exactamente dos veces: una para la transcripción y otra para el análisis de comportamiento.
Etapa de revisión — Humano en el ciclo
Antes de generar el análisis final, auraScribe hace una pausa para que un humano lo revise. Los usuarios pueden editar la transcripción, corregir los nombres de los oradores, intercambiar o fusionar a los hablantes y verificar las atribuciones inciertas. Este es el paso en el que el juicio humano supera a la IA: la identificación de los hablantes es donde los modelos suelen tropezar.
Pasada 3 — Resumen y análisis
La última pasada usa solo texto — la transcripción revisada más Raw Audio Cues — para generar el análisis completo. No hay recarga de audio, lo que significa que esta pasada es rápida y barata.
La salida incluye: resumen ejecutivo, resumen estructurado, resumen de comportamiento (dinámicas de grupo), señales de intención de compra (cuando se detectan) y observaciones individuales por hablante con puntos de orientación (coaching).
¿Por qué tres pasadas?
Los tokens de audio son caros. Al estructurar el pipeline como transcribir → almacenar en caché → analizar → sintetizar, auraScribe minimiza los costos de la API multimodal al tiempo que maximiza la profundidad de los conocimientos. La alternativa, hacerlo todo en un gran prompt, sacrificaría el detalle o la eficiencia de costos.