O Pipeline de 3 Passagens: Como o auraScribe processa o áudio

O auraScribe não processa o áudio numa única passagem. Em vez disso, utiliza um pipeline de 3 passagens cuidadosamente orquestrado, em que cada passagem é otimizada para uma tarefa diferente. Esta arquitetura maximiza a qualidade da transcrição, minimiza os custos da IA e permite a análise comportamental profunda que diferencia o auraScribe.

Passagem 1 — Transcrição

A primeira passagem centra-se exclusivamente na velocidade e na precisão: transcrever o áudio o mais rapidamente possível, com diarização de oradores (identificando quem disse o quê), mas sem análise comportamental.

Esta é a única passagem que ingere o áudio em bruto. Se o áudio for mais longo do que o que a IA consegue processar num único pedido, um ciclo de continuação retoma automaticamente a partir de onde parou, utilizando a ancoragem do carimbo de data/hora para avançar. Cada palavra é processada — sem truncamento, independentemente da duração.

O resultado: uma transcrição completa, com carimbo de data/hora e com etiquetas acústicas do orador (Voz 1, Voz 2, etc.).

Passagem 1.5 — Identificação do Orador

Uma passagem leve, apenas com texto, que lê a transcrição e deduz nomes reais, cargos, empresas e funções a partir do contexto conversacional. Ao separar a diarização acústica (Passagem 1) da atribuição de nomes (Passagem 1.5), o modelo evita o erro comum de confundir etiquetas de voz com identidade.

Passagem 2 — Definição do Perfil do Orador e Análise Comportamental

É aqui que é gerado o principal fator de diferenciação do auraScribe — Raw Audio Cues. Utilizando uma cache de contexto que contém tanto o áudio como a transcrição, a Passagem 2 executa três tarefas em simultâneo:

Verificação de voz: Conta o número de vozes distintas, deteta oradores fundidos ou duplicados
Identificação do orador: Verifica nomes, funções, cargos e empresas
Geração de Raw Audio Cues: O registo comportamental cronológico exaustivo — microssinais, alterações de tom, hesitações, interrupções, risos, padrões de envolvimento e dinâmica interpessoal

Esta é a única passagem de análise de áudio. A arquitetura pensada para reduzir os custos significa que os tokens de áudio são utilizados exatamente duas vezes: uma para a transcrição e outra para a análise comportamental.

Fase de Revisão — Intervenção Humana (Human-in-the-Loop)

Antes de gerar a análise final, o auraScribe faz uma pausa para permitir a revisão humana. Os utilizadores podem editar a transcrição, corrigir os nomes dos oradores, trocar ou unir oradores e verificar atribuições incertas. Este é o único passo em que o discernimento humano supera a IA — a identificação de oradores é o ponto em que os modelos tropeçam frequentemente.

Passagem 3 — Resumo e Análise

A passagem final utiliza apenas texto — a transcrição revista mais os Raw Audio Cues — para gerar a análise completa. Não há recarregamento de áudio, o que significa que esta passagem é rápida e económica.

O resultado inclui: resumo executivo, resumo estruturado, resumo comportamental (dinâmica de grupo), sinais de intenção do comprador (quando detetados) e observações individuais por orador com pontos de coaching.

Porquê três passagens?

Os tokens de áudio são caros. Ao estruturar o pipeline como transcrever → armazenar em cache → analisar → sintetizar, o auraScribe minimiza os custos de API multimodal, ao mesmo tempo que maximiza a profundidade das informações. A alternativa — fazer tudo num único prompt de grande dimensão — sacrificaria os detalhes ou a eficiência de custos.

O Pipeline de 3 Passagens: Como o auraScribe processa o áudio

Passagem 1 — Transcrição

Passagem 1.5 — Identificação do Orador

Passagem 2 — Definição do Perfil do Orador e Análise Comportamental

Fase de Revisão — Intervenção Humana (Human-in-the-Loop)

Passagem 3 — Resumo e Análise

Porquê três passagens?

Pare de exportar transcrições. Comece a entregar.

Paginas relacionadas

Raw Audio Cues

Diarização de Oradores

O que é a Inteligência de Reuniões?