O que é a diarização de oradores, e porque é que as notas de reunião precisam dela

Pode ter uma transcrição perfeita, palavra por palavra, e ainda assim não fazer ideia do que aconteceu na reunião — porque não consegue dizer quem disse o quê. A capacidade que resolve isto tem um nome pouco glamoroso, diarização de oradores, e é a diferença entre uma parede de texto e um registo utilizável de uma conversa.

Definição em linguagem simples

Então, o que é a diarização de oradores? Em linguagem simples, a diarização de oradores é o processo de dividir uma gravação de áudio em segmentos e rotular cada segmento por quem estava a falar. Responde à pergunta a que toda a transcrição de reunião tem de responder para ser útil: quem disse o quê, e quando.

Ajuda separar duas coisas que muitas vezes se confundem. A transcrição transforma som em palavras. A diarização descobre quantas vozes distintas estão presentes e atribui cada trecho de fala a uma delas — normalmente primeiro como rótulos anónimos («Orador 1», «Orador 2»), que uma pessoa ou um passo posterior mapeia depois para nomes reais. Uma tarefa relacionada mas distinta, a identificação de oradores, vai mais longe e associa uma identidade real a uma voz. A diarização é a camada do «quem está a falar agora»; a identificação é a camada do «e o seu nome é» por cima.

Se alguma vez procurou o termo e aterrou numa definição de estilo dicionário, cheia de jargão, eis a versão de uma frase que vale a pena guardar: a diarização de oradores é o particionamento automático de uma gravação por quem falou quando. Tudo o resto neste artigo é uma consequência dessa única ideia.

Porque é que as transcrições sem oradores são inúteis

Imagine uma chamada de quarenta minutos entre quatro pessoas entregue a si como um bloco de texto ininterrupto, sem qualquer indicação de onde uma pessoa para e a seguinte começa. Pode ler cada palavra e ainda assim não conseguir reconstruir a reunião. Quem concordou com o prazo? Quem levantou a objeção? Quem se comprometeu a enviar o contrato? Sem rótulos de orador, a transcrição regista que foram ditas coisas, mas não por quem — e numa reunião, «por quem» é a maior parte do significado.

É por isso que a identificação de oradores num contexto de reunião não é um luxo. As ações pertencem a pessoas. Os compromissos pertencem a pessoas. As decisões são tomadas por pessoas, por vezes contra a objeção de outras pessoas, e o registo só importa se preservar essa estrutura. Uma transcrição de quem disse o quê permite-lhe responder «o cliente concordou mesmo com aquilo, ou era o nosso comercial a convencer-se a si próprio?» — uma transcrição plana não consegue.

Há um segundo custo, mais silencioso. O sinal comportamental — quem conduziu a conversa, quem ficou calado, onde a alternância de vez se desfez — só existe depois de a fala ser atribuída aos oradores. Não pode dizer «o potencial cliente hesitou antes de responder» se não sabe que voz era a do potencial cliente. A diarização é o alicerce sobre o qual a análise mais interessante é construída, e é por isso que a tratamos como um passo de primeira classe e não como um pormenor de formatação. Pode ler mais sobre como a usamos na página de diarização de oradores do auraScribe.

Como funciona a diarização

Por dentro, a diarização é uma sequência de passos e não um único truque. Primeiro, o sistema realiza a deteção de atividade de voz: encontra as partes do áudio que contêm fala e descarta o silêncio e o ruído. Depois fatia a fala em segmentos curtos e converte cada um numa impressão digital numérica — um embedding que capta as características acústicas de uma voz em vez das palavras ditas. Os segmentos com impressões digitais semelhantes são agrupados, e cada grupo torna-se um orador. Por fim, os rótulos de orador são alinhados com a transcrição ao nível da palavra para que cada frase tenha uma atribuição.

As partes difíceis são exatamente onde se esperaria. Duas pessoas com vozes semelhantes podem fundir-se num só grupo. Uma pessoa com uma má ligação pode fragmentar-se em duas. A sobreposição de vozes — pessoas a falar umas por cima das outras — é genuinamente difícil, porque nesse momento o áudio contém mais do que uma voz ao mesmo tempo. Estimar o número de oradores é um desafio à parte: adivinhe poucos e as pessoas são fundidas, adivinhe muitos e uma pessoa é dividida. Uma boa diarização é sobretudo lidar com estes modos de falha com elegância, em vez de fingir que não acontecem.

Por causa de tudo isto, a diarização raramente é um único modelo isolado. No auraScribe corre como uma fase dentro de uma sequência maior de passagens, cada uma a refinar a anterior, para que a atribuição possa ser revista com mais contexto em vez de ficar fixada no primeiro palpite. Se tiver curiosidade sobre essa estrutura, a página da pipeline em múltiplas passagens percorre como as fases se encaixam. Termos como embedding, deteção de atividade de voz e agrupamento são explicados com mais profundidade no nosso glossário.

O passo de revisão humana

Nenhum sistema de diarização é perfeito, e a abordagem honesta é construir para isso em vez de o esconder. A diarização automática leva-o quase até ao fim: diz-lhe que havia quatro vozes distintas e atribui a fala entre elas. O que não consegue fazer de forma fiável por si só é saber que o Orador 2 é o seu cliente e o Orador 3 é o seu colega — esse mapeamento de grupo anónimo para identidade real é onde uma rápida revisão humana se justifica.

Na prática, é um passo pequeno e rápido. Percorre a gravação, confirma ou corrige as fronteiras de orador onde a máquina teve dúvidas, e associa nomes aos rótulos anónimos. O sistema pode levar esses nomes adiante, para que a mesma voz numa reunião futura seja reconhecida em vez de rotulada de novo a partir do zero. O objetivo não é fazê-lo refazer o trabalho; é deixá-lo corrigir o punhado de sítios onde o áudio foi genuinamente ambíguo, e manter as suas impressões digitais nas partes que importam — a atribuição de compromissos e decisões às pessoas certas.

Somos deliberados numa coisa aqui: preferimos mostrar um orador sobre o qual temos dúvidas a deixá-lo cair em silêncio. Um orador a mais é fácil de fundir em alguns cliques. Um orador em falta — alguém cuja contribuição foi dobrada na de outra pessoa — é muito mais difícil de notar e recuperar. Por isso o passo de revisão pende para lhe mostrar tudo o que o áudio continha, e não para um resultado de aparência arrumada que perde pessoas discretamente.

Rigor com muitos oradores

O rigor da diarização não é um número único, e deve desconfiar de quem cite um como se fosse. Depende muito da gravação: uma chamada de duas pessoas gravada com bons microfones é um caso comparativamente fácil, enquanto um workshop de seis pessoas com fala sobreposta, algumas pessoas em alta-voz e ruído de fundo é um caso difícil. Mais oradores significam mais oportunidades de confundir duas vozes semelhantes, e mais sobreposição de vozes significa mais momentos em que o áudio simplesmente não contém um único orador limpo a quem atribuir.

O que dizemos claramente é isto: o rigor degrada-se à medida que a sala fica mais movimentada, e desenhamos para essa realidade em vez de contra ela. O áudio limpo ajuda enormemente — um microfone decente e pessoas que não falam umas por cima das outras farão mais pela sua transcrição do que qualquer quantidade de modelação engenhosa. Onde o áudio é ambíguo, pendemos para manter os oradores distintos e sinalizar a incerteza para o passo de revisão, com base no princípio acima de que um orador a mais recuperável vale mais do que um perdido e invisível.

A consequência prática é que a diarização deve ser julgada pelas gravações que realmente faz, não por um número de referência. A melhor forma de saber se a atribuição de quem disse o quê se aguenta nas suas reuniões é fazer passar algumas reais e olhar. Pode começar isso de graça — experimente o auraScribe nas suas próprias gravações e veja como os rótulos de orador se aguentam nas suas reuniões típicas, da chamada fácil de duas pessoas à sessão de grupo confusa.

Pare de exportar transcrições. Comece a entregar.

Experimente auraScribe grátis por 14 dias. Você fala — o auraScribe assume a partir daí.

Experimentar auraScribe