De 3-Pass Pipeline: Hoe auraScribe audio verwerkt
auraScribe verwerkt audio niet in een enkele passage. In plaats daarvan gebruikt het een zorgvuldig georkestreerde 3-pass pipeline waarbij elke passage is geoptimaliseerd voor een andere taak. Deze architectuur maximaliseert de transcriptiekwaliteit, minimaliseert AI-kosten en maakt de diepgaande gedragsanalyse mogelijk die auraScribe onderscheidt.
Pass 1 — Transcriptie
De eerste passage richt zich uitsluitend op snelheid en nauwkeurigheid: transcribeer de audio zo snel mogelijk, met sprekersdiarisatie (identificeren wie wat zei) maar zonder gedragsanalyse.
Dit is de enige passage die de onbewerkte audio opneemt. Als de audio langer is dan wat de AI in één verzoek kan verwerken, pikt een continuatielus de draad automatisch weer op waar hij gebleven was, waarbij tijdstempelverankering wordt gebruikt om vooruit te zoeken. Elk woord wordt verwerkt — geen inkorting, ongeacht de lengte.
De uitvoer: een volledig transcript met tijdstempels en akoestische sprekerslabels (Stem 1, Stem 2, enz.).
Pass 1.5 — Sprekersidentificatie
Een lichte, tekstgebaseerde passage die het transcript leest en echte namen, functietitels, bedrijven en rollen afleidt uit de gesprekscontext. Door akoestische diarisatie (Pass 1) te scheiden van naamsattributie (Pass 1.5), vermijdt het model de veelgemaakte fout om stemlabels met identiteit te verwarren.
Pass 2 — Sprekersprofilering en gedragsanalyse
Dit is waar de belangrijkste differentiator van auraScribe — Raw Audio Cues — wordt gegenereerd. Met behulp van een contextcache die zowel de audio als het transcript bevat, voert Pass 2 drie taken tegelijkertijd uit:
- Stemverificatie: Telt verschillende stemmen, detecteert samengevoegde of dubbele sprekers
- Sprekersidentificatie: Verifieert namen, functies, rollen en bedrijven
- Generatie van Raw Audio Cues: Het uitputtende chronologische gedragslogboek — microsignalen, toonverschuivingen, aarzelingen, onderbrekingen, lachen, betrokkenheidspatronen en interpersoonlijke dynamiek
Dit is de enige passage voor audioanalyse. De kostenbewuste architectuur betekent dat audiotokens precies twee keer worden gebruikt: één keer voor transcriptie en één keer voor gedragsanalyse.
Beoordelingsfase — Human-in-the-Loop
Voordat de definitieve analyse wordt gegenereerd, pauzeert auraScribe voor een menselijke beoordeling. Gebruikers kunnen het transcript bewerken, sprekersnamen corrigeren, sprekers omwisselen of samenvoegen en onzekere toewijzingen verifiëren. Dit is de enige stap waar het menselijk oordeel beter is dan dat van AI — sprekersidentificatie is waar modellen vaak struikelen.
Pass 3 — Samenvatting en analyse
De laatste passage gebruikt alleen tekst — het beoordeelde transcript plus de Raw Audio Cues — om de volledige analyse te genereren. Geen nieuwe audio-upload, wat betekent dat deze passage snel en goedkoop is.
De output omvat: samenvatting voor het management, gestructureerde samenvatting, gedragssamenvatting (groepsdynamiek), signalen van koopintentie (indien gedetecteerd) en individuele opmerkingen per spreker met coachingpunten.
Waarom drie passages?
Audiotokens zijn duur. Door de pipeline te structureren als transcriberen → cachen → analyseren → synthetiseren, minimaliseert auraScribe de API-kosten voor meerdere modaliteiten en maximaliseert het de diepgang van inzichten. Het alternatief — alles doen in één enorme prompt — zou details of kostenefficiëntie opofferen.