Die 3-Pass-Pipeline: Wie auraScribe Audio verarbeitet

auraScribe verarbeitet Audiodaten nicht in einem einzigen Durchgang. Stattdessen nutzt es eine sorgfältig orchestrierte 3-Pass-Pipeline, bei der jeder Durchgang für eine andere Aufgabe optimiert ist. Diese Architektur maximiert die Transkriptionsqualität, minimiert die KI-Kosten und ermöglicht die tiefgehende Verhaltensanalyse, die auraScribe auszeichnet.

Pass 1 — Transkription

Der erste Durchgang konzentriert sich ausschließlich auf Geschwindigkeit und Genauigkeit: Transkribieren Sie das Audio so schnell wie möglich mit Sprecher-Diarisierung (Identifizierung, wer was gesagt hat), aber ohne Verhaltensanalyse.

Dies ist der einzige Durchgang, der das Roh-Audio verarbeitet. Wenn das Audio länger ist, als die KI in einer Anfrage verarbeiten kann, nimmt eine Fortsetzungsschleife die Arbeit automatisch dort wieder auf, wo sie aufgehört hat, und nutzt Zeitstempel-Verankerung zum Vorspulen. Jedes Wort wird verarbeitet — keine Kürzung, unabhängig von der Länge.

Die Ausgabe: Ein vollständiges Transkript mit Zeitstempeln und akustischen Sprecherbezeichnungen (Stimme 1, Stimme 2 usw.).

Pass 1.5 — Sprecheridentifikation

Ein ressourcenschonender, rein textbasierter Durchgang, der das Transkript liest und echte Namen, Jobtitel, Unternehmen und Rollen aus dem Gesprächskontext ableitet. Durch die Trennung von akustischer Diarisierung (Pass 1) und Namenszuordnung (Pass 1.5) vermeidet das Modell den häufigen Fehler, Sprachlabels mit Identität zu verwechseln.

Pass 2 — Sprecherprofilierung und Verhaltensanalyse

Hier wird das wichtigste Unterscheidungsmerkmal von auraScribe — Raw Audio Cues — generiert. Unter Verwendung eines Kontext-Caches, der sowohl das Audio als auch das Transkript enthält, führt Pass 2 drei Aufgaben gleichzeitig aus:

Stimmverifizierung: Unterschiedliche Stimmen zählen, zusammengeführte oder doppelte Sprecher erkennen
Sprecheridentifikation: Namen, Funktionen, Rollen und Unternehmen verifizieren
Raw Audio Cues-Generierung: Das umfassende chronologische Verhaltensprotokoll — Mikrosignale, Tonwechsel, Zögern, Unterbrechungen, Lachen, Interaktionsmuster und zwischenmenschliche Dynamik

Dies ist der einzige Durchgang zur Audioanalyse. Die kostenbewusste Architektur bedeutet, dass Audio-Token genau zweimal verwendet werden: Einmal für die Transkription, einmal für die Verhaltensanalyse.

Überprüfungsphase — Human-in-the-Loop

Bevor die endgültige Analyse erstellt wird, pausiert auraScribe für eine menschliche Überprüfung. Benutzer können das Transkript bearbeiten, Sprechernamen korrigieren, Sprecher austauschen oder zusammenführen und unsichere Zuordnungen verifizieren. Dies ist der einzige Schritt, bei dem das menschliche Urteilsvermögen die KI übertrifft — bei der Sprecheridentifizierung geraten Modelle häufig ins Stolpern.

Pass 3 — Zusammenfassung und Analyse

Der letzte Durchgang verwendet nur Text — das überprüfte Transkript plus die Raw Audio Cues —, um die vollständige Analyse zu erstellen. Kein erneuter Audio-Upload, was bedeutet, dass dieser Durchgang schnell und kostengünstig ist.

Die Ausgabe umfasst: Zusammenfassung für Führungskräfte, strukturierte Zusammenfassung, Verhaltenszusammenfassung (Gruppendynamik), Kaufsignale (falls erkannt) und individuelle Anmerkungen pro Sprecher mit Coaching-Punkten.

Warum drei Durchgänge?

Audio-Token sind teuer. Durch die Strukturierung der Pipeline als Transkribieren → Cachen → Analysieren → Synthetisieren minimiert auraScribe die Kosten für multimodale APIs und maximiert gleichzeitig die Tiefe der Erkenntnisse. Die Alternative — alles in einem massiven Prompt zu erledigen — würde entweder Details oder Kosteneffizienz opfern.

Die 3-Pass-Pipeline: Wie auraScribe Audio verarbeitet

Pass 1 — Transkription

Pass 1.5 — Sprecheridentifikation

Pass 2 — Sprecherprofilierung und Verhaltensanalyse

Überprüfungsphase — Human-in-the-Loop

Pass 3 — Zusammenfassung und Analyse

Warum drei Durchgänge?

Schluss mit Exportieren. Zeit zu liefern.

Verwandte Seiten

Raw Audio Cues

Sprecher-Diarisierung

Was ist Meeting Intelligence?