Le pipeline en 3 passes : Comment auraScribe traite l'audio
auraScribe ne traite pas l'audio en une seule passe. Au lieu de cela, il utilise un pipeline en 3 passes soigneusement orchestré où chaque passe est optimisée pour une tâche différente. Cette architecture maximise la qualité de transcription, minimise les coûts d'IA et permet l'analyse comportementale approfondie qui différencie auraScribe.
Passe 1 — Transcription
La première passe se concentre exclusivement sur la vitesse et la précision : transcrire l'audio aussi vite que possible, avec la diarisation des locuteurs (identifier qui a dit quoi) mais sans analyse comportementale.
C'est la seule passe qui ingère l'audio brut. Si l'audio est plus long que ce que l'IA peut traiter en une seule requête, une boucle de continuation reprend automatiquement là où elle s'est arrêtée, en utilisant l'ancrage d'horodatage pour avancer. Chaque mot est traité — pas de troncature, quelle que soit la longueur.
La sortie : une transcription complète et horodatée avec des étiquettes acoustiques de locuteur (Voix 1, Voix 2, etc.).
Passe 1.5 — Identification du locuteur
Une passe textuelle légère qui lit la transcription et déduit de vrais noms, titres de poste, entreprises et rôles à partir du contexte conversationnel. En séparant la diarisation acoustique (Passe 1) de l'attribution des noms (Passe 1.5), le modèle évite l'erreur courante de confondre les étiquettes vocales avec l'identité.
Passe 2 — Profilage des locuteurs et analyse comportementale
C'est là qu'est généré le principal facteur de différenciation d'auraScribe : Raw Audio Cues. À l'aide d'un cache de contexte contenant à la fois l'audio et la transcription, la Passe 2 exécute trois tâches simultanément :
- Vérification vocale : Compter les voix distinctes, détecter les locuteurs fusionnés ou en double
- Identification du locuteur : Vérifier les noms, les fonctions, les rôles et les entreprises
- Génération de Raw Audio Cues : Le journal comportemental chronologique exhaustif — micro-signaux, changements de ton, hésitations, interruptions, rires, modèles d'engagement et dynamique interpersonnelle
C'est la seule passe d'analyse audio. L'architecture soucieuse des coûts signifie que les jetons audio sont utilisés exactement deux fois : une fois pour la transcription, une fois pour l'analyse comportementale.
Étape de révision — Un humain dans la boucle
Avant de générer l'analyse finale, auraScribe fait une pause pour un examen humain. Les utilisateurs peuvent modifier la transcription, corriger les noms des locuteurs, échanger ou fusionner les locuteurs et vérifier les attributions incertaines. C'est la seule étape où le jugement humain surpasse l'IA — l'identification des locuteurs est le domaine où les modèles trébuchent fréquemment.
Passe 3 — Résumé et analyse
La dernière passe n'utilise que du texte — la transcription révisée plus les Raw Audio Cues — pour générer l'analyse complète. Pas de rechargement audio, ce qui signifie que cette passe est rapide et peu coûteuse.
La sortie comprend : un résumé exécutif, un résumé structuré, un résumé comportemental (dynamique de groupe), des signaux d'intention d'achat (lorsqu'ils sont détectés) et des remarques individuelles par locuteur avec des points de coaching.
Pourquoi trois passes ?
Les jetons audio sont chers. En structurant le pipeline sous la forme transcrire → mettre en cache → analyser → synthétiser, auraScribe minimise les coûts de l'API multimodale tout en maximisant la profondeur des informations. L'alternative — tout faire dans une seule invite massive — sacrifierait soit les détails, soit la rentabilité.