Vérifié juin 2026

Diarisation des locuteurs

Comment l'IA répond automatiquement à la question « qui a parlé quand ? » dans un fichier audio multi-intervenants. Pipeline technique expliqué, métriques de précision (DER), comparatif des outils 2026, et conformité RGPD pour entretiens enregistrés.

La diarisation des locuteurs (de l'anglais speaker diarisation) est la tâche qui consiste à répondre à la question « qui a parlé quand ? » dans un fichier audio multi-intervenants. Le modèle découpe le signal en segments, génère un embedding vocal par segment, puis regroupe les segments par locuteur via clustering — sans connaissance préalable de l'identité des intervenants. VexaScribe intègre la diarisation automatique dans son pipeline de transcription IA (Whisper Large-v3 + diarisation), avec étiquetage automatique des locuteurs (Speaker 1, Speaker 2…), renommage manuel dans l'éditeur, gestion de 2 à 10 locuteurs par fichier, précision Tier 1 en français (93-95 % de transcription, 85-95 % de diarisation selon conditions), hébergement AWS eu-west-2 (Londres) — conformité RGPD, et engagement contractuel de non-utilisation de vos audios pour entraînement IA. 30 minutes gratuites à l'inscription.

Diarisation incluse2-10 locuteursHébergement UEPas d'entraînement IA

L'essentiel à retenir

  • Diarisation = « qui a parlé quand ». Segmentation + embeddings vocaux + clustering. Aucune connaissance préalable des locuteurs requise.
  • Précision mesurée par DER (Diarization Error Rate). Typiquement 8-15 % sur audio propre 2-3 locuteurs, descend à 5-8 % avec micros séparés en studio.
  • Diarisation ≠ reconnaissance ≠ séparation de sources. Trois tâches distinctes — la diarisation est la seule utile pour transcription multi-intervenants.
  • Talon d'Achille : chevauchements de voix. Précision chute à 60-75 % en focus group ou entretien collectif avec parole superposée fréquente.
  • Batch vs temps réel. VexaScribe est batch — optimise la précision (5-10 min de traitement) pour les cas d'usage qui tolèrent un délai mais exigent la qualité.
  • Cas d'usage majeurs en France. Recherche qualitative (NVivo, ATLAS.ti), podcasts multi-invités, journalisme, médiations, centres d'appels, RH.
  • Outils 2026. Pyannote (open source), AssemblyAI / Deepgram / Gladia (API), VexaScribe (SaaS FR avec diarisation intégrée et hébergement UE).

Qu'est-ce que la diarisation ?

La diarisation des locuteurs (anglais : speaker diarisation, parfois orthographié diarization en anglais américain) est la tâche qui consiste à segmenter un signal audio en blocs cohérents par locuteur, sans connaître à l'avance qui sont les intervenants. Le résultat est une séquence d'étiquettes : [Speaker A : 00:00-00:12] [Speaker B : 00:12-00:25] [Speaker A : 00:25-00:38]…

Le terme est apparu dans la littérature scientifique au début des années 2000, popularisé par les évaluations NIST RT (Rich Transcription) et les conférences Interspeech. Le mot lui-même est un néologisme construit sur diary (journal des prises de parole) — d'où la difficulté orthographique (diarisation vs diarization en français selon les sources).

Exemple concret : un podcast d'1 heure avec 3 invités est uploadé dans VexaScribe. Sans qu'on indique à l'outil qui parle, la diarisation découpe l'épisode et attribue chaque segment à Speaker 1, Speaker 2, Speaker 3 ou Speaker 4 (l'animateur). Vous renommez ensuite dans l'éditeur : Speaker 1 → Animateur, Speaker 2 → Marie, Speaker 3 → Pierre, Speaker 4 → Sophie. Le renommage se propage automatiquement à toute la transcription.

Comment fonctionne la diarisation

Le pipeline classique en quatre étapes correspond à l'état de l'art 2026 (Pyannote 3.x, Whisper + diarisation, AssemblyAI). Les approches end-to-end (EEND) remplacent progressivement le pipeline mais restent minoritaires en production.

Pipeline en 4 étapes

  1. 1.
    VAD (Voice Activity Detection) — détection des segments de parole vs silence ou bruit ambiant. Modèles courants : Pyannote VAD, Silero VAD, WebRTC VAD. Crucial : un mauvais VAD propage des erreurs dans tout le reste du pipeline (faux positifs = bruit attribué à un locuteur ; faux négatifs = parole perdue).
  2. 2.
    Segmentation — découpe des zones de parole en blocs cohérents (typiquement 1-3 secondes). Méthodes : segmentation à fenêtre fixe, ou détection des frontières par changement acoustique. Pyannote 3.x utilise une segmentation neuronale fine.
  3. 3.
    Embeddings vocaux — chaque segment est encodé en un vecteur de ~256 dimensions par un modèle neuronal entraîné sur des millions d'heures. Modèles de référence : X-vectors (TDNN, 2017), ECAPA-TDNN (2020), WavLM-large (Microsoft 2021), ReDimNet (2024). Deux segments du même locuteur produisent des embeddings proches dans l'espace vectoriel (similarité cosinus > 0,7 typique).
  4. 4.
    Clustering — regroupement des embeddings par similarité. Méthodes : Agglomerative Hierarchical Clustering (AHC, simple et robuste), clustering spectral (meilleur sur datasets difficiles), ou approches neuronales end-to-end (EEND, EEND-VC). Le nombre de clusters = nombre de locuteurs détectés, peut être imposé ou estimé automatiquement.

Modèles open-source de référence en 2026 : Pyannote.audio 3.x (Hervé Bredin / Inria, le standard académique et industriel), WhisperX (Whisper + Pyannote en intégration légère), EEND-VC (NTT, approche end-to-end neuronale). Modèles propriétaires : AssemblyAI Universal-1, Deepgram Nova-3, Microsoft Azure Speech.

Mesurer la précision — DER, JER, WDER

Trois métriques principales évaluent la qualité d'une diarisation. Le DER (Diarization Error Rate) est la métrique de référence depuis les évaluations NIST RT (Rich Transcription) des années 2000.

Formule DER

Le DER est la somme de trois composantes d'erreur normalisée par la durée totale de parole :

DER = (False Alarm + Missed Speech + Speaker Confusion) / Durée totale

  • False Alarm — silence ou bruit incorrectement détecté comme parole
  • Missed Speech — parole réelle non détectée par le VAD
  • Speaker Confusion — parole attribuée au mauvais locuteur

Un DER de 10 % signifie que 10 % de la durée totale de parole est incorrectement segmentée ou attribuée. Plus bas = meilleur.

DER attendu selon conditions d'enregistrement

ConditionsDER typiqueNote
Studio, 2-3 locuteurs, micros lavalier séparés5-8 %Configuration idéale, attribution quasi-parfaite
Bureau, 2-3 locuteurs, un micro USB commun10-15 %Bonne précision, relecture rapide nécessaire
Entretien téléphonique (8 kHz), 2 locuteurs15-20 %Qualité dégradée mais utilisable
Réunion 4-6 locuteurs, micro plafond20-30 %Confusion fréquente entre voix similaires
Focus group 5+ participants, micros boundary25-40 %Chevauchements nombreux, attribution difficile
Audio avec parole superposée fréquente (>15 %)30-50 %Limite des modèles classiques single-label

JER (Jaccard Error Rate) — alternative robuste aux déséquilibres de durée par locuteur, utilisée notamment dans le challenge DIHARD. Pertinente quand un locuteur domine fortement le temps de parole.

WDER (Word-level DER) — mesure au niveau du mot transcrit (et non du temps). Plus pertinente pour la transcription : si 1 mot sur 10 a une étiquette de locuteur erronée, WDER = 10 %. C'est cette métrique qui compte pour l'expérience utilisateur finale dans un éditeur de transcription.

Diarisation vs reconnaissance vs séparation de sources

Confusion fréquente : ces quatre tâches portent toutes sur la voix mais répondent à des questions très différentes. Choisir la bonne tâche pour votre besoin évite de chercher la mauvaise solution.

TâcheQuestionConnaissance préalableUsage
Diarisation (speaker diarisation)Qui a parlé quand ?Aucune préalableTranscription multi-intervenants, podcasts, entretiens
Reconnaissance du locuteur (speaker recognition / identification)Est-ce Alice qui parle ?Empreinte vocale d'Alice requiseAuthentification biométrique, sécurité
Vérification du locuteur (speaker verification)Cette voix est-elle bien celle revendiquée ?Voix de référenceAnti-fraude téléphonique, banque
Séparation de sources (source separation)Isoler la voix d'Alice du bruit / musique / autre voixVariable selon techniqueAudio engineering, ré-écoute claire

Pour la transcription multi-intervenants (podcast, entretien, réunion), la diarisation est la seule tâche pertinente. Les autres servent des cas d'usage de sécurité, biométrie, ou audio engineering.

Chevauchements de voix et parole superposée

Le talon d'Achille des modèles de diarisation classiques. Les architectures basées sur embeddings + clustering supposent qu'un seul locuteur est actif à chaque instant ; quand deux personnes parlent simultanément, l'attribution se dégrade fortement.

Statistiques de chevauchements en conditions réelles

  • Conversations dyadiques (2 locuteurs) — 5-10 % du temps en chevauchement (rires partagés, complétions, acquiescements)
  • Réunions 3-4 personnes — 10-15 %
  • Focus groups 5+ participants — jusqu'à 30 % du temps
  • Débats animés / interviews journalistiques tendues — 15-25 %

Trois approches pour gérer ce problème : (1) ignorer les chevauchements et accepter la perte d'information (approche par défaut de la plupart des modèles). (2) Assigner au locuteur dominant sur chaque segment (Pyannote 3.x par défaut). (3) Modèles overlap-aware multi-label (EEND-EDA, EEND-VC) qui peuvent attribuer plusieurs locuteurs simultanés — coût computationnel plus élevé, encore minoritaires en production.

Conseil pratique : pour focus group ou table ronde, demandez explicitement aux participants de respecter la règle « un seul locuteur à la fois » et utilisez si possible un micro par participant (configuration multi-piste type Riverside, SquadCast, RØDECaster). Cette consigne améliore la qualité de la diarisation ET facilite l'analyse qualitative ultérieure.

Mode batch vs temps réel

Deux modes de fonctionnement avec un compromis classique précision/latence.

Mode batch (fichier complet)

Le modèle a accès à tout le fichier avant de prendre des décisions. Permet un clustering global avec toutes les statistiques, affinement des frontières par contexte futur, fusion correcte des voix similaires apparaissant à différents moments.

  • DER 2-5 points meilleur que streaming
  • Idéal pour archives, podcasts, entretiens
  • Délai 5-10 min pour 1 h d'audio

VexaScribe : mode batch

Mode streaming (temps réel)

Décisions locales prises en temps réel sans accès au futur. Latence faible (~1-3 sec) mais perte de précision car le modèle ne peut pas revenir en arrière pour corriger une attribution.

  • Latence 1-3 secondes
  • Idéal pour sous-titrage live, centres d'appels
  • DER 2-5 points moins bon

Exemples streaming : Deepgram Live, AWS Transcribe Streaming, Azure Speech temps réel

VexaScribe est en mode batch parce que ses cas d'usage cibles — transcription d'entretien recherche, podcast archive, réunion enregistrée, journalisme — tolèrent un délai de 5-10 minutes mais exigent la précision maximale. Le streaming temps réel est pertinent pour des contextes live où la latence importe plus que la perfection (sous-titrage TV en direct, captioning de webinaires, monitoring de calls).

Cas d'usage par persona

Six personas typiques en France pour la transcription multi-locuteurs avec diarisation. Chacune avec ses contraintes propres (précision, confidentialité, conformité).

Chercheur en sciences sociales

Entretiens semi-directifs, focus groups, ethnographie

Workflow : 20-100 entretiens en corpus → diarisation automatique étiquette Speaker 1 / Speaker 2 → renommage manuel (Enquêteur / Marie / Pierre) → export DOCX pour codage NVivo, ATLAS.ti, MAXQDA. Diarisation = condition sine qua non pour analyse qualitative crédible (attribution des verbatims à chaque informateur). Précision exigée 85 %+ après relecture, atteinte sur audio propre.

Podcasteur multi-invités

3-5 voix par épisode, format conversationnel

Workflow : enregistrement multi-piste Riverside / SquadCast (un micro par invité) → upload → diarisation distingue automatiquement chaque voix → show notes générées avec citations attribuées (« Selon Marie : … » / « Pierre ajoute : … »). Gain de temps majeur vs édition manuelle des notes d'épisode après écoute.

Journaliste / reporter

Interviews captées smartphone, conférences de presse, archives

Workflow : interview enregistrée → diarisation sépare reporter / interviewé(s) → identification rapide des passages à citer dans l'article. Pour conférences de presse multi-intervenants : étiquetage automatique de chaque journaliste posant question + porte-parole. Pas d'entraînement IA sur audio = protection des sources confidentielles.

Équipe RH / People

Entretiens d'embauche enregistrés (avec accord), entretiens annuels

Workflow : enregistrement entretien avec consentement écrit (Code du travail L1222-4) → diarisation distingue RH / candidat → archivage transcrit pour traçabilité administrative. Hébergement UE indispensable (RGPD, données personnelles salariés). Pour entretien annuel : analyse rétrospective des points discutés par interlocuteur.

Équipe juridique / consultant

Médiations enregistrées, entretiens client préparatoires, audits internes

Workflow : séance enregistrée → diarisation pour analyse préparatoire (non admissible en cour comme verbatim certifié). Distinction des intervenants critique pour reconstruire le déroulé d'une médiation ou identifier les positions de chaque partie. Pour usage formel : sous-traiter à un transcripteur humain assermenté.

Centres d'appels / qualité client

Calls agent / client à grande échelle, analyse qualité

Workflow : enregistrements quotidiens → diarisation sépare agent / client → analyse automatique du ratio de temps de parole, des silences, du ton (sentiment analysis post-transcription). Volume important = automatisation indispensable. Conformité RGPD obligatoire (clients informés de l'enregistrement, consentement implicite pour qualité service).

Comparatif des outils de diarisation 2026

Sept outils principaux pour la diarisation en français. Critères : type (SaaS / API / open source), modèle utilisé, DER typique, hébergement (UE vs USA), tarif effectif.

OutilTypeModèleDERUETarifIdéal pour
VexaScribeSaaS FRWhisper Large-v3 + diarisation10-15 %Oui (Londres)2-20 $/moisWorkflow francophone complet — éditeur, multi-format, traduction, hébergement UE
Pyannote.audio 3.xOpen sourcePyannote 3.x (Hervé Bredin, Inria)11-14 %LocalGratuit + coût GPUDéveloppeurs avec GPU NVIDIA, confidentialité totale, volume non limité
AssemblyAIAPIPropriétaire (Universal-1)8-12 %Configurable$0,37 / heureIntégration développeur, EN-first, haute précision
DeepgramAPINova-39-13 %Configurable$0,43 / heureAPI haute performance, streaming temps réel disponible
GladiaAPIWhisper + diarisation propriétaire10-14 %Variable$0,61 / heurePipeline complet avec features additionnelles (translation, summarization)
Microsoft Azure SpeechAPIPropriétaire10-15 %Configurable (régions FR/UE)Pay-as-you-goStack enterprise Microsoft, intégration Azure native
Otter.aiSaaSPropriétaire12-18 % (EN-first)Non (USA)16,99-30 $/moisRéunions live anglophones — qualité FR limitée

DER indicatifs basés sur benchmarks publics 2024-2025 (VoxConverse, DIHARD III, AMI). La précision réelle dépend fortement de la qualité d'enregistrement, du nombre de locuteurs, et de la fréquence des chevauchements. Tarifs vérifiés juin 2026.

Diarisation dans VexaScribe

La diarisation est intégrée nativement au pipeline VexaScribe — pas une option payante, pas une étape supplémentaire à activer. Tous les fichiers audio et vidéo bénéficient de l'étiquetage automatique des locuteurs.

Workflow VexaScribe en pratique

  1. 1.Upload — votre fichier (MP3, WAV, M4A, MP4, MOV) est uploadé sur AWS eu-west-2 (Londres)
  2. 2.Traitement parallèle — Whisper Large-v3 transcrit le contenu pendant que la diarisation segmente les locuteurs
  3. 3.Fusion — chaque mot transcrit est associé à un identifiant de locuteur (Speaker 1, Speaker 2…)
  4. 4.Éditeur web — vous accédez à la transcription avec étiquettes, écoutez chaque segment, corrigez si nécessaire
  5. 5.Renommage des locuteurs — Speaker 1 → « Animateur », propagé automatiquement à toute la transcription
  6. 6.Export — DOCX (NVivo, ATLAS.ti, MAXQDA), JSON (avec speaker_id + timestamps), SRT (avec préfixe locuteur), TXT

Précision attendue

  • 2 locuteurs micros séparés : 90-95 %
  • 3-4 locuteurs micro commun : 85-92 %
  • Focus group 5-8 : 75-85 %
  • Au-delà de 10 voix : non recommandé

Conseils pour focus group

  • Tour de présentation au début (empreinte vocale captée)
  • Règle « un seul locuteur à la fois »
  • Multi-piste si possible (Riverside, SquadCast)
  • Sinon, micros boundary de table

Pour les cas d'usage spécifiques voir transcription d'entretien (workflow recherche / journalisme / RH) et transcription podcast (workflow podcasteur multi-invités).

Questions fréquentes

Qu'est-ce que la diarisation des locuteurs ?

La diarisation des locuteurs (de l'anglais speaker diarisation) est la tâche qui répond à la question « qui a parlé quand ? » dans un fichier audio multi-intervenants. Le modèle découpe le signal audio en segments cohérents, génère un embedding vocal (vecteur de ~256 dimensions) par segment, puis regroupe ces embeddings par similarité via clustering — sans connaissance préalable de l'identité des locuteurs. Le résultat : chaque mot de la transcription est attribué automatiquement à un locuteur étiqueté Speaker 1, Speaker 2, etc., que vous renommez ensuite (Animateur, Marie, Pierre…). VexaScribe intègre la diarisation automatique dans son pipeline (Whisper Large-v3 + diarisation) pour 2 à 10 locuteurs par fichier.

Comment fonctionne la diarisation techniquement ?

Pipeline en 4 étapes. (1) VAD (Voice Activity Detection) — détection des segments de parole vs silence ou bruit. (2) Segmentation — découpe en blocs cohérents de 1-3 secondes typiques. (3) Embeddings vocaux — chaque segment est encodé en un vecteur de ~256 dimensions par un modèle neuronal (X-vectors, ECAPA-TDNN, ou architectures plus récentes type WavLM, ReDimNet). (4) Clustering — regroupement des embeddings par similarité (clustering spectral, AHC — Agglomerative Hierarchical Clustering, ou méthodes neuronales end-to-end type EEND). Modèles open source de référence en 2026 : Pyannote.audio 3.x (Hervé Bredin, Inria), Whisper + diarisation post-hoc, EEND-VC.

Quelle différence entre diarisation et reconnaissance du locuteur ?

Quatre tâches distinctes à ne pas confondre. (1) Diarisation : « qui a parlé quand » — sans connaissance préalable des locuteurs. (2) Reconnaissance / identification du locuteur (speaker recognition) : « est-ce Alice qui parle ? » — nécessite une empreinte vocale d'Alice préalable. Usage : authentification biométrique, sécurité. (3) Vérification du locuteur (speaker verification) : « cette voix est-elle bien celle revendiquée ? » — anti-fraude téléphonique. (4) Séparation de sources (source separation) : isoler le signal d'Alice mélangé avec autres voix, musique ou bruit. Usage : audio engineering, ré-écoute claire. La diarisation est la seule tâche utile pour la transcription multi-intervenants.

Comment mesurer la précision de la diarisation (DER) ?

Trois métriques principales. (1) DER (Diarization Error Rate) — métrique de référence NIST. Somme de 3 erreurs : Speaker confusion (mauvais locuteur attribué) + Missed speech (parole non détectée) + False alarm (silence détecté comme parole). Formule : DER = (FA + Miss + Speaker Error) / Durée totale. Valeurs typiques 2026 : 5-8 % en studio 2-3 locuteurs avec micros séparés, 10-15 % en bureau avec micro commun, 25-40 % en focus group. (2) JER (Jaccard Error Rate) — alternative robuste aux déséquilibres de durée par locuteur, utilisée notamment dans le challenge DIHARD. (3) WDER (Word-level DER) — mesure au niveau du mot transcrit, plus pertinente pour la transcription.

La diarisation fonctionne-t-elle en temps réel ?

Deux modes existent avec un compromis précision/latence. (1) Mode batch (fichier complet) — VexaScribe — optimise la précision : le clustering global a accès à tous les segments simultanément, peut affiner les frontières et fusionner correctement les voix similaires. DER typique 10-15 %. (2) Mode streaming (temps réel) — décisions locales sans accès au futur. DER typiquement 2-5 points en moins que batch. Cas d'usage streaming : sous-titrage live TV, live captioning conférences, transcription temps réel centres d'appels. VexaScribe est en mode batch (5-10 min de traitement pour 1 h d'audio) car ses cas d'usage cibles — transcription d'entretien, podcast, réunion archivée — tolèrent un délai mais exigent la précision.

Combien de locuteurs peut-on détecter automatiquement ?

VexaScribe gère 2 à 10 locuteurs distincts par fichier. La précision varie selon le nombre : 2 locuteurs sur micros séparés (entretien ou podcast 2 voix) atteint 90-95 % de précision de diarisation. 3-4 locuteurs (panel, réunion 4 voix) atteint 85-92 %. 5-7 locuteurs (focus group) descend à 75-85 %. 8-10 locuteurs (réunion équipe large) reste fonctionnel mais nécessite plus de relecture (70-80 %). Au-delà de 10 voix distinctes, les modèles actuels (Pyannote 3.x, Whisper diarisation) ont des limites — recommandation : enregistrement multi-piste avec un micro par participant (Riverside, SquadCast, RØDECaster) pour séparation quasi parfaite.

Quels sont les meilleurs outils de diarisation 2026 ?

Six options selon votre besoin. (1) VexaScribe — SaaS français, Whisper Large-v3 + diarisation intégrée, hébergement UE (Londres), 2-20 $/mois forfait. Pour workflow complet. (2) Pyannote.audio 3.x — open source, Hervé Bredin / Inria. Pour développeurs avec GPU. Gratuit. (3) AssemblyAI — API propriétaire, $0,37/h, intégration développeur EN-first. (4) Deepgram (Nova-3) — API propriétaire, $0,43/h, haute performance. (5) Gladia — API propriétaire + Whisper, $0,61/h, pipeline complet avec features additionnelles. (6) Microsoft Azure Speech — pay-as-you-go, stack enterprise Microsoft, régions UE configurables. Le choix dépend du volume, du budget, de l'intégration souhaitée, et de la résidence des données.

Comment diariser un fichier audio en pratique ?

Workflow VexaScribe en 4 étapes. (1) Uploadez votre fichier audio (MP3, WAV, M4A, MP4, MOV — jusqu'à 5 Go et 10 h) ou vidéo dans l'interface. (2) L'IA traite l'audio en 5-10 minutes pour 1 h : extraction des features → transcription Whisper Large-v3 → diarisation en parallèle → fusion des deux résultats. (3) L'éditeur web affiche la transcription avec étiquettes Speaker 1, Speaker 2, etc. Renommez les locuteurs : Speaker 1 → « Animateur », Speaker 2 → « Marie Dupont », Speaker 3 → « Pierre Martin ». Le renommage se propage automatiquement à toute la transcription. (4) Export DOCX (NVivo, ATLAS.ti), JSON (avec speaker_id et timestamps), SRT (avec préfixe locuteur), TXT.

Pourquoi la diarisation échoue-t-elle sur la parole superposée ?

Limite technique majeure. Les modèles de diarisation classiques (Pyannote 3.x, embeddings X-vectors + clustering) supposent un seul locuteur actif à la fois et assignent chaque segment à un locuteur unique. Quand deux personnes parlent simultanément (« chevauchement », « parole superposée »), le modèle dégrade l'attribution. Statistiques typiques : conversations naturelles = 5-15 % de parole superposée ; focus groups jusqu'à 30 %. Approches modernes pour gérer les chevauchements : modèles multi-label (EEND-EDA, EEND-VC) qui peuvent attribuer plusieurs locuteurs simultanés, mais avec coût computationnel plus élevé. Conseil pratique pour focus group : consigne explicite « un seul locuteur à la fois » + micros séparés par participant.

La diarisation respecte-t-elle le RGPD pour entretiens enregistrés ?

Oui, sous certaines conditions. La diarisation traite des données vocales — donc des données à caractère personnel au sens RGPD article 4 (la voix est un identifiant biométrique). Critères de conformité : (1) hébergement des données en UE — VexaScribe sur AWS eu-west-2 Londres. (2) Pas d'entraînement de modèles sur vos audios — engagement contractuel explicite chez VexaScribe (différent d'Otter.ai opt-out par défaut). (3) Suppression contrôlée par l'utilisateur (article 17). (4) Pour entretiens de recherche : vous (chercheur) êtes responsable de traitement, VexaScribe est sous-traitant. (5) Consentement préalable des participants requis pour enregistrement. Recommandations CNIL applicables. Voir page dédiée transcription d'entretien pour méthodologie RGPD complète.

Méthodologie & sources

La définition canonique de la diarisation suit la terminologie NIST RT (Rich Transcription evaluations, 2002-2009) et les conférences Interspeech / ICASSP. Le pipeline en 4 étapes (VAD → segmentation → embeddings → clustering) correspond à l'état de l'art 2026 implémenté par Pyannote.audio 3.x, l'outil open-source de référence (Hervé Bredin, Inria).

Les valeurs de DER typiques par conditions sont basées sur les benchmarks publics : VoxConverse (Oxford VGG, Chung et al. 2020), DIHARD III (Linguistic Data Consortium 2021), AMI Meeting Corpus (Carletta et al. 2006), Common Voice France (Mozilla, mis à jour 2024-2025). Les chiffres reflètent les résultats de Pyannote 3.x et de modèles propriétaires comparables (AssemblyAI Universal-1, Deepgram Nova-3) en juin 2026.

Tarifs concurrents (AssemblyAI $0,37/h, Deepgram $0,43/h, Gladia $0,61/h, Microsoft Azure Speech pay-as-you-go) reflètent les prix publics affichés en juin 2026. Pyannote est open source sous licence MIT, gratuit avec coût GPU à la charge de l'utilisateur.

Les recommandations RGPD pour entretiens enregistrés (responsable / sous-traitant, hébergement UE, consentement préalable) sont issues des guides CNIL pour la recherche scientifique et du RGPD article 4. Vérifiez les évolutions réglementaires régulièrement.

VexaScribe est le produit décrit. Les comparaisons aux autres outils visent à aider les chercheurs, podcasteurs, journalistes et équipes francophones à choisir l'outil adapté à leur volume et leurs contraintes, pas à dénigrer la concurrence. Pour le processus éditorial complet voir standards éditoriaux.

Testez la diarisation sur votre prochain entretien

30 minutes de transcription avec diarisation gratuites. Sans carte bancaire. 2 à 10 locuteurs gérés, étiquetage et renommage dans l'éditeur. Hébergement UE, pas d'entraînement IA sur vos données.

Guides associés