Vérifié juin 2026
Diarisation des locuteurs
Comment l'IA répond automatiquement à la question « qui a parlé quand ? » dans un fichier audio multi-intervenants. Pipeline technique expliqué, métriques de précision (DER), comparatif des outils 2026, et conformité RGPD pour entretiens enregistrés.
La diarisation des locuteurs (de l'anglais speaker diarisation) est la tâche qui consiste à répondre à la question « qui a parlé quand ? » dans un fichier audio multi-intervenants. Le modèle découpe le signal en segments, génère un embedding vocal par segment, puis regroupe les segments par locuteur via clustering — sans connaissance préalable de l'identité des intervenants. VexaScribe intègre la diarisation automatique dans son pipeline de transcription IA (Whisper Large-v3 + diarisation), avec étiquetage automatique des locuteurs (Speaker 1, Speaker 2…), renommage manuel dans l'éditeur, gestion de 2 à 10 locuteurs par fichier, précision Tier 1 en français (93-95 % de transcription, 85-95 % de diarisation selon conditions), hébergement AWS eu-west-2 (Londres) — conformité RGPD, et engagement contractuel de non-utilisation de vos audios pour entraînement IA. 30 minutes gratuites à l'inscription.
L'essentiel à retenir
- ●Diarisation = « qui a parlé quand ». Segmentation + embeddings vocaux + clustering. Aucune connaissance préalable des locuteurs requise.
- ●Précision mesurée par DER (Diarization Error Rate). Typiquement 8-15 % sur audio propre 2-3 locuteurs, descend à 5-8 % avec micros séparés en studio.
- ●Diarisation ≠ reconnaissance ≠ séparation de sources. Trois tâches distinctes — la diarisation est la seule utile pour transcription multi-intervenants.
- ●Talon d'Achille : chevauchements de voix. Précision chute à 60-75 % en focus group ou entretien collectif avec parole superposée fréquente.
- ●Batch vs temps réel. VexaScribe est batch — optimise la précision (5-10 min de traitement) pour les cas d'usage qui tolèrent un délai mais exigent la qualité.
- ●Cas d'usage majeurs en France. Recherche qualitative (NVivo, ATLAS.ti), podcasts multi-invités, journalisme, médiations, centres d'appels, RH.
- ●Outils 2026. Pyannote (open source), AssemblyAI / Deepgram / Gladia (API), VexaScribe (SaaS FR avec diarisation intégrée et hébergement UE).
Qu'est-ce que la diarisation ?
La diarisation des locuteurs (anglais : speaker diarisation, parfois orthographié diarization en anglais américain) est la tâche qui consiste à segmenter un signal audio en blocs cohérents par locuteur, sans connaître à l'avance qui sont les intervenants. Le résultat est une séquence d'étiquettes : [Speaker A : 00:00-00:12] [Speaker B : 00:12-00:25] [Speaker A : 00:25-00:38]…
Le terme est apparu dans la littérature scientifique au début des années 2000, popularisé par les évaluations NIST RT (Rich Transcription) et les conférences Interspeech. Le mot lui-même est un néologisme construit sur diary (journal des prises de parole) — d'où la difficulté orthographique (diarisation vs diarization en français selon les sources).
Exemple concret : un podcast d'1 heure avec 3 invités est uploadé dans VexaScribe. Sans qu'on indique à l'outil qui parle, la diarisation découpe l'épisode et attribue chaque segment à Speaker 1, Speaker 2, Speaker 3 ou Speaker 4 (l'animateur). Vous renommez ensuite dans l'éditeur : Speaker 1 → Animateur, Speaker 2 → Marie, Speaker 3 → Pierre, Speaker 4 → Sophie. Le renommage se propage automatiquement à toute la transcription.
Mesurer la précision — DER, JER, WDER
Trois métriques principales évaluent la qualité d'une diarisation. Le DER (Diarization Error Rate) est la métrique de référence depuis les évaluations NIST RT (Rich Transcription) des années 2000.
Formule DER
Le DER est la somme de trois composantes d'erreur normalisée par la durée totale de parole :
DER = (False Alarm + Missed Speech + Speaker Confusion) / Durée totale
- ●False Alarm — silence ou bruit incorrectement détecté comme parole
- ●Missed Speech — parole réelle non détectée par le VAD
- ●Speaker Confusion — parole attribuée au mauvais locuteur
Un DER de 10 % signifie que 10 % de la durée totale de parole est incorrectement segmentée ou attribuée. Plus bas = meilleur.
DER attendu selon conditions d'enregistrement
| Conditions | DER typique | Note |
|---|---|---|
| Studio, 2-3 locuteurs, micros lavalier séparés | 5-8 % | Configuration idéale, attribution quasi-parfaite |
| Bureau, 2-3 locuteurs, un micro USB commun | 10-15 % | Bonne précision, relecture rapide nécessaire |
| Entretien téléphonique (8 kHz), 2 locuteurs | 15-20 % | Qualité dégradée mais utilisable |
| Réunion 4-6 locuteurs, micro plafond | 20-30 % | Confusion fréquente entre voix similaires |
| Focus group 5+ participants, micros boundary | 25-40 % | Chevauchements nombreux, attribution difficile |
| Audio avec parole superposée fréquente (>15 %) | 30-50 % | Limite des modèles classiques single-label |
JER (Jaccard Error Rate) — alternative robuste aux déséquilibres de durée par locuteur, utilisée notamment dans le challenge DIHARD. Pertinente quand un locuteur domine fortement le temps de parole.
WDER (Word-level DER) — mesure au niveau du mot transcrit (et non du temps). Plus pertinente pour la transcription : si 1 mot sur 10 a une étiquette de locuteur erronée, WDER = 10 %. C'est cette métrique qui compte pour l'expérience utilisateur finale dans un éditeur de transcription.
Diarisation vs reconnaissance vs séparation de sources
Confusion fréquente : ces quatre tâches portent toutes sur la voix mais répondent à des questions très différentes. Choisir la bonne tâche pour votre besoin évite de chercher la mauvaise solution.
| Tâche | Question | Connaissance préalable | Usage |
|---|---|---|---|
| Diarisation (speaker diarisation) | Qui a parlé quand ? | Aucune préalable | Transcription multi-intervenants, podcasts, entretiens |
| Reconnaissance du locuteur (speaker recognition / identification) | Est-ce Alice qui parle ? | Empreinte vocale d'Alice requise | Authentification biométrique, sécurité |
| Vérification du locuteur (speaker verification) | Cette voix est-elle bien celle revendiquée ? | Voix de référence | Anti-fraude téléphonique, banque |
| Séparation de sources (source separation) | Isoler la voix d'Alice du bruit / musique / autre voix | Variable selon technique | Audio engineering, ré-écoute claire |
Pour la transcription multi-intervenants (podcast, entretien, réunion), la diarisation est la seule tâche pertinente. Les autres servent des cas d'usage de sécurité, biométrie, ou audio engineering.
Chevauchements de voix et parole superposée
Le talon d'Achille des modèles de diarisation classiques. Les architectures basées sur embeddings + clustering supposent qu'un seul locuteur est actif à chaque instant ; quand deux personnes parlent simultanément, l'attribution se dégrade fortement.
Statistiques de chevauchements en conditions réelles
- ●Conversations dyadiques (2 locuteurs) — 5-10 % du temps en chevauchement (rires partagés, complétions, acquiescements)
- ●Réunions 3-4 personnes — 10-15 %
- ●Focus groups 5+ participants — jusqu'à 30 % du temps
- ●Débats animés / interviews journalistiques tendues — 15-25 %
Trois approches pour gérer ce problème : (1) ignorer les chevauchements et accepter la perte d'information (approche par défaut de la plupart des modèles). (2) Assigner au locuteur dominant sur chaque segment (Pyannote 3.x par défaut). (3) Modèles overlap-aware multi-label (EEND-EDA, EEND-VC) qui peuvent attribuer plusieurs locuteurs simultanés — coût computationnel plus élevé, encore minoritaires en production.
Conseil pratique : pour focus group ou table ronde, demandez explicitement aux participants de respecter la règle « un seul locuteur à la fois » et utilisez si possible un micro par participant (configuration multi-piste type Riverside, SquadCast, RØDECaster). Cette consigne améliore la qualité de la diarisation ET facilite l'analyse qualitative ultérieure.
Mode batch vs temps réel
Deux modes de fonctionnement avec un compromis classique précision/latence.
Mode batch (fichier complet)
Le modèle a accès à tout le fichier avant de prendre des décisions. Permet un clustering global avec toutes les statistiques, affinement des frontières par contexte futur, fusion correcte des voix similaires apparaissant à différents moments.
- ✓DER 2-5 points meilleur que streaming
- ✓Idéal pour archives, podcasts, entretiens
- ⚠Délai 5-10 min pour 1 h d'audio
VexaScribe : mode batch
Mode streaming (temps réel)
Décisions locales prises en temps réel sans accès au futur. Latence faible (~1-3 sec) mais perte de précision car le modèle ne peut pas revenir en arrière pour corriger une attribution.
- ✓Latence 1-3 secondes
- ✓Idéal pour sous-titrage live, centres d'appels
- ⚠DER 2-5 points moins bon
Exemples streaming : Deepgram Live, AWS Transcribe Streaming, Azure Speech temps réel
VexaScribe est en mode batch parce que ses cas d'usage cibles — transcription d'entretien recherche, podcast archive, réunion enregistrée, journalisme — tolèrent un délai de 5-10 minutes mais exigent la précision maximale. Le streaming temps réel est pertinent pour des contextes live où la latence importe plus que la perfection (sous-titrage TV en direct, captioning de webinaires, monitoring de calls).
Cas d'usage par persona
Six personas typiques en France pour la transcription multi-locuteurs avec diarisation. Chacune avec ses contraintes propres (précision, confidentialité, conformité).
Chercheur en sciences sociales
Entretiens semi-directifs, focus groups, ethnographieWorkflow : 20-100 entretiens en corpus → diarisation automatique étiquette Speaker 1 / Speaker 2 → renommage manuel (Enquêteur / Marie / Pierre) → export DOCX pour codage NVivo, ATLAS.ti, MAXQDA. Diarisation = condition sine qua non pour analyse qualitative crédible (attribution des verbatims à chaque informateur). Précision exigée 85 %+ après relecture, atteinte sur audio propre.
Podcasteur multi-invités
3-5 voix par épisode, format conversationnelWorkflow : enregistrement multi-piste Riverside / SquadCast (un micro par invité) → upload → diarisation distingue automatiquement chaque voix → show notes générées avec citations attribuées (« Selon Marie : … » / « Pierre ajoute : … »). Gain de temps majeur vs édition manuelle des notes d'épisode après écoute.
Journaliste / reporter
Interviews captées smartphone, conférences de presse, archivesWorkflow : interview enregistrée → diarisation sépare reporter / interviewé(s) → identification rapide des passages à citer dans l'article. Pour conférences de presse multi-intervenants : étiquetage automatique de chaque journaliste posant question + porte-parole. Pas d'entraînement IA sur audio = protection des sources confidentielles.
Équipe RH / People
Entretiens d'embauche enregistrés (avec accord), entretiens annuelsWorkflow : enregistrement entretien avec consentement écrit (Code du travail L1222-4) → diarisation distingue RH / candidat → archivage transcrit pour traçabilité administrative. Hébergement UE indispensable (RGPD, données personnelles salariés). Pour entretien annuel : analyse rétrospective des points discutés par interlocuteur.
Équipe juridique / consultant
Médiations enregistrées, entretiens client préparatoires, audits internesWorkflow : séance enregistrée → diarisation pour analyse préparatoire (non admissible en cour comme verbatim certifié). Distinction des intervenants critique pour reconstruire le déroulé d'une médiation ou identifier les positions de chaque partie. Pour usage formel : sous-traiter à un transcripteur humain assermenté.
Centres d'appels / qualité client
Calls agent / client à grande échelle, analyse qualitéWorkflow : enregistrements quotidiens → diarisation sépare agent / client → analyse automatique du ratio de temps de parole, des silences, du ton (sentiment analysis post-transcription). Volume important = automatisation indispensable. Conformité RGPD obligatoire (clients informés de l'enregistrement, consentement implicite pour qualité service).
Comparatif des outils de diarisation 2026
Sept outils principaux pour la diarisation en français. Critères : type (SaaS / API / open source), modèle utilisé, DER typique, hébergement (UE vs USA), tarif effectif.
| Outil | Type | Modèle | DER | UE | Tarif | Idéal pour |
|---|---|---|---|---|---|---|
| VexaScribe | SaaS FR | Whisper Large-v3 + diarisation | 10-15 % | Oui (Londres) | 2-20 $/mois | Workflow francophone complet — éditeur, multi-format, traduction, hébergement UE |
| Pyannote.audio 3.x | Open source | Pyannote 3.x (Hervé Bredin, Inria) | 11-14 % | Local | Gratuit + coût GPU | Développeurs avec GPU NVIDIA, confidentialité totale, volume non limité |
| AssemblyAI | API | Propriétaire (Universal-1) | 8-12 % | Configurable | $0,37 / heure | Intégration développeur, EN-first, haute précision |
| Deepgram | API | Nova-3 | 9-13 % | Configurable | $0,43 / heure | API haute performance, streaming temps réel disponible |
| Gladia | API | Whisper + diarisation propriétaire | 10-14 % | Variable | $0,61 / heure | Pipeline complet avec features additionnelles (translation, summarization) |
| Microsoft Azure Speech | API | Propriétaire | 10-15 % | Configurable (régions FR/UE) | Pay-as-you-go | Stack enterprise Microsoft, intégration Azure native |
| Otter.ai | SaaS | Propriétaire | 12-18 % (EN-first) | Non (USA) | 16,99-30 $/mois | Réunions live anglophones — qualité FR limitée |
DER indicatifs basés sur benchmarks publics 2024-2025 (VoxConverse, DIHARD III, AMI). La précision réelle dépend fortement de la qualité d'enregistrement, du nombre de locuteurs, et de la fréquence des chevauchements. Tarifs vérifiés juin 2026.
Diarisation dans VexaScribe
La diarisation est intégrée nativement au pipeline VexaScribe — pas une option payante, pas une étape supplémentaire à activer. Tous les fichiers audio et vidéo bénéficient de l'étiquetage automatique des locuteurs.
Workflow VexaScribe en pratique
- 1.Upload — votre fichier (MP3, WAV, M4A, MP4, MOV) est uploadé sur AWS eu-west-2 (Londres)
- 2.Traitement parallèle — Whisper Large-v3 transcrit le contenu pendant que la diarisation segmente les locuteurs
- 3.Fusion — chaque mot transcrit est associé à un identifiant de locuteur (Speaker 1, Speaker 2…)
- 4.Éditeur web — vous accédez à la transcription avec étiquettes, écoutez chaque segment, corrigez si nécessaire
- 5.Renommage des locuteurs — Speaker 1 → « Animateur », propagé automatiquement à toute la transcription
- 6.Export — DOCX (NVivo, ATLAS.ti, MAXQDA), JSON (avec speaker_id + timestamps), SRT (avec préfixe locuteur), TXT
Précision attendue
- ●2 locuteurs micros séparés : 90-95 %
- ●3-4 locuteurs micro commun : 85-92 %
- ●Focus group 5-8 : 75-85 %
- ●Au-delà de 10 voix : non recommandé
Conseils pour focus group
- ●Tour de présentation au début (empreinte vocale captée)
- ●Règle « un seul locuteur à la fois »
- ●Multi-piste si possible (Riverside, SquadCast)
- ●Sinon, micros boundary de table
Pour les cas d'usage spécifiques voir transcription d'entretien (workflow recherche / journalisme / RH) et transcription podcast (workflow podcasteur multi-invités).
Questions fréquentes
Qu'est-ce que la diarisation des locuteurs ?
La diarisation des locuteurs (de l'anglais speaker diarisation) est la tâche qui répond à la question « qui a parlé quand ? » dans un fichier audio multi-intervenants. Le modèle découpe le signal audio en segments cohérents, génère un embedding vocal (vecteur de ~256 dimensions) par segment, puis regroupe ces embeddings par similarité via clustering — sans connaissance préalable de l'identité des locuteurs. Le résultat : chaque mot de la transcription est attribué automatiquement à un locuteur étiqueté Speaker 1, Speaker 2, etc., que vous renommez ensuite (Animateur, Marie, Pierre…). VexaScribe intègre la diarisation automatique dans son pipeline (Whisper Large-v3 + diarisation) pour 2 à 10 locuteurs par fichier.
Comment fonctionne la diarisation techniquement ?
Pipeline en 4 étapes. (1) VAD (Voice Activity Detection) — détection des segments de parole vs silence ou bruit. (2) Segmentation — découpe en blocs cohérents de 1-3 secondes typiques. (3) Embeddings vocaux — chaque segment est encodé en un vecteur de ~256 dimensions par un modèle neuronal (X-vectors, ECAPA-TDNN, ou architectures plus récentes type WavLM, ReDimNet). (4) Clustering — regroupement des embeddings par similarité (clustering spectral, AHC — Agglomerative Hierarchical Clustering, ou méthodes neuronales end-to-end type EEND). Modèles open source de référence en 2026 : Pyannote.audio 3.x (Hervé Bredin, Inria), Whisper + diarisation post-hoc, EEND-VC.
Quelle différence entre diarisation et reconnaissance du locuteur ?
Quatre tâches distinctes à ne pas confondre. (1) Diarisation : « qui a parlé quand » — sans connaissance préalable des locuteurs. (2) Reconnaissance / identification du locuteur (speaker recognition) : « est-ce Alice qui parle ? » — nécessite une empreinte vocale d'Alice préalable. Usage : authentification biométrique, sécurité. (3) Vérification du locuteur (speaker verification) : « cette voix est-elle bien celle revendiquée ? » — anti-fraude téléphonique. (4) Séparation de sources (source separation) : isoler le signal d'Alice mélangé avec autres voix, musique ou bruit. Usage : audio engineering, ré-écoute claire. La diarisation est la seule tâche utile pour la transcription multi-intervenants.
Comment mesurer la précision de la diarisation (DER) ?
Trois métriques principales. (1) DER (Diarization Error Rate) — métrique de référence NIST. Somme de 3 erreurs : Speaker confusion (mauvais locuteur attribué) + Missed speech (parole non détectée) + False alarm (silence détecté comme parole). Formule : DER = (FA + Miss + Speaker Error) / Durée totale. Valeurs typiques 2026 : 5-8 % en studio 2-3 locuteurs avec micros séparés, 10-15 % en bureau avec micro commun, 25-40 % en focus group. (2) JER (Jaccard Error Rate) — alternative robuste aux déséquilibres de durée par locuteur, utilisée notamment dans le challenge DIHARD. (3) WDER (Word-level DER) — mesure au niveau du mot transcrit, plus pertinente pour la transcription.
La diarisation fonctionne-t-elle en temps réel ?
Deux modes existent avec un compromis précision/latence. (1) Mode batch (fichier complet) — VexaScribe — optimise la précision : le clustering global a accès à tous les segments simultanément, peut affiner les frontières et fusionner correctement les voix similaires. DER typique 10-15 %. (2) Mode streaming (temps réel) — décisions locales sans accès au futur. DER typiquement 2-5 points en moins que batch. Cas d'usage streaming : sous-titrage live TV, live captioning conférences, transcription temps réel centres d'appels. VexaScribe est en mode batch (5-10 min de traitement pour 1 h d'audio) car ses cas d'usage cibles — transcription d'entretien, podcast, réunion archivée — tolèrent un délai mais exigent la précision.
Combien de locuteurs peut-on détecter automatiquement ?
VexaScribe gère 2 à 10 locuteurs distincts par fichier. La précision varie selon le nombre : 2 locuteurs sur micros séparés (entretien ou podcast 2 voix) atteint 90-95 % de précision de diarisation. 3-4 locuteurs (panel, réunion 4 voix) atteint 85-92 %. 5-7 locuteurs (focus group) descend à 75-85 %. 8-10 locuteurs (réunion équipe large) reste fonctionnel mais nécessite plus de relecture (70-80 %). Au-delà de 10 voix distinctes, les modèles actuels (Pyannote 3.x, Whisper diarisation) ont des limites — recommandation : enregistrement multi-piste avec un micro par participant (Riverside, SquadCast, RØDECaster) pour séparation quasi parfaite.
Quels sont les meilleurs outils de diarisation 2026 ?
Six options selon votre besoin. (1) VexaScribe — SaaS français, Whisper Large-v3 + diarisation intégrée, hébergement UE (Londres), 2-20 $/mois forfait. Pour workflow complet. (2) Pyannote.audio 3.x — open source, Hervé Bredin / Inria. Pour développeurs avec GPU. Gratuit. (3) AssemblyAI — API propriétaire, $0,37/h, intégration développeur EN-first. (4) Deepgram (Nova-3) — API propriétaire, $0,43/h, haute performance. (5) Gladia — API propriétaire + Whisper, $0,61/h, pipeline complet avec features additionnelles. (6) Microsoft Azure Speech — pay-as-you-go, stack enterprise Microsoft, régions UE configurables. Le choix dépend du volume, du budget, de l'intégration souhaitée, et de la résidence des données.
Comment diariser un fichier audio en pratique ?
Workflow VexaScribe en 4 étapes. (1) Uploadez votre fichier audio (MP3, WAV, M4A, MP4, MOV — jusqu'à 5 Go et 10 h) ou vidéo dans l'interface. (2) L'IA traite l'audio en 5-10 minutes pour 1 h : extraction des features → transcription Whisper Large-v3 → diarisation en parallèle → fusion des deux résultats. (3) L'éditeur web affiche la transcription avec étiquettes Speaker 1, Speaker 2, etc. Renommez les locuteurs : Speaker 1 → « Animateur », Speaker 2 → « Marie Dupont », Speaker 3 → « Pierre Martin ». Le renommage se propage automatiquement à toute la transcription. (4) Export DOCX (NVivo, ATLAS.ti), JSON (avec speaker_id et timestamps), SRT (avec préfixe locuteur), TXT.
Pourquoi la diarisation échoue-t-elle sur la parole superposée ?
Limite technique majeure. Les modèles de diarisation classiques (Pyannote 3.x, embeddings X-vectors + clustering) supposent un seul locuteur actif à la fois et assignent chaque segment à un locuteur unique. Quand deux personnes parlent simultanément (« chevauchement », « parole superposée »), le modèle dégrade l'attribution. Statistiques typiques : conversations naturelles = 5-15 % de parole superposée ; focus groups jusqu'à 30 %. Approches modernes pour gérer les chevauchements : modèles multi-label (EEND-EDA, EEND-VC) qui peuvent attribuer plusieurs locuteurs simultanés, mais avec coût computationnel plus élevé. Conseil pratique pour focus group : consigne explicite « un seul locuteur à la fois » + micros séparés par participant.
La diarisation respecte-t-elle le RGPD pour entretiens enregistrés ?
Oui, sous certaines conditions. La diarisation traite des données vocales — donc des données à caractère personnel au sens RGPD article 4 (la voix est un identifiant biométrique). Critères de conformité : (1) hébergement des données en UE — VexaScribe sur AWS eu-west-2 Londres. (2) Pas d'entraînement de modèles sur vos audios — engagement contractuel explicite chez VexaScribe (différent d'Otter.ai opt-out par défaut). (3) Suppression contrôlée par l'utilisateur (article 17). (4) Pour entretiens de recherche : vous (chercheur) êtes responsable de traitement, VexaScribe est sous-traitant. (5) Consentement préalable des participants requis pour enregistrement. Recommandations CNIL applicables. Voir page dédiée transcription d'entretien pour méthodologie RGPD complète.
Méthodologie & sources
La définition canonique de la diarisation suit la terminologie NIST RT (Rich Transcription evaluations, 2002-2009) et les conférences Interspeech / ICASSP. Le pipeline en 4 étapes (VAD → segmentation → embeddings → clustering) correspond à l'état de l'art 2026 implémenté par Pyannote.audio 3.x, l'outil open-source de référence (Hervé Bredin, Inria).
Les valeurs de DER typiques par conditions sont basées sur les benchmarks publics : VoxConverse (Oxford VGG, Chung et al. 2020), DIHARD III (Linguistic Data Consortium 2021), AMI Meeting Corpus (Carletta et al. 2006), Common Voice France (Mozilla, mis à jour 2024-2025). Les chiffres reflètent les résultats de Pyannote 3.x et de modèles propriétaires comparables (AssemblyAI Universal-1, Deepgram Nova-3) en juin 2026.
Tarifs concurrents (AssemblyAI $0,37/h, Deepgram $0,43/h, Gladia $0,61/h, Microsoft Azure Speech pay-as-you-go) reflètent les prix publics affichés en juin 2026. Pyannote est open source sous licence MIT, gratuit avec coût GPU à la charge de l'utilisateur.
Les recommandations RGPD pour entretiens enregistrés (responsable / sous-traitant, hébergement UE, consentement préalable) sont issues des guides CNIL pour la recherche scientifique et du RGPD article 4. Vérifiez les évolutions réglementaires régulièrement.
VexaScribe est le produit décrit. Les comparaisons aux autres outils visent à aider les chercheurs, podcasteurs, journalistes et équipes francophones à choisir l'outil adapté à leur volume et leurs contraintes, pas à dénigrer la concurrence. Pour le processus éditorial complet voir standards éditoriaux.
Testez la diarisation sur votre prochain entretien
30 minutes de transcription avec diarisation gratuites. Sans carte bancaire. 2 à 10 locuteurs gérés, étiquetage et renommage dans l'éditeur. Hébergement UE, pas d'entraînement IA sur vos données.
Guides associés
Transcription d'entretien
Workflow recherche, journalisme, RH — RGPD & CAQDAS
Transcription podcast
Pour podcasteurs multi-invités
Transcription IA
Whisper Large-v3 et comparatif des outils 2026
Transcription audio en texte
Guide général — tous formats audio
Transcrire et traduire
Locuteurs préservés sur version traduite
Transcription gratuite — comparatif 2026
Limites honnêtes des outils gratuits
Transcription vidéo en texte
Diarisation appliquée aux vidéos multi-locuteurs
MP3 et M4A en texte
Diarisation pour podcasts et entretiens audio
Générateur de sous-titres SRT
Sous-titres avec préfixe locuteur
Ajouter des sous-titres à une vidéo
Workflow sous-titres multi-locuteurs
Comment fonctionne la diarisation
Le pipeline classique en quatre étapes correspond à l'état de l'art 2026 (Pyannote 3.x, Whisper + diarisation, AssemblyAI). Les approches end-to-end (EEND) remplacent progressivement le pipeline mais restent minoritaires en production.
Pipeline en 4 étapes
Modèles open-source de référence en 2026 : Pyannote.audio 3.x (Hervé Bredin / Inria, le standard académique et industriel), WhisperX (Whisper + Pyannote en intégration légère), EEND-VC (NTT, approche end-to-end neuronale). Modèles propriétaires : AssemblyAI Universal-1, Deepgram Nova-3, Microsoft Azure Speech.