Vérifié juin 2026

Transcription IA en français

Comment fonctionne la transcription par intelligence artificielle, quels outils choisir en 2026, et comment éviter les pièges de confidentialité. Whisper Large-v3 (OpenAI), précision Tier 1 française (93-95 %), couverture 99 langues, comparatif des 10 principaux outils.

La transcription IA convertit la parole en texte par modèle de deep learning. Le standard 2026 est Whisper Large-v3 d'OpenAI (sortie 2023) — modèle encoder-decoder Transformer entraîné sur ~5 millions d'heures d'audio multilingue, 99 langues couvertes, 93-95 % de précision en français sur audio propre. VexaScribe utilise cette technologie pour offrir une transcription rapide (5-10 min par heure d'audio), abordable (forfait 2-20 $/mois), conforme RGPD (hébergement AWS eu-west-2 Londres), avec étiquetage automatique des locuteurs, édition intégrée, export multi-format (TXT, DOCX, SRT, VTT, JSON), et traduction vers 133 langues cibles. Pas d'entraînement IA sur vos données. 30 minutes gratuites à l'inscription.

Whisper Large-v393-95 % précision FRHébergement UEPas d'entraînement IA

L'essentiel à retenir

  • Whisper Large-v3 (OpenAI, sept. 2023) est le standard 2026. Seul modèle open-source comparable aux meilleurs propriétaires. Entraîné sur 5 M heures d'audio, 99 langues couvertes.
  • Précision FR : 93-95 % sur audio propre. Tier 1, comparable à l'anglais. La qualité du micro compte plus que l'accent régional (FR de France, Québec, Belgique, Suisse).
  • Workflow IA : upload → 5-10 min → édition légère → export. Économie temps massive : ~6 h en transcription humaine → 15-25 min en IA + relecture.
  • 100-300× moins cher qu'une transcription humaine. 0,003-0,01 €/min en IA vs 1,50-3 €/min en France pour transcription humaine non-spécialisée.
  • Pas pour tout. Verbatim certifié juridique, audio extrêmement bruité, dialectes très rares — l'humain reste meilleur. Pour 95 % des cas, l'IA suffit.
  • RGPD : choisir un outil avec hébergement UE et sans entraînement de modèles sur vos données. Services européens (VexaScribe, Authôt) vs services américains (Otter, Trint, Sonix) avec hébergement USA.
  • IA gratuit ≠ IA payant. Sous-titres auto YouTube (~80 % FR) vs Whisper Large-v3 (93-95 % FR). La différence se voit clairement sur noms propres, chiffres, jargon.

Qu'est-ce que la transcription IA ?

La transcription IA (intelligence artificielle) convertit automatiquement la parole en texte par modèle de machine learning. À distinguer de l'ASR (Automatic Speech Recognition) plus ancien — qui utilisait des techniques HMM/GMM ou DNN basiques — la transcription IA moderne s'appuie sur des architectures Transformer entraînées sur d'énormes corpus multilingues.

ASR traditionnel (2010-2020)

  • HMM-GMM ou DNN basiques (Dragon, IBM Watson)
  • Précision FR 70-85 % typique
  • Une langue à la fois, modèle entraîné spécifiquement
  • Exige environnement audio contrôlé et voix entraînée

Transcription IA moderne (2022+)

  • Modèles Transformer (Whisper, Conformer)
  • Précision FR 93-95 % sur audio propre
  • Multilangue natif (1 modèle, 99 langues)
  • Robuste : audio bruité, plusieurs locuteurs, accents

Familles de modèles dominantes en 2026 : Whisper (OpenAI, encoder-decoder), Conformer (Google, RNN-Transducer), USM (Google, Universal Speech Model). Whisper Large-v3 domine en open-source ; les modèles propriétaires (Google USM, AssemblyAI, Deepgram Nova) sont compétitifs mais accessibles uniquement via API payante.

Comment fonctionne (pipeline technique)

Le pipeline de transcription IA suit cinq étapes principales, de l'audio brut au texte avec horodatages. Comprendre ces étapes aide à anticiper la qualité de sortie selon la qualité d'entrée.

Pipeline en 5 étapes

  1. 1.
    Décodage audio — lecture du fichier source (MP3, WAV, MP4…) et conversion en signal audio brut PCM. Résolution standard 16 kHz mono pour Whisper (suffisant pour la voix humaine, fréquence Nyquist couvrant jusqu'à 8 kHz).
  2. 2.
    Découpage en fenêtres — fenêtres de 30 secondes (compromis Whisper entre contexte et complexité de calcul). Si l'audio est plus long, plusieurs fenêtres sont traitées séquentiellement avec recouvrement.
  3. 3.
    Extraction de features — calcul d'un spectrogramme log-mel (80 canaux mel-frequency, fenêtre 25 ms, hop 10 ms). Transformation du signal temporel en représentation fréquentielle compacte adaptée au modèle.
  4. 4.
    Encoder Transformer — 32 couches d'attention multi-tête pour Whisper Large-v3, qui transforment le spectrogramme en représentation contextuelle riche capturant le contenu acoustique et linguistique.
  5. 5.
    Decoder Transformer — génère les tokens textuels de manière auto-régressive (mot par mot), avec des tokens spéciaux pour la langue détectée, les horodatages, et les non-paroles (musique, silence).

Pourquoi Whisper couvre 99 langues : l'entraînement multilingue (680 000 heures supervisées + 4 M heures pseudo-labellisées) avec 17 % de données non-anglaises a appris au modèle des représentations partagées entre langues. Une seule architecture, un seul fichier de poids, 99 langues.

Précision IA vs humain par langue

La précision varie considérablement selon la langue. Whisper Large-v3 répartit les langues en trois tiers selon la quantité de données d'entraînement disponibles. Le français est en Tier 1, comparable à l'anglais.

LangueIA (Whisper)Humain expertNote
Anglais95-97 %98-99 %Tier 1, paire la plus mature
Français93-95 %98-99 %Tier 1, comparable à l'anglais
Espagnol94-96 %98-99 %Tier 1
Allemand94-96 %98-99 %Tier 1
Portugais94-96 %98-99 %Tier 1 (BR + PT)
Italien93-95 %98-99 %Tier 1
Néerlandais92-95 %98-99 %Tier 1
Russe88-92 %97-99 %Tier 2
Japonais90-93 %97-99 %Tier 2 (alphabet syllabique aide)
Mandarin (chinois simplifié)89-93 %97-99 %Tier 2
Coréen87-91 %97-99 %Tier 2
Arabe (standard)85-90 %96-98 %Tier 2, dialectes variables
Hindi87-91 %96-98 %Tier 2
Langues africaines majeures (swahili, hausa)75-85 %95-98 %Tier 3, données d'entraînement limitées

Chiffres mesurés en Word Error Rate (WER) sur les benchmarks FLEURS et Common Voice 2023-2025. La précision réelle dépend principalement de la qualité du micro et de l'environnement d'enregistrement — l'écart entre « audio studio propre » et « smartphone dans café bruyant » peut être de 10-15 points pour une même langue.

Cas d'usage par secteur

Six familles d'usage de la transcription IA en France et dans la francophonie, chacune avec ses contraintes propres (précision, confidentialité, conformité réglementaire).

Création de contenu

YouTube, podcasts, TikTok, Instagram, formations en ligne

Workflow : enregistrement → transcription IA → édition rapide → repurposing en articles de blog, sous-titres SRT, citations sociales. Économie de temps : 70-80 % vs sous-titrage manuel. ROI direct via accessibilité accrue (sourds et malentendants) et SEO (YouTube indexe les sous-titres uploadés).

Éducation / EdTech

Cours en ligne, captations Zoom/Teams, formations entreprise

Workflow : captation cours → transcript pour ressources téléchargeables + sous-titres d'accessibilité. Augmentation des taux de complétion : étudiants peuvent réviser via le texte plutôt que re-regarder la vidéo. Conforme RGAA (obligation universités publiques françaises) et WCAG.

Recherche académique

Entretiens semi-directifs, focus groups, captations terrain

Workflow : enregistrement → transcription IA → import CAQDAS (NVivo, ATLAS.ti, MAXQDA) → codage qualitatif. Économie : 6h de transcription manuelle → 30 min de relecture. Critique : hébergement UE pour conformité RGPD recherche, pas d'entraînement IA pour protection des données informateurs.

Santé / médical

Notes consultation, comptes rendus opératoires, télémédecine

Workflow : dictée vocale médecin → transcription → import dossier patient (DPI). Précision spécialisée : terminologie médicale FR atteint 90-93 % sur Whisper (jargon Latin, anatomie, pharmacopée). Confidentialité critique : hébergement UE obligatoire (CNIL pour données de santé), audit traçabilité, hébergement HDS recommandé pour cabinet/hôpital.

Journalisme / médias

Interviews, conférences de presse, sources confidentielles

Workflow : enregistrement smartphone/dictaphone → transcription rapide → rédaction article avec verbatims précis. Critique : pas d'entraînement IA pour protection des sources, hébergement UE pour conformité européenne, diarisation pour distinguer interviewé/interviewer. Workflow particulièrement utile pour correspondants couvrant des sujets sensibles.

RH / entreprise

Entretiens d'embauche, entretiens annuels, sortie collaborateurs

Workflow : enregistrement avec consentement (Code du travail L1222-4) → transcription → archivage dossier salarié. Précision : 92-95 % suffisante pour traçabilité administrative. Hébergement UE indispensable (RGPD, données personnelles salariés). Anonymisation requise si publication interne.

Comment utiliser un outil de transcription IA

Workflow universel pour exploiter la transcription IA en pratique — applicable à VexaScribe et à la plupart des concurrents.

  1. 1

    Choisir l'outil adapté

    Critères : précision FR (cherchez 90 %+), conformité RGPD (hébergement UE), formats acceptés (audio + vidéo), édition intégrée, traduction multilangue, tarif effectif au mois. Comparatif détaillé section suivante.

  2. 2

    Préparer l'audio

    La qualité du micro compte plus que tout. Privilégiez micro lavalier ou USB de qualité, pièce calme, distance micro-bouche < 30 cm. Format MP3 ou WAV pour audio, MP4 ou MOV pour vidéo.

  3. 3

    Uploader et attendre

    Glisser-déposer dans l'interface, l'IA détecte la langue automatiquement. Comptez 5-10 min pour 1 h de média. Diarisation et horodatages générés automatiquement.

  4. 4

    Éditer et exporter

    Renommer les locuteurs, corriger noms propres et jargon dans l'éditeur intégré. Exporter TXT (texte simple), DOCX (Word), SRT (sous-titres), VTT (web), JSON (données structurées). Traduire vers langue cible si besoin.

Conseil clé : prévoyez 10-15 minutes de relecture par heure d'audio même avec un outil très précis. Les 5-7 % d'erreurs typiques se concentrent sur les noms propres et le jargon, qui sont souvent les éléments les plus critiques de la transcription.

Comparatif des outils IA 2026

Dix outils principaux pour la transcription IA en français, des services cloud aux solutions locales open-source. Critères : modèle utilisé, précision FR, hébergement (UE vs USA), tarif effectif.

OutilModèlePrécision FRUETarifIdéal pour
VexaScribeWhisper Large-v393-95 % FROui (Londres)2-20 $/moisWorkflow complet francophone — transcription + diarisation + édition + traduction + multi-format
AuthôtPropriétaire (FR)90-93 % FROui (France)~0,20 €/min PAYGPetits volumes occasionnels — service français, paie au volume
Otter.aiPropriétaire88-92 % FRNon (USA)16,99-30 $/moisRéunions live en anglais — moins adapté aux contenus produits FR
TrintPropriétaire90-93 % FRVariable60-100 $/moisSalles de rédaction — workflow journalisme collaboratif
DescriptWhisper + propriétaire90-93 % FRNon (USA)12-24 $/moisÉdition vidéo et transcription combinées dans le même outil
RevIA + humain (hybride)93-95 % (IA) / 99 % (humain)Variable0,25-1,50 $/minVerbatim humain ponctuel pour besoins juridiques certifiés
SonixPropriétaire90-93 % FRNon (USA)5 $/h ou abonnementPAYG occasionnel — paiement à l'heure d'audio
Google Speech-to-TextPropriétaire (USM)90-93 % FRConfigurableAPI ~$0,024/minIntégration développeur via Google Cloud
OpenAI Whisper APIWhisper Large93-95 % FRNon (USA)$0,006/minIntégration développeur — modèle haute qualité, pas de UI
Whisper open-source (local)Whisper Large-v393-95 % FRLocalGratuit + coût GPUDevs avec contraintes confidentialité totale, volume non limité

Tarifs vérifiés juin 2026. Pour comparaisons détaillées par cas d'usage voir toutes les alternatives.

Transcription IA gratuite vs payante

Les options gratuites existent mais ne couvrent pas les cas d'usage professionnels. Quatre approches gratuites et leurs limites concrètes.

Sous-titres automatiques YouTube

Gratuit, ~80 % de précision FR. Pas d'export en dehors de YouTube, pas de diarisation des locuteurs, qualité visiblement inférieure aux outils dédiés. Convient pour : créateurs occasionnels qui ne diffusent que sur YouTube et ne valorisent pas la précision parfaite.

VexaScribe Essai gratuit (30 min)

Gratuit, qualité complète (93-95 % FR). 30 minutes uniques à l'inscription. Tous les formats d'export disponibles, diarisation incluse, hébergement UE. Convient pour : tester la qualité avant de souscrire.

Whisper open-source en local

Gratuit si GPU disponible, qualité maximale (93-95 % FR). Configuration : Python + PyTorch + whisper via pip. GPU NVIDIA avec 10 Go VRAM minimum. Confidentialité totale (rien ne quitte la machine). Convient pour : développeurs avec contraintes confidentialité strictes, volume non limité.

Notes Apple / Live Caption Android

Gratuit, transcription locale en temps réel. Qualité variable (85-92 % FR), pas d'export pratique, pas de diarisation. Convient pour : transcription rapide d'une conversation personnelle ou prise de notes.

Pour usage professionnel régulier — créateur, formateur, chercheur, journaliste, RH — un service payant (~2-20 $/mois) reste largement plus efficace que les options gratuites. Le gain en précision, en workflow d'édition, en export multi-format, et en conformité RGPD justifie largement le coût.

Confidentialité, RGPD et données d'entraînement

Question critique souvent négligée : « L'outil utilise-t-il vos audios pour entraîner ses modèles ? » Réponse variable selon les services, avec implications majeures pour sources confidentielles, données médicales, RH interne, données R&D.

OutilEntraînement IA par défaut ?Note
VexaScribeNonEngagement contractuel explicite, hébergement UE
Otter.aiOui (par défaut)Opt-out manuel requis dans les paramètres
Google Speech-to-TextConfigurableDépend des paramètres du projet Google Cloud
OpenAI Whisper APINonAPI différente de ChatGPT — pas d'entraînement
RevNonService principal, à vérifier pour API
TrintVariablePolitique varie selon le plan, à vérifier

Autres critères RGPD à vérifier avant de choisir un outil pour usage professionnel :

  • Hébergement des données en UE (RGPD article 44 sur les transferts internationaux)
  • Suppression contrôlée par l'utilisateur (article 17, droit à l'effacement)
  • Chiffrement en transit (TLS 1.2+) et au repos (AES-256)
  • Structure responsable/sous-traitant claire (article 4) — vous êtes responsable, l'outil est sous-traitant
  • DPA disponible (Data Processing Agreement) sur demande pour usage professionnel

Tarifs VexaScribe et estimation de coût

Tarifs VexaScribe en équivalence d'heures d'audio transcrites par mois. Comparaison avec coût équivalent transcription humaine.

PlanPrix VexaScribeMinutes inclusesÉquivalent transcription humaine
Essai gratuit0 $30 minutes uniques~ 75 € chez un transcripteur humain
Starter2 $/mois200 minutes/mois~ 500 €/mois en transcription humaine
Basic5 $/mois1 000 minutes/mois~ 2 500 €/mois en transcription humaine
Pro10 $/mois2 500 minutes/mois~ 6 250 €/mois en transcription humaine
Studio20 $/mois6 000 minutes/mois~ 15 000 €/mois en transcription humaine

Équivalent humain basé sur tarif moyen 2,50 €/min en France (transcripteur non-spécialisé, research-grade). Sur le plan Pro VexaScribe : ~0,004 $ par minute transcrite, soit ~ 625× moins cher qu'un transcripteur humain. Voir détails complets sur la page tarifs.

Questions fréquentes

Quelle différence entre transcription IA et ASR traditionnel ?

Trois différences majeures en performance et en couverture. (1) Précision : les systèmes ASR (Automatic Speech Recognition) traditionnels — Dragon NaturallySpeaking, IBM Watson 2018, Nuance — étaient basés sur HMM/GMM ou DNN basiques, plafonnant à 70-85 % de précision en français. Les modèles deep learning Transformer modernes (Whisper Large-v3 d'OpenAI, 2023) atteignent 93-95 % en français. (2) Multilangue : les ASR traditionnels étaient typiquement entraînés pour une langue à la fois ; Whisper couvre 99 langues avec un seul modèle. (3) Robustesse : les ASR traditionnels exigeaient un environnement audio contrôlé et une voix entraînée ; Whisper fonctionne sur audio bruité, plusieurs locuteurs, et accents régionaux sans configuration préalable.

Quel est le meilleur outil de transcription IA en français en 2026 ?

Le choix dépend de votre workflow et de vos contraintes. Pour usage régulier avec workflow complet (transcription + diarisation + édition + traduction + export multi-format) : VexaScribe (Whisper Large-v3, 93-95 % précision FR, hébergement UE, 2-20 $/mois forfait). Pour volume occasionnel sans engagement : Authôt (service français, ~0,20 €/min PAYG, hébergement France). Pour intégration développeur via API : Google Speech-to-Text ou OpenAI Whisper API (facturation à la minute). Pour confidentialité maximale en local : Whisper open-source sur votre propre GPU (gratuit mais setup technique requis). Pour réunions live en anglais : Otter.ai. Pour verbatim certifié juridique : Rev (humain + IA hybride).

La transcription IA gratuite existe-t-elle ?

Oui, sous plusieurs formes avec des qualités très différentes. (1) Sous-titres automatiques YouTube : gratuit, ~80 % de précision FR, pas d'export en dehors de YouTube, pas de diarisation. (2) VexaScribe Essai gratuit : 30 minutes uniques, qualité complète (93-95 % FR), tous formats d'export, idéal pour tester. (3) Whisper open-source en local : gratuit si vous avez un GPU NVIDIA, qualité maximale, mais requiert compétences techniques (installation, configuration). (4) Notes Apple, Live Caption Android : transcription locale en temps réel, qualité variable, idéal pour usage personnel ponctuel. Les outils gratuits ne couvrent pas les cas professionnels (édition collaborative, export multi-format, archivage, multilangue, conformité RGPD documentée).

Quelle précision attendre en français pour la transcription IA ?

Le français est en Tier 1 de Whisper Large-v3 — environ 5-7 % de Word Error Rate (WER) sur audio propre, soit 93-95 % de précision. Comparable à l'anglais. La précision réelle varie selon les conditions d'enregistrement : 95-97 % en studio (micro lavalier, salle traitée), 92-95 % en bureau avec micro USB correct, 88-92 % avec micro intégré laptop, 80-88 % en environnement bruité. Les noms propres (marques, personnes, lieux) et le jargon technique spécialisé restent à 20-30 % d'erreur — toujours relire avant publication. Le français québécois, belge et suisse fonctionnent bien (l'accent compte moins que la clarté du micro).

Quand vaut-il mieux utiliser un transcripteur humain plutôt que l'IA ?

Cinq cas où l'humain reste meilleur. (1) Verbatim certifié pour usage juridique (dépositions, témoignages, contrats) — la valeur probante exige un transcripteur assermenté avec cachet officiel. (2) Audio extrêmement bruité (enregistrement police, captation discrète, vieux enregistrements audio) où l'IA descend en dessous de 75 %. (3) Dialectes très rares non couverts par Whisper (langues régionales peu ressourcées). (4) Contenu hautement technique avec vocabulaire spécialisé (terminologie médicale rare, formules mathématiques verbalisées). (5) Publication formelle qui exige le verbatim absolu (fidélité aux hésitations, faux départs, répétitions). Pour 95 % des cas — recherche, journalisme, formation, podcast, vidéo — l'IA est largement suffisante.

Mes données audio sont-elles utilisées pour entraîner des modèles IA ?

Variable selon l'outil. VexaScribe : NON, engagement contractuel explicite — vos audios et transcriptions ne sont jamais utilisés pour entraîner des modèles. Otter.ai : OUI par défaut, opt-out manuel requis dans les paramètres. Google Speech-to-Text : configurable selon les paramètres de votre projet Google Cloud. OpenAI Whisper API : NON pour les requêtes API (différent de ChatGPT). Rev : NON pour le service principal. Vérifiez systématiquement la politique de chaque service avant utilisation pour des données sensibles (sources journalistiques, données médicales, RH interne, R&D confidentielle, entretiens de recherche soumis à consentement).

Peut-on faire tourner Whisper localement sur son ordinateur ?

Oui. Whisper est open-source (licence MIT) et peut tourner localement avec une carte graphique NVIDIA. Configuration minimale : GPU avec 10 Go de VRAM pour Whisper Large-v3 (RTX 3090, RTX 4080, RTX 4090). Installation : Python + PyTorch + whisper via pip, ou outils comme WhisperX (avec diarisation), faster-whisper (optimisé), ou Buzz (interface graphique gratuite). Avantages : zéro coût récurrent, confidentialité totale (rien ne quitte votre machine), pas de limite de volume. Inconvénients : setup technique requis, vitesse plus lente que VexaScribe (sans optimisations cloud), pas de diarisation par défaut (intégration manuelle), pas d'export multi-format, pas de traduction intégrée. Pour les développeurs et les cas d'usage où la confidentialité est critique, c'est une excellente option ; pour la majorité des utilisateurs professionnels, un service cloud comme VexaScribe est plus efficace.

La transcription IA est-elle conforme RGPD ?

Cela dépend du service utilisé, pas de la technologie en elle-même. Critères de conformité RGPD pour un outil de transcription IA : (1) hébergement des données en UE (article 44 RGPD sur les transferts internationaux) — VexaScribe stocke sur AWS eu-west-2 Londres ; (2) pas d'entraînement de modèles sur vos données (consentement explicite requis sinon) ; (3) suppression contrôlée par l'utilisateur (droit à l'effacement, article 17) ; (4) chiffrement en transit (TLS 1.2+) et au repos (AES-256) ; (5) structure responsable/sous-traitant claire (article 4) ; (6) DPA disponible sur demande pour usage professionnel. Différenciateur clé entre services européens (VexaScribe, Authôt) et services américains (Otter, Trint, Sonix, Descript) qui hébergent généralement aux USA — le transfert vers les USA reste juridiquement contesté depuis l'arrêt Schrems II (2020).

Combien de temps pour transcrire 1 heure d'audio par IA ?

5 à 10 minutes en moyenne sur un service cloud comme VexaScribe (Whisper Large-v3 sur GPU optimisé). Le temps inclut l'upload du fichier, le traitement par le modèle, et la génération des horodatages. Variations : un fichier court (< 10 min) se traite en moins d'1 minute ; un fichier long (5-10 h) peut prendre 30-60 minutes. Pour comparaison : un transcripteur humain professionnel prend 4-6 heures de travail pour produire 1 heure de transcription propre (incluant relecture). Whisper en local sur GPU consumer (RTX 4090) : ~10-15 minutes pour 1 h d'audio. Whisper en local sur CPU : plusieurs heures — peu pratique. C'est ce gain de vitesse 50-100× qui rend l'IA transformatrice pour les workflows à volume (chercheur avec 50 entretiens, podcasteur hebdomadaire, formateur EdTech).

La transcription IA gère-t-elle les accents régionaux français ?

Oui, plutôt bien. Whisper Large-v3 a été entraîné sur ~5 millions d'heures d'audio multilingue incluant du français de France métropolitaine, du français québécois, du français belge, du français suisse, et du français africain (notamment sénégalais, ivoirien, congolais). Précisions typiques : français de France standard 93-95 % ; français québécois 92-94 % ; français belge et suisse 92-95 % ; français africains variables 88-92 %. L'accent régional compte beaucoup moins que la qualité du micro et l'environnement d'enregistrement — un Québécois enregistré au micro lavalier en salle traitée sera mieux transcrit qu'un Parisien enregistré au smartphone dans un café bruyant. Les variantes régionales du vocabulaire sont gérées (poutine, char, dépanneur en québécois ; nonante, septante en belge/suisse) mais les expressions très locales peuvent générer des erreurs.

Méthodologie & sources

Les chiffres de précision Whisper Large-v3 par langue proviennent du papier technique OpenAI « Robust Speech Recognition via Large-Scale Weak Supervision » (Radford et al., septembre 2023) et des benchmarks publics FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech, Google 2022) et Common Voice (Mozilla, mis à jour 2024-2025). Word Error Rate calculé selon la formule NIST standard.

Le pipeline technique décrit (16 kHz mono, fenêtres 30 s, log-mel 80 canaux, encoder-decoder Transformer 32 couches) correspond à l'architecture officielle Whisper Large-v3 documentée par OpenAI.

Les tarifs concurrents (Authôt ~0,20 €/min, Otter $16,99-$30/mois, Trint $60-$100/mois, Descript $12-24/mois, Rev $0,25-1,50/min, Sonix ~$5/h, Google Speech-to-Text ~$0,024/min, OpenAI Whisper API $0,006/min, transcription humaine FR 1,50-3 €/min) reflètent les prix publics affichés en juin 2026. Vérifiez sur les sites des éditeurs avant tout engagement.

Les politiques d'entraînement de modèles citées (Otter opt-out par défaut, Google configurable, VexaScribe non) reflètent les politiques publiques affichées en juin 2026. Ces politiques peuvent évoluer — vérifiez systématiquement avant d'utiliser un service pour des données sensibles.

VexaScribe est le produit derrière cette page ; les comparaisons aux autres outils visent à aider les utilisateurs francophones à choisir l'outil adapté à leur cadre, pas à dénigrer la concurrence. Pour le processus éditorial complet voir standards éditoriaux.

Testez la transcription IA gratuitement

30 minutes de transcription Whisper Large-v3 gratuites. Sans carte bancaire. Précision Tier 1 française, hébergement UE (Londres), pas d'entraînement IA sur vos données.

Guides associés