Vérifié juin 2026

Transcription vidéo en texte

Transcription IA pour vidéos en français — créateurs YouTube, formateurs en ligne, services communication, journalistes et chercheurs. Whisper Large-v3, précision Tier 1 (93-95 %), extraction audio automatique, export SRT/VTT pour sous-titres, traduction vers 133 langues, conformité RGPD avec hébergement de données en UE.

VexaScribe transcrit vos vidéos en français — MP4, MOV, MKV, WebM, AVI, FLV, WMV jusqu'à 5 Go et 10 heures par fichier. L'audio est extrait automatiquement de la piste vidéo — pas besoin de ffmpeg ni de conversion préalable. Comptez 5 à 10 minutes de traitement pour une vidéo d'une heure, avec 93-95 % de précision sur audio propre, étiquetage automatique des locuteurs, horodatages au mot près, et export vers TXT, DOCX, SRT, VTT ou JSON. Traduction intégrée vers 133 langues cibles — créez des sous-titres multilingues sans service tiers. Données stockées sur AWS eu-west-2 (Londres) — conformité RGPD. Pas d'entraînement IA sur vos enregistrements. 30 minutes gratuites à l'inscription.

30 min gratuitesMP4 / MOV / MKVSous-titres SRTHébergement UE

L'essentiel à retenir

  • Tous les formats vidéo standards supportés. MP4 (YouTube, smartphones), MOV (Apple), MKV (HD), WebM (web), AVI, FLV, WMV. Limite par fichier : 5 Go et 10 heures.
  • Pas d'extraction audio manuelle. L'audio est extrait automatiquement de la piste vidéo côté serveur — pas besoin de ffmpeg ni de HandBrake en amont.
  • Précision Tier 1 française : 93-95 % sur audio propre. Comparable à l'anglais. Une vidéo filmée en studio avec micro lavalier atteint 95-97 %.
  • Temps de traitement : 5-10 minutes pour 1 heure de vidéo. Contre ~6 heures pour une transcription humaine. Idéal pour workflow créateur quotidien.
  • Export SRT et VTT direct. Importez vos sous-titres dans Premiere Pro, DaVinci Resolve, Final Cut, CapCut, OBS, ou uploadez sur YouTube et Vimeo.
  • Traduction intégrée vers 133 langues. Créez des sous-titres multilingues sans service tiers — un SRT français + un SRT anglais + un SRT espagnol en quelques minutes.
  • Hébergement AWS eu-west-2 (Londres), résidence UE. Conforme RGPD. Pas d'entraînement IA sur vos vidéos — engagement contractuel explicite.

Comment transcrire une vidéo (3 étapes)

Workflow identique quel que soit le format (MP4, MOV, MKV…) ou la source (caméra, smartphone, capture d'écran, export YouTube).

  1. 1

    Téléchargez votre vidéo

    Glissez votre fichier vidéo dans VexaScribe. Tous les formats courants acceptés : MP4, MOV, MKV, WebM, AVI, FLV, WMV. Limite : 5 Go et 10 heures par fichier. Pour les vidéos plus grandes, compressez en MP4 1080p H.264 (HandBrake gratuit) ou découpez en segments.

  2. 2

    L'IA extrait l'audio et transcrit

    L'audio est extrait automatiquement de la piste vidéo, puis transcrit par Whisper Large-v3. Une vidéo d'une heure se traite en 5-10 minutes avec étiquetage automatique des locuteurs et horodatages au mot près. Détection automatique du français (France, Québec, Belgique, Suisse).

  3. 3

    Éditez et exportez

    Renommez les locuteurs, corrigez les noms propres et le jargon technique dans l'éditeur intégré. Traduisez si besoin vers une autre langue. Exportez SRT (sous-titres YouTube/Premiere), VTT (web HTML5), DOCX (Word), TXT (texte brut) ou JSON (données structurées).

Formats vidéo supportés

VexaScribe accepte tous les formats vidéo courants. Le format MP4 est le plus universel (sortie standard de YouTube, smartphones, OBS Studio), mais MOV (Apple) et MKV (HD haute qualité) sont également traités sans conversion préalable.

FormatCas d'usage typiqueTaille moyenne (1 h)Précision FR
MP4YouTube, formations en ligne, webinaires, smartphones (le plus courant)200-800 Mo / heure92-95 %
MOViPhone, Mac, Final Cut Pro, captation Apple500 Mo - 2 Go / heure93-96 %
MKVVidéo HD haute qualité, archives non compressées1-4 Go / heure93-95 %
WebMExport navigateur, OBS Studio, vidéos web200-600 Mo / heure90-94 %
AVIAnciens enregistrements Windows, capture vidéo legacy1-3 Go / heure89-93 %
FLVAnciens enregistrements Flash, archives 2005-2015100-400 Mo / heure85-90 %
WMVWindows Media, captations PowerPoint300-800 Mo / heure88-92 %

Pour les fichiers audio seuls (MP3, WAV, M4A, OGG), voir transcription audio en texte.

Cas d'usage par profession

La transcription vidéo IA sert six familles d'usage en France et dans la francophonie, chacune avec ses workflows propres.

Créateur de contenu YouTube / TikTok

Vidéos longues, shorts, vlogs, lives enregistrés

Workflow : export source de la vidéo → transcription VexaScribe → export SRT pour sous-titres YouTube + traduction EN/ES pour audience internationale. Avantage SEO sur YouTube : les vidéos avec sous-titres uploadés (vs auto-captions) ranquent mieux car le moteur YouTube indexe les sous-titres comme contenu textuel.

Formateur en ligne / EdTech

Cours Udemy, Teachable, LearnyBox, captations Zoom

Workflow : enregistrement du cours → transcription en moins de 10 min après le cours → export DOCX pour fiches récapitulatives + SRT pour sous-titres d'accessibilité (RGAA, WCAG 2.1). Les transcripts servent aussi à générer automatiquement des résumés de chapitres et des notes téléchargeables — ressources prisées par les apprenants.

Service marketing / communication

Webinaires, vidéos produit, lives événementiels

Workflow : captation du webinaire → transcription rapide → repurposing en article de blog 1200-1800 mots + extraits texte pour LinkedIn/Twitter + sous-titres pour vidéos verticales Instagram/TikTok. Un webinaire d'1h peut produire 3-5 pièces de contenu dérivées.

Journaliste vidéo / reporter

Captation terrain, interviews filmés, reportages

Workflow : enregistrement caméra ou smartphone → transcription pour rédaction article + extraction de verbatims clés. La diarisation automatique sépare l'interviewer de l'interviewé, accélère l'identification des passages à citer. Pas d'entraînement IA sur les vidéos — protection des sources confidentielles.

Chercheur en sciences humaines

Ethnographie visuelle, captations de conférences, entretiens filmés

Workflow : captation vidéo terrain → transcription pour codage CAQDAS (NVivo, ATLAS.ti, MAXQDA) + extraction frames clés via horodatages. Pour les entretiens vidéo, voir aussi la page dédiée transcription d'entretien (méthodologie RGPD spécifique).

RH / formation interne

Onboarding filmé, captations de réunions stratégiques, archives documentaires

Workflow : enregistrement filmé avec accord des participants → transcription archivée → export DOCX pour dossier projet ou compte rendu de réunion. Données hébergées en UE (Londres) — conformité RGPD critique pour données internes salariés.

Précision IA selon le type de vidéo

Le français est en Tier 1 de Whisper Large-v3 — environ 5-7 % de Word Error Rate sur audio propre, soit 93-95 % de précision. La précision réelle dépend principalement de la qualité du micro et de l'environnement d'enregistrement, pas du format vidéo en lui-même.

Type d'enregistrementPrécisionTemps de relecture
Vidéo studio (micro lavalier, salle traitée acoustiquement)95-97 %5-10 min/h
Vidéo Zoom / Teams / Meet (micro intégré laptop)88-92 %15-20 min/h
Vidéo smartphone face-cam (< 1m, environnement calme)87-91 %20-25 min/h
Vidéo de conférence (micro de salle, plusieurs intervenants)80-87 %25-35 min/h
Vidéo terrain (caméra sportive, vent, bruit ambiant)75-85 %30-40 min/h
Vidéo réseaux sociaux (mobile, voix proche caméra)88-92 %15-20 min/h
Vidéo cours en ligne (Udemy/Teachable, micro USB)92-95 %10-15 min/h

Les noms propres (marques, personnes, lieux) et le jargon technique restent à 20-30 % d'erreur — toujours relire avant publication. Pour les benchmarks Whisper détaillés voir précision Whisper (en anglais).

Extraction audio automatique

Vous uploadez votre fichier vidéo tel quel. Pas de pré-traitement, pas de conversion ffmpeg, pas de HandBrake en amont. Le pipeline côté serveur prend en charge l'extraction.

Pipeline technique en 4 étapes

  1. 1.Décodage du container vidéo — lecture du fichier MP4/MOV/MKV/etc. via ffmpeg côté serveur. Aucune action utilisateur requise.
  2. 2.Extraction de la piste audio — séparation de la piste audio de la piste vidéo. Si plusieurs pistes audio existent (commentaire + audio original), la première piste est utilisée par défaut.
  3. 3.Resampling 16 kHz mono — conversion à la résolution Whisper standard. La qualité audio brute est suffisante car Whisper a été entraîné sur des audios 16 kHz.
  4. 4.Transcription Whisper Large-v3 — modèle Transformer encoder-decoder, détection automatique de langue, génération de tokens textuels avec horodatages.

Vous ne payez ni temps ni minutes supplémentaires pour l'extraction audio — c'est compté dans le temps total de transcription (5-10 min pour 1 h de vidéo).

Sous-titres SRT et VTT

Deux formats d'export pour sous-titres, selon votre cible de diffusion.

Format SRT (SubRip)

Format universel — accepté par YouTube, Vimeo, Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro, CapCut, OBS Studio, VLC. C'est le format à utiliser par défaut pour 95 % des cas.

Idéal pour : YouTube, montage vidéo, archives

Format VTT (WebVTT)

Format pour lecteurs vidéo HTML5 sur sites web personnalisés. Intégration via <track kind="subtitles" src="x.vtt"> dans une balise <video>.

Idéal pour : intégration web, lecteurs JS personnalisés

Pour un guide complet sur le format SRT, l'intégration logicielle, et la conformité accessibilité (WCAG 2.1, RGAA), voir générateur SRT en français.

Traduire la vidéo en 133 langues cibles

Après transcription en français, traduisez en un clic vers anglais, espagnol, portugais, allemand, italien, japonais, mandarin, arabe, hindi, russe, et 124 autres langues. Workflow typique : créateur français qui veut atteindre une audience internationale.

Workflow sous-titres multilingues YouTube

  1. 1.Uploader la vidéo source dans VexaScribe (français détecté automatiquement)
  2. 2.Exporter SRT français (horodatages au mot près)
  3. 3.Cliquer Traduire → choisir anglais → exporter SRT anglais (horodatages préservés à l'identique)
  4. 4.Répéter pour espagnol, allemand, japonais selon votre audience cible
  5. 5.Uploader chaque SRT sur YouTube : Subtitles > Add language > Upload file

Économie vs traduction professionnelle : une agence facture 200-500 € pour traduire les sous-titres d'une vidéo d'1 heure. Avec VexaScribe, c'est inclus dans le plan mensuel. Pour le guide détaillé de la fonctionnalité voir transcrire et traduire un audio.

Comparatif des outils de transcription vidéo

Six outils principaux pour transcrire des vidéos en français. Critères clés : précision FR, hébergement de données (UE vs USA), formats d'export, et tarif effectif.

OutilModèleTarifUEIdéal pour
VexaScribeWhisper Large-v32-20 $/moisOui (Londres)Workflow vidéo créateur, formation, journalisme — meilleur rapport qualité/prix, traduction 133 langues incluse
AuthôtPropriétaire (FR)~0,20 €/minOui (France)Petits volumes occasionnels — service français, paie au volume
Otter.aiPropriétaire16,99-30 $/moisNon (USA)Réunions live audio principalement — moins adapté aux vidéos
DescriptWhisper + propriétaire12-24 $/moisNon (USA)Édition vidéo et transcription combinées dans le même outil
RevHumain + IA0,25-1,50 $/minVariableVerbatim certifié humain — pour usages juridiques ponctuels
Sous-titres auto YouTubePropriétaire GoogleGratuitVariableSous-titres rapides sur YouTube uniquement — ~80 % de précision FR, pas d'export

Tarifs vérifiés juin 2026. Voir aussi toutes les alternatives.

Tarifs et estimation de coût

Tarification VexaScribe en équivalent volumes de vidéo transcrite. Calcul basé sur des vidéos d'une heure en moyenne.

PlanPrixMinutes incluses≈ Vidéos d'1 h/moisPour qui ?
Essai gratuit0 $30 minutes uniques1 vidéo de 30 minTester avant de souscrire
Starter2 $/mois200 minutes/mois3 vidéos d'1 hCréateur occasionnel, formation ponctuelle
Basic5 $/mois1 000 minutes/mois16 vidéos d'1 hCréateur régulier, formateur indépendant
Pro10 $/mois2 500 minutes/mois41 vidéos d'1 hChaîne YouTube active, équipe communication, formateur EdTech
Studio20 $/mois6 000 minutes/mois100 vidéos d'1 hStudio de production, salle de rédaction, école en ligne

Coût effectif sur le plan Pro : ~0,24 $ par vidéo d'une heure. Voir détails complets sur la page tarifs.

Questions fréquentes

Comment transcrire une vidéo en français ?

Téléchargez votre fichier vidéo (MP4, MOV, MKV, WebM, AVI, FLV, WMV jusqu'à 5 Go et 10 heures) directement sur VexaScribe. L'audio est extrait automatiquement de la piste vidéo — pas besoin de ffmpeg ni de conversion préalable. Whisper Large-v3 d'OpenAI détecte automatiquement le français (Tier 1, précision 93-95 % sur audio propre) et génère la transcription en 5 à 10 minutes pour une vidéo d'une heure. Sortie : texte avec étiquetage automatique des locuteurs et horodatages au mot près, exportable en TXT, DOCX, SRT, VTT ou JSON. 30 minutes gratuites à l'inscription.

Quels formats vidéo sont supportés ?

Tous les formats vidéo courants : MP4 (le plus répandu, YouTube, smartphones, exports OBS), MOV (Apple, iPhone, Final Cut Pro), MKV (vidéo HD haute qualité), WebM (export navigateur et OBS Studio), AVI (anciens enregistrements Windows), FLV (anciens enregistrements Flash), WMV (Windows Media). Limite par fichier : 5 Go et 10 heures, ce qui couvre 99 % des cas — un cours en ligne de 2 heures en MP4 1080p fait typiquement 1-2 Go. Les pistes audio multiples sont gérées (commentaire + audio original) : la première piste est transcrite par défaut.

Faut-il extraire l'audio de la vidéo avant l'upload ?

Non. VexaScribe extrait automatiquement la piste audio côté serveur — vous uploadez votre MP4, MOV ou MKV tel quel. C'est un gain de temps significatif vs des solutions qui imposent une extraction manuelle avec ffmpeg ou HandBrake avant transcription. Le pipeline interne : décodage du container vidéo → extraction de la piste audio → resampling 16 kHz mono (résolution Whisper) → modèle de transcription. Vous n'avez aucune étape technique à gérer.

Quelle précision pour une vidéo YouTube ou un cours en ligne ?

Précision variable selon la qualité d'enregistrement. Vidéo studio bien micro-typée (formateur avec micro lavalier en salle traitée) : 95-97 % de précision. Vidéo Zoom ou Teams avec micro intégré laptop : 88-92 %. Vidéo smartphone à moins d'1 mètre (vlog face-cam) : 87-91 %. Vidéo de conférence ou webinaire en salle avec micro plafond : 80-87 %. Vidéo terrain (caméra sportive, drone, bruit ambiant) : 75-85 %. Le français est en Tier 1 de Whisper Large-v3, comparable à l'anglais en précision — la qualité du micro compte beaucoup plus que la langue.

Comment ajouter des sous-titres à ma vidéo après transcription ?

Exportez votre transcription au format SRT (sous-titres standard) ou VTT (HTML5 video) en un clic depuis l'éditeur VexaScribe. Le fichier SRT s'importe directement dans Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro X, CapCut, ou s'upload sur YouTube et Vimeo (Subtitles > Add language > Upload file). Pour les lecteurs vidéo HTML5 sur votre site web, le format VTT s'intègre via la balise `<track kind="subtitles" src="x.vtt">`. Voir la page dédiée au générateur SRT pour les détails d'intégration.

Combien coûte la transcription d'une vidéo d'une heure ?

Coût effectif sur le plan Pro VexaScribe (10 $/mois, 2 500 minutes incluses) : environ 0,24 $ par vidéo d'une heure transcrite. Sur le plan Starter (2 $/mois, 200 minutes) : 0,60 $ par vidéo. Pour comparaison : un transcripteur humain français facture 1,50-3 €/min, soit 90-180 € pour une vidéo d'1 heure. Les sous-titres automatiques YouTube sont gratuits mais leur précision FR plafonne à ~80 %, sans diarisation des locuteurs, sans export SRT vers d'autres plateformes.

Peut-on transcrire une vidéo de plus de 5 Go ?

La limite par fichier est de 5 Go et 10 heures. Si votre vidéo dépasse ces seuils, deux solutions. (1) Compresser en MP4 1080p H.264 à débit raisonnable (5-8 Mbps) — une vidéo de 4 heures en 1080p fait typiquement 7-10 Go en source, mais 3-4 Go après compression standard YouTube. HandBrake (gratuit) ou ffmpeg en ligne de commande gèrent ça en quelques minutes. (2) Découper la vidéo en segments de moins de 5 Go avec un outil d'édition. Ces deux approches préservent la qualité audio nécessaire à Whisper (16 kHz suffisent).

Mes vidéos sont-elles utilisées pour entraîner des modèles IA ?

Non. VexaScribe n'utilise pas vos vidéos ou transcriptions pour entraîner des modèles d'intelligence artificielle. C'est un engagement contractuel explicite, inscrit dans les conditions d'utilisation — pas une option opt-out par défaut. Différence importante avec certains concurrents américains qui peuvent utiliser les données utilisateurs par défaut pour améliorer leurs modèles. Pour les vidéos de formation interne, captations de réunions filmées, ou contenus avant publication, cette garantie de non-réutilisation est essentielle.

Peut-on traduire la transcription pour créer des sous-titres multilingues ?

Oui. Après transcription en français, cliquez sur Traduire dans l'éditeur pour convertir la transcription dans une des 133 langues cibles (anglais, espagnol, portugais, allemand, italien, japonais, mandarin, arabe…). Cas d'usage fréquent : un créateur français produit sa vidéo en FR, exporte un SRT français pour YouTube, puis génère SRT anglais + SRT espagnol pour atteindre l'audience internationale — trois fichiers à uploader comme tracks séparées sur YouTube. La traduction est incluse dans tous les plans payants, pas de facturation au caractère, pas de service tiers à connecter. Les horodatages sont préservés à l'identique entre les versions traduites.

Quelle différence avec les sous-titres automatiques YouTube ?

Trois différences majeures. (1) Précision FR : YouTube auto-captions tournent autour de 80 %, VexaScribe (Whisper Large-v3) atteint 93-95 %. La différence se voit clairement sur les noms propres, le jargon technique, et les chiffres. (2) Portabilité : les auto-captions YouTube ne sortent qu'au sein de YouTube ; VexaScribe exporte un fichier SRT que vous utilisez partout (Premiere, DaVinci, CapCut, votre site web). (3) Workflow : VexaScribe inclut diarisation des locuteurs, édition intégrée, traduction vers 133 langues. YouTube n'offre rien de cela. Pour un créateur, VexaScribe est l'amont du workflow ; YouTube ne sert qu'à l'hébergement final.

Méthodologie & sources

Les chiffres de précision en français (5-7 % WER Tier 1, 93-95 % sur audio propre) proviennent de (1) l'évaluation FLEURS française dans le papier technique Whisper d'OpenAI (septembre 2023), (2) reproductions sur Common Voice France, et (3) benchmarks internes VexaScribe sur 60 vidéos françaises couvrant les types listés dans le tableau de précision. Word Error Rate calculé selon la formule NIST standard.

Les tailles de fichier indicatives (200 Mo à 4 Go par heure selon le format et la résolution) reflètent des encodages standards : MP4 H.264 à 5-8 Mbps pour 1080p, MKV non compressé à 15-25 Mbps pour HD. Vérifiez les paramètres de votre logiciel d'encodage si vous approchez la limite de 5 Go.

Tarifs concurrents (Authôt ~0,20 €/min, Otter $16,99-$30/mois, Descript $12-24/mois, Rev $0,25-1,50/min) reflètent les prix publics affichés en juin 2026. Vérifiez sur les sites des éditeurs avant tout engagement.

VexaScribe est le produit derrière cette page ; les comparaisons aux autres outils visent à aider les créateurs, formateurs et professionnels francophones à choisir l'outil adapté à leur cadre, pas à dénigrer la concurrence. Pour le processus éditorial complet voir standards éditoriaux.

Testez sur votre prochaine vidéo

30 minutes de transcription vidéo gratuites. Sans carte bancaire. Tous formats acceptés (MP4, MOV, MKV, WebM, AVI). Données hébergées en UE (Londres), pas d'entraînement IA sur vos vidéos.

Guides associés