Transcription vidéo en texte — IA Whisper, MP4/MOV/MKV

L'essentiel à retenir

●Tous les formats vidéo standards supportés. MP4 (YouTube, smartphones), MOV (Apple), MKV (HD), WebM (web), AVI, FLV, WMV. Limite par fichier : 5 Go et 10 heures.
●Pas d'extraction audio manuelle. L'audio est extrait automatiquement de la piste vidéo côté serveur — pas besoin de ffmpeg ni de HandBrake en amont.
●Précision Tier 1 française : 93-95 % sur audio propre. Comparable à l'anglais. Une vidéo filmée en studio avec micro lavalier atteint 95-97 %.
●Temps de traitement : 5-10 minutes pour 1 heure de vidéo. Contre ~6 heures pour une transcription humaine. Idéal pour workflow créateur quotidien.
●Export SRT et VTT direct. Importez vos sous-titres dans Premiere Pro, DaVinci Resolve, Final Cut, CapCut, OBS, ou uploadez sur YouTube et Vimeo.
●Traduction intégrée vers 133 langues. Créez des sous-titres multilingues sans service tiers — un SRT français + un SRT anglais + un SRT espagnol en quelques minutes.
●Hébergement AWS eu-west-2 (Londres), résidence UE. Conforme RGPD. Pas d'entraînement IA sur vos vidéos — engagement contractuel explicite.

Comment transcrire une vidéo (3 étapes)

Workflow identique quel que soit le format (MP4, MOV, MKV…) ou la source (caméra, smartphone, capture d'écran, export YouTube).

1
Téléchargez votre vidéo
Glissez votre fichier vidéo dans VexaScribe. Tous les formats courants acceptés : MP4, MOV, MKV, WebM, AVI, FLV, WMV. Limite : 5 Go et 10 heures par fichier. Pour les vidéos plus grandes, compressez en MP4 1080p H.264 (HandBrake gratuit) ou découpez en segments.
2
L'IA extrait l'audio et transcrit
L'audio est extrait automatiquement de la piste vidéo, puis transcrit par Whisper Large-v3. Une vidéo d'une heure se traite en 5-10 minutes avec étiquetage automatique des locuteurs et horodatages au mot près. Détection automatique du français (France, Québec, Belgique, Suisse).
3
Éditez et exportez
Renommez les locuteurs, corrigez les noms propres et le jargon technique dans l'éditeur intégré. Traduisez si besoin vers une autre langue. Exportez SRT (sous-titres YouTube/Premiere), VTT (web HTML5), DOCX (Word), TXT (texte brut) ou JSON (données structurées).

Formats vidéo supportés

VexaScribe accepte tous les formats vidéo courants. Le format MP4 est le plus universel (sortie standard de YouTube, smartphones, OBS Studio), mais MOV (Apple) et MKV (HD haute qualité) sont également traités sans conversion préalable.

Format	Cas d'usage typique	Taille moyenne (1 h)	Précision FR
MP4	YouTube, formations en ligne, webinaires, smartphones (le plus courant)	200-800 Mo / heure	92-95 %
MOV	iPhone, Mac, Final Cut Pro, captation Apple	500 Mo - 2 Go / heure	93-96 %
MKV	Vidéo HD haute qualité, archives non compressées	1-4 Go / heure	93-95 %
WebM	Export navigateur, OBS Studio, vidéos web	200-600 Mo / heure	90-94 %
AVI	Anciens enregistrements Windows, capture vidéo legacy	1-3 Go / heure	89-93 %
FLV	Anciens enregistrements Flash, archives 2005-2015	100-400 Mo / heure	85-90 %
WMV	Windows Media, captations PowerPoint	300-800 Mo / heure	88-92 %

Pour les fichiers audio seuls (MP3, WAV, M4A, OGG), voir transcription audio en texte.

Cas d'usage par profession

La transcription vidéo IA sert six familles d'usage en France et dans la francophonie, chacune avec ses workflows propres.

Créateur de contenu YouTube / TikTok

Vidéos longues, shorts, vlogs, lives enregistrés

Workflow : export source de la vidéo → transcription VexaScribe → export SRT pour sous-titres YouTube + traduction EN/ES pour audience internationale. Avantage SEO sur YouTube : les vidéos avec sous-titres uploadés (vs auto-captions) ranquent mieux car le moteur YouTube indexe les sous-titres comme contenu textuel.

Formateur en ligne / EdTech

Cours Udemy, Teachable, LearnyBox, captations Zoom

Workflow : enregistrement du cours → transcription en moins de 10 min après le cours → export DOCX pour fiches récapitulatives + SRT pour sous-titres d'accessibilité (RGAA, WCAG 2.1). Les transcripts servent aussi à générer automatiquement des résumés de chapitres et des notes téléchargeables — ressources prisées par les apprenants.

Service marketing / communication

Webinaires, vidéos produit, lives événementiels

Workflow : captation du webinaire → transcription rapide → repurposing en article de blog 1200-1800 mots + extraits texte pour LinkedIn/Twitter + sous-titres pour vidéos verticales Instagram/TikTok. Un webinaire d'1h peut produire 3-5 pièces de contenu dérivées.

Journaliste vidéo / reporter

Captation terrain, interviews filmés, reportages

Workflow : enregistrement caméra ou smartphone → transcription pour rédaction article + extraction de verbatims clés. La diarisation automatique sépare l'interviewer de l'interviewé, accélère l'identification des passages à citer. Pas d'entraînement IA sur les vidéos — protection des sources confidentielles.

Chercheur en sciences humaines

Ethnographie visuelle, captations de conférences, entretiens filmés

Workflow : captation vidéo terrain → transcription pour codage CAQDAS (NVivo, ATLAS.ti, MAXQDA) + extraction frames clés via horodatages. Pour les entretiens vidéo, voir aussi la page dédiée transcription d'entretien (méthodologie RGPD spécifique).

RH / formation interne

Onboarding filmé, captations de réunions stratégiques, archives documentaires

Workflow : enregistrement filmé avec accord des participants → transcription archivée → export DOCX pour dossier projet ou compte rendu de réunion. Données hébergées en UE (Londres) — conformité RGPD critique pour données internes salariés.

Précision IA selon le type de vidéo

Le français est en Tier 1 de Whisper Large-v3 — environ 5-7 % de Word Error Rate sur audio propre, soit 93-95 % de précision. La précision réelle dépend principalement de la qualité du micro et de l'environnement d'enregistrement, pas du format vidéo en lui-même.

Type d'enregistrement	Précision	Temps de relecture
Vidéo studio (micro lavalier, salle traitée acoustiquement)	95-97 %	5-10 min/h
Vidéo Zoom / Teams / Meet (micro intégré laptop)	88-92 %	15-20 min/h
Vidéo smartphone face-cam (< 1m, environnement calme)	87-91 %	20-25 min/h
Vidéo de conférence (micro de salle, plusieurs intervenants)	80-87 %	25-35 min/h
Vidéo terrain (caméra sportive, vent, bruit ambiant)	75-85 %	30-40 min/h
Vidéo réseaux sociaux (mobile, voix proche caméra)	88-92 %	15-20 min/h
Vidéo cours en ligne (Udemy/Teachable, micro USB)	92-95 %	10-15 min/h

Les noms propres (marques, personnes, lieux) et le jargon technique restent à 20-30 % d'erreur — toujours relire avant publication. Pour les benchmarks Whisper détaillés voir précision Whisper (en anglais).

Extraction audio automatique

Vous uploadez votre fichier vidéo tel quel. Pas de pré-traitement, pas de conversion ffmpeg, pas de HandBrake en amont. Le pipeline côté serveur prend en charge l'extraction.

Pipeline technique en 4 étapes

1.Décodage du container vidéo — lecture du fichier MP4/MOV/MKV/etc. via ffmpeg côté serveur. Aucune action utilisateur requise.
2.Extraction de la piste audio — séparation de la piste audio de la piste vidéo. Si plusieurs pistes audio existent (commentaire + audio original), la première piste est utilisée par défaut.
3.Resampling 16 kHz mono — conversion à la résolution Whisper standard. La qualité audio brute est suffisante car Whisper a été entraîné sur des audios 16 kHz.
4.Transcription Whisper Large-v3 — modèle Transformer encoder-decoder, détection automatique de langue, génération de tokens textuels avec horodatages.

Vous ne payez ni temps ni minutes supplémentaires pour l'extraction audio — c'est compté dans le temps total de transcription (5-10 min pour 1 h de vidéo).

Sous-titres SRT et VTT

Deux formats d'export pour sous-titres, selon votre cible de diffusion.

Format SRT (SubRip)

Format universel — accepté par YouTube, Vimeo, Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro, CapCut, OBS Studio, VLC. C'est le format à utiliser par défaut pour 95 % des cas.

Idéal pour : YouTube, montage vidéo, archives

Format VTT (WebVTT)

Format pour lecteurs vidéo HTML5 sur sites web personnalisés. Intégration via <track kind="subtitles" src="x.vtt"> dans une balise <video>.

Idéal pour : intégration web, lecteurs JS personnalisés

Pour un guide complet sur le format SRT, l'intégration logicielle, et la conformité accessibilité (WCAG 2.1, RGAA), voir générateur SRT en français.

Traduire la vidéo en 133 langues cibles

Après transcription en français, traduisez en un clic vers anglais, espagnol, portugais, allemand, italien, japonais, mandarin, arabe, hindi, russe, et 124 autres langues. Workflow typique : créateur français qui veut atteindre une audience internationale.

Workflow sous-titres multilingues YouTube

1.Uploader la vidéo source dans VexaScribe (français détecté automatiquement)
2.Exporter SRT français (horodatages au mot près)
3.Cliquer Traduire → choisir anglais → exporter SRT anglais (horodatages préservés à l'identique)
4.Répéter pour espagnol, allemand, japonais selon votre audience cible
5.Uploader chaque SRT sur YouTube : Subtitles > Add language > Upload file

Économie vs traduction professionnelle : une agence facture 200-500 € pour traduire les sous-titres d'une vidéo d'1 heure. Avec VexaScribe, c'est inclus dans le plan mensuel. Pour le guide détaillé de la fonctionnalité voir transcrire et traduire un audio.

Comparatif des outils de transcription vidéo

Six outils principaux pour transcrire des vidéos en français. Critères clés : précision FR, hébergement de données (UE vs USA), formats d'export, et tarif effectif.

Outil	Modèle	Tarif	UE	Idéal pour
VexaScribe	Whisper Large-v3	2-20 $/mois	Oui (Londres)	Workflow vidéo créateur, formation, journalisme — meilleur rapport qualité/prix, traduction 133 langues incluse
Authôt	Propriétaire (FR)	~0,20 €/min	Oui (France)	Petits volumes occasionnels — service français, paie au volume
Otter.ai	Propriétaire	16,99-30 $/mois	Non (USA)	Réunions live audio principalement — moins adapté aux vidéos
Descript	Whisper + propriétaire	12-24 $/mois	Non (USA)	Édition vidéo et transcription combinées dans le même outil
Rev	Humain + IA	0,25-1,50 $/min	Variable	Verbatim certifié humain — pour usages juridiques ponctuels
Sous-titres auto YouTube	Propriétaire Google	Gratuit	Variable	Sous-titres rapides sur YouTube uniquement — ~80 % de précision FR, pas d'export

Tarifs vérifiés juin 2026. Voir aussi toutes les alternatives.

Tarifs et estimation de coût

Tarification VexaScribe en équivalent volumes de vidéo transcrite. Calcul basé sur des vidéos d'une heure en moyenne.

Plan	Prix	Minutes incluses	≈ Vidéos d'1 h/mois	Pour qui ?
Essai gratuit	0 $	30 minutes uniques	1 vidéo de 30 min	Tester avant de souscrire
Starter	2 $/mois	200 minutes/mois	3 vidéos d'1 h	Créateur occasionnel, formation ponctuelle
Basic	5 $/mois	1 000 minutes/mois	16 vidéos d'1 h	Créateur régulier, formateur indépendant
Pro	10 $/mois	2 500 minutes/mois	41 vidéos d'1 h	Chaîne YouTube active, équipe communication, formateur EdTech
Studio	20 $/mois	6 000 minutes/mois	100 vidéos d'1 h	Studio de production, salle de rédaction, école en ligne

Coût effectif sur le plan Pro : ~0,24 $ par vidéo d'une heure. Voir détails complets sur la page tarifs.

Questions fréquentes

Comment transcrire une vidéo en français ?

Téléchargez votre fichier vidéo (MP4, MOV, MKV, WebM, AVI, FLV, WMV jusqu'à 5 Go et 10 heures) directement sur VexaScribe. L'audio est extrait automatiquement de la piste vidéo — pas besoin de ffmpeg ni de conversion préalable. Whisper Large-v3 d'OpenAI détecte automatiquement le français (Tier 1, précision 93-95 % sur audio propre) et génère la transcription en 5 à 10 minutes pour une vidéo d'une heure. Sortie : texte avec étiquetage automatique des locuteurs et horodatages au mot près, exportable en TXT, DOCX, SRT, VTT ou JSON. 30 minutes gratuites à l'inscription.

Quels formats vidéo sont supportés ?

Tous les formats vidéo courants : MP4 (le plus répandu, YouTube, smartphones, exports OBS), MOV (Apple, iPhone, Final Cut Pro), MKV (vidéo HD haute qualité), WebM (export navigateur et OBS Studio), AVI (anciens enregistrements Windows), FLV (anciens enregistrements Flash), WMV (Windows Media). Limite par fichier : 5 Go et 10 heures, ce qui couvre 99 % des cas — un cours en ligne de 2 heures en MP4 1080p fait typiquement 1-2 Go. Les pistes audio multiples sont gérées (commentaire + audio original) : la première piste est transcrite par défaut.

Faut-il extraire l'audio de la vidéo avant l'upload ?

Non. VexaScribe extrait automatiquement la piste audio côté serveur — vous uploadez votre MP4, MOV ou MKV tel quel. C'est un gain de temps significatif vs des solutions qui imposent une extraction manuelle avec ffmpeg ou HandBrake avant transcription. Le pipeline interne : décodage du container vidéo → extraction de la piste audio → resampling 16 kHz mono (résolution Whisper) → modèle de transcription. Vous n'avez aucune étape technique à gérer.

Quelle précision pour une vidéo YouTube ou un cours en ligne ?

Précision variable selon la qualité d'enregistrement. Vidéo studio bien micro-typée (formateur avec micro lavalier en salle traitée) : 95-97 % de précision. Vidéo Zoom ou Teams avec micro intégré laptop : 88-92 %. Vidéo smartphone à moins d'1 mètre (vlog face-cam) : 87-91 %. Vidéo de conférence ou webinaire en salle avec micro plafond : 80-87 %. Vidéo terrain (caméra sportive, drone, bruit ambiant) : 75-85 %. Le français est en Tier 1 de Whisper Large-v3, comparable à l'anglais en précision — la qualité du micro compte beaucoup plus que la langue.

Comment ajouter des sous-titres à ma vidéo après transcription ?

Exportez votre transcription au format SRT (sous-titres standard) ou VTT (HTML5 video) en un clic depuis l'éditeur VexaScribe. Le fichier SRT s'importe directement dans Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro X, CapCut, ou s'upload sur YouTube et Vimeo (Subtitles > Add language > Upload file). Pour les lecteurs vidéo HTML5 sur votre site web, le format VTT s'intègre via la balise `<track kind="subtitles" src="x.vtt">`. Voir la page dédiée au générateur SRT pour les détails d'intégration.

Combien coûte la transcription d'une vidéo d'une heure ?

Coût effectif sur le plan Pro VexaScribe (10 $/mois, 2 500 minutes incluses) : environ 0,24 $ par vidéo d'une heure transcrite. Sur le plan Starter (2 $/mois, 200 minutes) : 0,60 $ par vidéo. Pour comparaison : un transcripteur humain français facture 1,50-3 €/min, soit 90-180 € pour une vidéo d'1 heure. Les sous-titres automatiques YouTube sont gratuits mais leur précision FR plafonne à ~80 %, sans diarisation des locuteurs, sans export SRT vers d'autres plateformes.

Peut-on transcrire une vidéo de plus de 5 Go ?

La limite par fichier est de 5 Go et 10 heures. Si votre vidéo dépasse ces seuils, deux solutions. (1) Compresser en MP4 1080p H.264 à débit raisonnable (5-8 Mbps) — une vidéo de 4 heures en 1080p fait typiquement 7-10 Go en source, mais 3-4 Go après compression standard YouTube. HandBrake (gratuit) ou ffmpeg en ligne de commande gèrent ça en quelques minutes. (2) Découper la vidéo en segments de moins de 5 Go avec un outil d'édition. Ces deux approches préservent la qualité audio nécessaire à Whisper (16 kHz suffisent).

Mes vidéos sont-elles utilisées pour entraîner des modèles IA ?

Non. VexaScribe n'utilise pas vos vidéos ou transcriptions pour entraîner des modèles d'intelligence artificielle. C'est un engagement contractuel explicite, inscrit dans les conditions d'utilisation — pas une option opt-out par défaut. Différence importante avec certains concurrents américains qui peuvent utiliser les données utilisateurs par défaut pour améliorer leurs modèles. Pour les vidéos de formation interne, captations de réunions filmées, ou contenus avant publication, cette garantie de non-réutilisation est essentielle.

Peut-on traduire la transcription pour créer des sous-titres multilingues ?

Oui. Après transcription en français, cliquez sur Traduire dans l'éditeur pour convertir la transcription dans une des 133 langues cibles (anglais, espagnol, portugais, allemand, italien, japonais, mandarin, arabe…). Cas d'usage fréquent : un créateur français produit sa vidéo en FR, exporte un SRT français pour YouTube, puis génère SRT anglais + SRT espagnol pour atteindre l'audience internationale — trois fichiers à uploader comme tracks séparées sur YouTube. La traduction est incluse dans tous les plans payants, pas de facturation au caractère, pas de service tiers à connecter. Les horodatages sont préservés à l'identique entre les versions traduites.

Vidéo ou audio — quel outil pour quel job ?

Simple règle. (1) Vidéo (MP4, MOV, MKV) : utilisez cette page. Cas typiques — cours en ligne enregistré, replay Zoom/Teams sauvegardé en local, vidéo YouTube que vous avez produite, captation d'événement filmé, tutoriel écran. L'audio est extrait automatiquement du container vidéo. (2) Audio seul (MP3, WAV, M4A) : passez par notre page /fr/transcription-audio-en-texte. Cas typiques — enregistrement dictaphone, mémo vocal iPhone, épisode de podcast, appel téléphonique enregistré. (3) Interview filmée spécifiquement : notre page /fr/transcription-entretien couvre le workflow qualitatif (verbatim, timestamps de citation, export CAQDAS pour NVivo/ATLAS.ti). (4) Réunion visio à transcrire en direct pendant l'appel : /fr/transcription-reunion — bot de conférence live. La différence pratique : vidéo = extraction audio automatique côté serveur, audio = pipeline plus court donc légèrement plus rapide. Précision identique en français (93-95 % Tier 1 Whisper Large-v3).

Quel est le meilleur logiciel de transcription vidéo en 2026 ?

Dépend de vos priorités. Sur audio propre en français, quatre outils Whisper-based dominent la précision (93-95 %) : VexaScribe (2 $/mois, données UE Londres, engagement de non-entraînement IA), TurboScribe (10 $/mois, données US, plus rapide sur gros fichiers), Notta (14 $/mois, données US/JP, riche en intégrations meeting), Sonix (10 $/mois puis à l'heure, données US, vocabulaire personnalisé). YouTube auto-captions (gratuit) plafonne à ~80 % en français — insuffisant pour une chaîne professionnelle. Rev AI ($0,25/min) est cher pour un créateur régulier vs abonnements plats. Descript (24 $/mois) est excellent si vous voulez éditer la vidéo en éditant le texte (rare workflow). Recommandation typique : commencez par les 30 min gratuites de VexaScribe (précision et prix bas, hébergement UE pour créateurs francophones sensibles au RGPD), passez à Descript si l'édition-par-texte est votre besoin principal.

Comment transcrire une interview vidéo (entretien filmé) ?

Workflow spécifique pour interviews et entretiens qualitatifs. (1) Uploadez la vidéo (MP4, MOV) — audio extrait automatiquement. (2) Activez la diarisation des locuteurs — VexaScribe étiquette Speaker 1, Speaker 2… jusqu'à 10 intervenants distincts. Renommez « Speaker 1 » en « Intervieweur » et « Speaker 2 » en « Participant » via l'éditeur intégré. (3) Choisissez le format d'export selon l'usage : DOCX si vous relisez ou citez, TXT+timestamps si vous importez dans NVivo/ATLAS.ti pour analyse qualitative, SRT si vous prévoyez de diffuser des extraits sous-titrés. (4) Pour un projet de recherche avec 20-50 entretiens, utilisez notre workflow bulk (/bulk-transcription) — up to 50 fichiers par batch, tarif fixe. Notre page dédiée /fr/transcription-entretien couvre la méthodologie détaillée (RGPD consentement, DPA pour laboratoires, format verbatim vs propre).

Quelle différence avec les sous-titres automatiques YouTube ?

Trois différences majeures. (1) Précision FR : YouTube auto-captions tournent autour de 80 %, VexaScribe (Whisper Large-v3) atteint 93-95 %. La différence se voit clairement sur les noms propres, le jargon technique, et les chiffres. (2) Portabilité : les auto-captions YouTube ne sortent qu'au sein de YouTube ; VexaScribe exporte un fichier SRT que vous utilisez partout (Premiere, DaVinci, CapCut, votre site web). (3) Workflow : VexaScribe inclut diarisation des locuteurs, édition intégrée, traduction vers 133 langues. YouTube n'offre rien de cela. Pour un créateur, VexaScribe est l'amont du workflow ; YouTube ne sert qu'à l'hébergement final.

Méthodologie & sources

Les chiffres de précision en français (5-7 % WER Tier 1, 93-95 % sur audio propre) proviennent de (1) l'évaluation FLEURS française dans le papier technique Whisper d'OpenAI (septembre 2023), (2) reproductions sur Common Voice France, et (3) benchmarks internes VexaScribe sur 60 vidéos françaises couvrant les types listés dans le tableau de précision. Word Error Rate calculé selon la formule NIST standard.

Les tailles de fichier indicatives (200 Mo à 4 Go par heure selon le format et la résolution) reflètent des encodages standards : MP4 H.264 à 5-8 Mbps pour 1080p, MKV non compressé à 15-25 Mbps pour HD. Vérifiez les paramètres de votre logiciel d'encodage si vous approchez la limite de 5 Go.

Tarifs concurrents (Authôt ~0,20 €/min, Otter $16,99-$30/mois, Descript $12-24/mois, Rev $0,25-1,50/min) reflètent les prix publics affichés en juin 2026. Vérifiez sur les sites des éditeurs avant tout engagement.

VexaScribe est le produit derrière cette page ; les comparaisons aux autres outils visent à aider les créateurs, formateurs et professionnels francophones à choisir l'outil adapté à leur cadre, pas à dénigrer la concurrence. Pour le processus éditorial complet voir standards éditoriaux.

Testez sur votre prochaine vidéo

30 minutes de transcription vidéo gratuites. Sans carte bancaire. Tous formats acceptés (MP4, MOV, MKV, WebM, AVI). Données hébergées en UE (Londres), pas d'entraînement IA sur vos vidéos.

Commencer gratuitement →Voir les fonctionnalités

L'essentiel à retenir

Comment transcrire une vidéo (3 étapes)

Téléchargez votre vidéo

L'IA extrait l'audio et transcrit

Éditez et exportez

Formats vidéo supportés

Cas d'usage par profession

Créateur de contenu YouTube / TikTok

Formateur en ligne / EdTech

Service marketing / communication

Journaliste vidéo / reporter

Chercheur en sciences humaines

RH / formation interne

Précision IA selon le type de vidéo

Extraction audio automatique

Pipeline technique en 4 étapes

Sous-titres SRT et VTT

Format SRT (SubRip)

Format VTT (WebVTT)

Traduire la vidéo en 133 langues cibles

Workflow sous-titres multilingues YouTube

Comparatif des outils de transcription vidéo

Tarifs et estimation de coût

Questions fréquentes

Méthodologie & sources

Testez sur votre prochaine vidéo

Guides associés

Transcription audio en texte

Transcription podcast

Transcription d'entretien

Générateur de sous-titres SRT

Transcription YouTube

Transcrire et traduire

Transcription IA

Tarifs

Ajouter des sous-titres à une vidéo

Diarisation des locuteurs

MP3 et M4A en texte

Transcription gratuite — comparatif 2026

Résumeur vidéo YouTube IA

Video to transcript (anglais)