Vérifié juin 2026
Transcription vidéo en texte
Transcription IA pour vidéos en français — créateurs YouTube, formateurs en ligne, services communication, journalistes et chercheurs. Whisper Large-v3, précision Tier 1 (93-95 %), extraction audio automatique, export SRT/VTT pour sous-titres, traduction vers 133 langues, conformité RGPD avec hébergement de données en UE.
VexaScribe transcrit vos vidéos en français — MP4, MOV, MKV, WebM, AVI, FLV, WMV jusqu'à 5 Go et 10 heures par fichier. L'audio est extrait automatiquement de la piste vidéo — pas besoin de ffmpeg ni de conversion préalable. Comptez 5 à 10 minutes de traitement pour une vidéo d'une heure, avec 93-95 % de précision sur audio propre, étiquetage automatique des locuteurs, horodatages au mot près, et export vers TXT, DOCX, SRT, VTT ou JSON. Traduction intégrée vers 133 langues cibles — créez des sous-titres multilingues sans service tiers. Données stockées sur AWS eu-west-2 (Londres) — conformité RGPD. Pas d'entraînement IA sur vos enregistrements. 30 minutes gratuites à l'inscription.
L'essentiel à retenir
- ●Tous les formats vidéo standards supportés. MP4 (YouTube, smartphones), MOV (Apple), MKV (HD), WebM (web), AVI, FLV, WMV. Limite par fichier : 5 Go et 10 heures.
- ●Pas d'extraction audio manuelle. L'audio est extrait automatiquement de la piste vidéo côté serveur — pas besoin de ffmpeg ni de HandBrake en amont.
- ●Précision Tier 1 française : 93-95 % sur audio propre. Comparable à l'anglais. Une vidéo filmée en studio avec micro lavalier atteint 95-97 %.
- ●Temps de traitement : 5-10 minutes pour 1 heure de vidéo. Contre ~6 heures pour une transcription humaine. Idéal pour workflow créateur quotidien.
- ●Export SRT et VTT direct. Importez vos sous-titres dans Premiere Pro, DaVinci Resolve, Final Cut, CapCut, OBS, ou uploadez sur YouTube et Vimeo.
- ●Traduction intégrée vers 133 langues. Créez des sous-titres multilingues sans service tiers — un SRT français + un SRT anglais + un SRT espagnol en quelques minutes.
- ●Hébergement AWS eu-west-2 (Londres), résidence UE. Conforme RGPD. Pas d'entraînement IA sur vos vidéos — engagement contractuel explicite.
Formats vidéo supportés
VexaScribe accepte tous les formats vidéo courants. Le format MP4 est le plus universel (sortie standard de YouTube, smartphones, OBS Studio), mais MOV (Apple) et MKV (HD haute qualité) sont également traités sans conversion préalable.
| Format | Cas d'usage typique | Taille moyenne (1 h) | Précision FR |
|---|---|---|---|
| MP4 | YouTube, formations en ligne, webinaires, smartphones (le plus courant) | 200-800 Mo / heure | 92-95 % |
| MOV | iPhone, Mac, Final Cut Pro, captation Apple | 500 Mo - 2 Go / heure | 93-96 % |
| MKV | Vidéo HD haute qualité, archives non compressées | 1-4 Go / heure | 93-95 % |
| WebM | Export navigateur, OBS Studio, vidéos web | 200-600 Mo / heure | 90-94 % |
| AVI | Anciens enregistrements Windows, capture vidéo legacy | 1-3 Go / heure | 89-93 % |
| FLV | Anciens enregistrements Flash, archives 2005-2015 | 100-400 Mo / heure | 85-90 % |
| WMV | Windows Media, captations PowerPoint | 300-800 Mo / heure | 88-92 % |
Pour les fichiers audio seuls (MP3, WAV, M4A, OGG), voir transcription audio en texte.
Cas d'usage par profession
La transcription vidéo IA sert six familles d'usage en France et dans la francophonie, chacune avec ses workflows propres.
Créateur de contenu YouTube / TikTok
Vidéos longues, shorts, vlogs, lives enregistrésWorkflow : export source de la vidéo → transcription VexaScribe → export SRT pour sous-titres YouTube + traduction EN/ES pour audience internationale. Avantage SEO sur YouTube : les vidéos avec sous-titres uploadés (vs auto-captions) ranquent mieux car le moteur YouTube indexe les sous-titres comme contenu textuel.
Formateur en ligne / EdTech
Cours Udemy, Teachable, LearnyBox, captations ZoomWorkflow : enregistrement du cours → transcription en moins de 10 min après le cours → export DOCX pour fiches récapitulatives + SRT pour sous-titres d'accessibilité (RGAA, WCAG 2.1). Les transcripts servent aussi à générer automatiquement des résumés de chapitres et des notes téléchargeables — ressources prisées par les apprenants.
Service marketing / communication
Webinaires, vidéos produit, lives événementielsWorkflow : captation du webinaire → transcription rapide → repurposing en article de blog 1200-1800 mots + extraits texte pour LinkedIn/Twitter + sous-titres pour vidéos verticales Instagram/TikTok. Un webinaire d'1h peut produire 3-5 pièces de contenu dérivées.
Journaliste vidéo / reporter
Captation terrain, interviews filmés, reportagesWorkflow : enregistrement caméra ou smartphone → transcription pour rédaction article + extraction de verbatims clés. La diarisation automatique sépare l'interviewer de l'interviewé, accélère l'identification des passages à citer. Pas d'entraînement IA sur les vidéos — protection des sources confidentielles.
Chercheur en sciences humaines
Ethnographie visuelle, captations de conférences, entretiens filmésWorkflow : captation vidéo terrain → transcription pour codage CAQDAS (NVivo, ATLAS.ti, MAXQDA) + extraction frames clés via horodatages. Pour les entretiens vidéo, voir aussi la page dédiée transcription d'entretien (méthodologie RGPD spécifique).
RH / formation interne
Onboarding filmé, captations de réunions stratégiques, archives documentairesWorkflow : enregistrement filmé avec accord des participants → transcription archivée → export DOCX pour dossier projet ou compte rendu de réunion. Données hébergées en UE (Londres) — conformité RGPD critique pour données internes salariés.
Précision IA selon le type de vidéo
Le français est en Tier 1 de Whisper Large-v3 — environ 5-7 % de Word Error Rate sur audio propre, soit 93-95 % de précision. La précision réelle dépend principalement de la qualité du micro et de l'environnement d'enregistrement, pas du format vidéo en lui-même.
| Type d'enregistrement | Précision | Temps de relecture |
|---|---|---|
| Vidéo studio (micro lavalier, salle traitée acoustiquement) | 95-97 % | 5-10 min/h |
| Vidéo Zoom / Teams / Meet (micro intégré laptop) | 88-92 % | 15-20 min/h |
| Vidéo smartphone face-cam (< 1m, environnement calme) | 87-91 % | 20-25 min/h |
| Vidéo de conférence (micro de salle, plusieurs intervenants) | 80-87 % | 25-35 min/h |
| Vidéo terrain (caméra sportive, vent, bruit ambiant) | 75-85 % | 30-40 min/h |
| Vidéo réseaux sociaux (mobile, voix proche caméra) | 88-92 % | 15-20 min/h |
| Vidéo cours en ligne (Udemy/Teachable, micro USB) | 92-95 % | 10-15 min/h |
Les noms propres (marques, personnes, lieux) et le jargon technique restent à 20-30 % d'erreur — toujours relire avant publication. Pour les benchmarks Whisper détaillés voir précision Whisper (en anglais).
Extraction audio automatique
Vous uploadez votre fichier vidéo tel quel. Pas de pré-traitement, pas de conversion ffmpeg, pas de HandBrake en amont. Le pipeline côté serveur prend en charge l'extraction.
Pipeline technique en 4 étapes
- 1.Décodage du container vidéo — lecture du fichier MP4/MOV/MKV/etc. via ffmpeg côté serveur. Aucune action utilisateur requise.
- 2.Extraction de la piste audio — séparation de la piste audio de la piste vidéo. Si plusieurs pistes audio existent (commentaire + audio original), la première piste est utilisée par défaut.
- 3.Resampling 16 kHz mono — conversion à la résolution Whisper standard. La qualité audio brute est suffisante car Whisper a été entraîné sur des audios 16 kHz.
- 4.Transcription Whisper Large-v3 — modèle Transformer encoder-decoder, détection automatique de langue, génération de tokens textuels avec horodatages.
Vous ne payez ni temps ni minutes supplémentaires pour l'extraction audio — c'est compté dans le temps total de transcription (5-10 min pour 1 h de vidéo).
Sous-titres SRT et VTT
Deux formats d'export pour sous-titres, selon votre cible de diffusion.
Format SRT (SubRip)
Format universel — accepté par YouTube, Vimeo, Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro, CapCut, OBS Studio, VLC. C'est le format à utiliser par défaut pour 95 % des cas.
Idéal pour : YouTube, montage vidéo, archives
Format VTT (WebVTT)
Format pour lecteurs vidéo HTML5 sur sites web personnalisés. Intégration via <track kind="subtitles" src="x.vtt"> dans une balise <video>.
Idéal pour : intégration web, lecteurs JS personnalisés
Pour un guide complet sur le format SRT, l'intégration logicielle, et la conformité accessibilité (WCAG 2.1, RGAA), voir générateur SRT en français.
Traduire la vidéo en 133 langues cibles
Après transcription en français, traduisez en un clic vers anglais, espagnol, portugais, allemand, italien, japonais, mandarin, arabe, hindi, russe, et 124 autres langues. Workflow typique : créateur français qui veut atteindre une audience internationale.
Workflow sous-titres multilingues YouTube
- 1.Uploader la vidéo source dans VexaScribe (français détecté automatiquement)
- 2.Exporter SRT français (horodatages au mot près)
- 3.Cliquer Traduire → choisir anglais → exporter SRT anglais (horodatages préservés à l'identique)
- 4.Répéter pour espagnol, allemand, japonais selon votre audience cible
- 5.Uploader chaque SRT sur YouTube : Subtitles > Add language > Upload file
Économie vs traduction professionnelle : une agence facture 200-500 € pour traduire les sous-titres d'une vidéo d'1 heure. Avec VexaScribe, c'est inclus dans le plan mensuel. Pour le guide détaillé de la fonctionnalité voir transcrire et traduire un audio.
Comparatif des outils de transcription vidéo
Six outils principaux pour transcrire des vidéos en français. Critères clés : précision FR, hébergement de données (UE vs USA), formats d'export, et tarif effectif.
| Outil | Modèle | Tarif | UE | Idéal pour |
|---|---|---|---|---|
| VexaScribe | Whisper Large-v3 | 2-20 $/mois | Oui (Londres) | Workflow vidéo créateur, formation, journalisme — meilleur rapport qualité/prix, traduction 133 langues incluse |
| Authôt | Propriétaire (FR) | ~0,20 €/min | Oui (France) | Petits volumes occasionnels — service français, paie au volume |
| Otter.ai | Propriétaire | 16,99-30 $/mois | Non (USA) | Réunions live audio principalement — moins adapté aux vidéos |
| Descript | Whisper + propriétaire | 12-24 $/mois | Non (USA) | Édition vidéo et transcription combinées dans le même outil |
| Rev | Humain + IA | 0,25-1,50 $/min | Variable | Verbatim certifié humain — pour usages juridiques ponctuels |
| Sous-titres auto YouTube | Propriétaire Google | Gratuit | Variable | Sous-titres rapides sur YouTube uniquement — ~80 % de précision FR, pas d'export |
Tarifs vérifiés juin 2026. Voir aussi toutes les alternatives.
Tarifs et estimation de coût
Tarification VexaScribe en équivalent volumes de vidéo transcrite. Calcul basé sur des vidéos d'une heure en moyenne.
| Plan | Prix | Minutes incluses | ≈ Vidéos d'1 h/mois | Pour qui ? |
|---|---|---|---|---|
| Essai gratuit | 0 $ | 30 minutes uniques | 1 vidéo de 30 min | Tester avant de souscrire |
| Starter | 2 $/mois | 200 minutes/mois | 3 vidéos d'1 h | Créateur occasionnel, formation ponctuelle |
| Basic | 5 $/mois | 1 000 minutes/mois | 16 vidéos d'1 h | Créateur régulier, formateur indépendant |
| Pro | 10 $/mois | 2 500 minutes/mois | 41 vidéos d'1 h | Chaîne YouTube active, équipe communication, formateur EdTech |
| Studio | 20 $/mois | 6 000 minutes/mois | 100 vidéos d'1 h | Studio de production, salle de rédaction, école en ligne |
Coût effectif sur le plan Pro : ~0,24 $ par vidéo d'une heure. Voir détails complets sur la page tarifs.
Questions fréquentes
Comment transcrire une vidéo en français ?
Téléchargez votre fichier vidéo (MP4, MOV, MKV, WebM, AVI, FLV, WMV jusqu'à 5 Go et 10 heures) directement sur VexaScribe. L'audio est extrait automatiquement de la piste vidéo — pas besoin de ffmpeg ni de conversion préalable. Whisper Large-v3 d'OpenAI détecte automatiquement le français (Tier 1, précision 93-95 % sur audio propre) et génère la transcription en 5 à 10 minutes pour une vidéo d'une heure. Sortie : texte avec étiquetage automatique des locuteurs et horodatages au mot près, exportable en TXT, DOCX, SRT, VTT ou JSON. 30 minutes gratuites à l'inscription.
Quels formats vidéo sont supportés ?
Tous les formats vidéo courants : MP4 (le plus répandu, YouTube, smartphones, exports OBS), MOV (Apple, iPhone, Final Cut Pro), MKV (vidéo HD haute qualité), WebM (export navigateur et OBS Studio), AVI (anciens enregistrements Windows), FLV (anciens enregistrements Flash), WMV (Windows Media). Limite par fichier : 5 Go et 10 heures, ce qui couvre 99 % des cas — un cours en ligne de 2 heures en MP4 1080p fait typiquement 1-2 Go. Les pistes audio multiples sont gérées (commentaire + audio original) : la première piste est transcrite par défaut.
Faut-il extraire l'audio de la vidéo avant l'upload ?
Non. VexaScribe extrait automatiquement la piste audio côté serveur — vous uploadez votre MP4, MOV ou MKV tel quel. C'est un gain de temps significatif vs des solutions qui imposent une extraction manuelle avec ffmpeg ou HandBrake avant transcription. Le pipeline interne : décodage du container vidéo → extraction de la piste audio → resampling 16 kHz mono (résolution Whisper) → modèle de transcription. Vous n'avez aucune étape technique à gérer.
Quelle précision pour une vidéo YouTube ou un cours en ligne ?
Précision variable selon la qualité d'enregistrement. Vidéo studio bien micro-typée (formateur avec micro lavalier en salle traitée) : 95-97 % de précision. Vidéo Zoom ou Teams avec micro intégré laptop : 88-92 %. Vidéo smartphone à moins d'1 mètre (vlog face-cam) : 87-91 %. Vidéo de conférence ou webinaire en salle avec micro plafond : 80-87 %. Vidéo terrain (caméra sportive, drone, bruit ambiant) : 75-85 %. Le français est en Tier 1 de Whisper Large-v3, comparable à l'anglais en précision — la qualité du micro compte beaucoup plus que la langue.
Comment ajouter des sous-titres à ma vidéo après transcription ?
Exportez votre transcription au format SRT (sous-titres standard) ou VTT (HTML5 video) en un clic depuis l'éditeur VexaScribe. Le fichier SRT s'importe directement dans Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro X, CapCut, ou s'upload sur YouTube et Vimeo (Subtitles > Add language > Upload file). Pour les lecteurs vidéo HTML5 sur votre site web, le format VTT s'intègre via la balise `<track kind="subtitles" src="x.vtt">`. Voir la page dédiée au générateur SRT pour les détails d'intégration.
Combien coûte la transcription d'une vidéo d'une heure ?
Coût effectif sur le plan Pro VexaScribe (10 $/mois, 2 500 minutes incluses) : environ 0,24 $ par vidéo d'une heure transcrite. Sur le plan Starter (2 $/mois, 200 minutes) : 0,60 $ par vidéo. Pour comparaison : un transcripteur humain français facture 1,50-3 €/min, soit 90-180 € pour une vidéo d'1 heure. Les sous-titres automatiques YouTube sont gratuits mais leur précision FR plafonne à ~80 %, sans diarisation des locuteurs, sans export SRT vers d'autres plateformes.
Peut-on transcrire une vidéo de plus de 5 Go ?
La limite par fichier est de 5 Go et 10 heures. Si votre vidéo dépasse ces seuils, deux solutions. (1) Compresser en MP4 1080p H.264 à débit raisonnable (5-8 Mbps) — une vidéo de 4 heures en 1080p fait typiquement 7-10 Go en source, mais 3-4 Go après compression standard YouTube. HandBrake (gratuit) ou ffmpeg en ligne de commande gèrent ça en quelques minutes. (2) Découper la vidéo en segments de moins de 5 Go avec un outil d'édition. Ces deux approches préservent la qualité audio nécessaire à Whisper (16 kHz suffisent).
Mes vidéos sont-elles utilisées pour entraîner des modèles IA ?
Non. VexaScribe n'utilise pas vos vidéos ou transcriptions pour entraîner des modèles d'intelligence artificielle. C'est un engagement contractuel explicite, inscrit dans les conditions d'utilisation — pas une option opt-out par défaut. Différence importante avec certains concurrents américains qui peuvent utiliser les données utilisateurs par défaut pour améliorer leurs modèles. Pour les vidéos de formation interne, captations de réunions filmées, ou contenus avant publication, cette garantie de non-réutilisation est essentielle.
Peut-on traduire la transcription pour créer des sous-titres multilingues ?
Oui. Après transcription en français, cliquez sur Traduire dans l'éditeur pour convertir la transcription dans une des 133 langues cibles (anglais, espagnol, portugais, allemand, italien, japonais, mandarin, arabe…). Cas d'usage fréquent : un créateur français produit sa vidéo en FR, exporte un SRT français pour YouTube, puis génère SRT anglais + SRT espagnol pour atteindre l'audience internationale — trois fichiers à uploader comme tracks séparées sur YouTube. La traduction est incluse dans tous les plans payants, pas de facturation au caractère, pas de service tiers à connecter. Les horodatages sont préservés à l'identique entre les versions traduites.
Quelle différence avec les sous-titres automatiques YouTube ?
Trois différences majeures. (1) Précision FR : YouTube auto-captions tournent autour de 80 %, VexaScribe (Whisper Large-v3) atteint 93-95 %. La différence se voit clairement sur les noms propres, le jargon technique, et les chiffres. (2) Portabilité : les auto-captions YouTube ne sortent qu'au sein de YouTube ; VexaScribe exporte un fichier SRT que vous utilisez partout (Premiere, DaVinci, CapCut, votre site web). (3) Workflow : VexaScribe inclut diarisation des locuteurs, édition intégrée, traduction vers 133 langues. YouTube n'offre rien de cela. Pour un créateur, VexaScribe est l'amont du workflow ; YouTube ne sert qu'à l'hébergement final.
Méthodologie & sources
Les chiffres de précision en français (5-7 % WER Tier 1, 93-95 % sur audio propre) proviennent de (1) l'évaluation FLEURS française dans le papier technique Whisper d'OpenAI (septembre 2023), (2) reproductions sur Common Voice France, et (3) benchmarks internes VexaScribe sur 60 vidéos françaises couvrant les types listés dans le tableau de précision. Word Error Rate calculé selon la formule NIST standard.
Les tailles de fichier indicatives (200 Mo à 4 Go par heure selon le format et la résolution) reflètent des encodages standards : MP4 H.264 à 5-8 Mbps pour 1080p, MKV non compressé à 15-25 Mbps pour HD. Vérifiez les paramètres de votre logiciel d'encodage si vous approchez la limite de 5 Go.
Tarifs concurrents (Authôt ~0,20 €/min, Otter $16,99-$30/mois, Descript $12-24/mois, Rev $0,25-1,50/min) reflètent les prix publics affichés en juin 2026. Vérifiez sur les sites des éditeurs avant tout engagement.
VexaScribe est le produit derrière cette page ; les comparaisons aux autres outils visent à aider les créateurs, formateurs et professionnels francophones à choisir l'outil adapté à leur cadre, pas à dénigrer la concurrence. Pour le processus éditorial complet voir standards éditoriaux.
Testez sur votre prochaine vidéo
30 minutes de transcription vidéo gratuites. Sans carte bancaire. Tous formats acceptés (MP4, MOV, MKV, WebM, AVI). Données hébergées en UE (Londres), pas d'entraînement IA sur vos vidéos.
Guides associés
Transcription audio en texte
Pour fichiers audio uniquement (MP3, WAV, M4A)
Transcription podcast
Pour podcasts vidéo YouTube et Twitch
Transcription d'entretien
Pour entretiens filmés, ethnographie visuelle
Générateur de sous-titres SRT
Sous-titres pour YouTube, Premiere, DaVinci, CapCut
Transcrire et traduire
133 langues cibles — sous-titres multilingues
Transcription IA
Comment fonctionne la transcription par IA
Tarifs
Plans détaillés et estimation par volume de vidéo
Video to text (anglais)
Version anglaise de cette page
Comment transcrire une vidéo (3 étapes)
Workflow identique quel que soit le format (MP4, MOV, MKV…) ou la source (caméra, smartphone, capture d'écran, export YouTube).
Téléchargez votre vidéo
Glissez votre fichier vidéo dans VexaScribe. Tous les formats courants acceptés : MP4, MOV, MKV, WebM, AVI, FLV, WMV. Limite : 5 Go et 10 heures par fichier. Pour les vidéos plus grandes, compressez en MP4 1080p H.264 (HandBrake gratuit) ou découpez en segments.
L'IA extrait l'audio et transcrit
L'audio est extrait automatiquement de la piste vidéo, puis transcrit par Whisper Large-v3. Une vidéo d'une heure se traite en 5-10 minutes avec étiquetage automatique des locuteurs et horodatages au mot près. Détection automatique du français (France, Québec, Belgique, Suisse).
Éditez et exportez
Renommez les locuteurs, corrigez les noms propres et le jargon technique dans l'éditeur intégré. Traduisez si besoin vers une autre langue. Exportez SRT (sous-titres YouTube/Premiere), VTT (web HTML5), DOCX (Word), TXT (texte brut) ou JSON (données structurées).