Transcription Audio en Texte

Pour convertir un fichier audio en texte, uploadez un MP3, WAV, M4A ou vidéo (17 formats supportés, jusqu'à 5 Go) sur VexaScribe. L'IA Whisper Large-v3 transcrit avec 93-95% de précision sur audio clair en français, dans 99 langues, avec identification des locuteurs et horodatages. Stockage à Londres sous RGPD. 30 minutes gratuites à l'inscription, sans carte bancaire.

VexaScribe est un convertisseur audio-vers-texte en ligne gratuit qui transcrit les fichiers audio et vidéo en texte précis et horodaté à l'aide du modèle Whisper Large-v3 d'OpenAI. Téléchargez MP3, WAV, M4A, MP4, MOV, FLAC et 14 autres formats jusqu'à 5 Go. Les transcriptions arrivent en 5 à 10 minutes pour un fichier d'une heure, avec environ 95 % de précision sur de l'audio clair en anglais (93-95 % en français) et la prise en charge de 99 langues avec détection automatique. Le forfait gratuit inclut 30 minutes ; les abonnements payants commencent à 2 $/mois pour 200 minutes.

30 minutes gratuitesSans carte bancaire99 languesIdentification des locuteurs

Vocabulaire — c'est la même opération

Les termes transcription audio, transcrire audio, voix en texte, voix vers texte, audio en texte, audio vers texte et convertir audio en texte désignent tous la même opération : vous avez un fichier audio (MP3, WAV, M4A) ou vidéo, l'IA le convertit en texte, vous exportez au format voulu (TXT, DOCX, SRT). Le workflow est identique quel que soit le mot employé.

Comment ça marche

Trois étapes du téléchargement à la transcription finale. Aucune configuration, aucun logiciel à installer.

1
Téléchargez votre fichier
Glissez-déposez ou parcourez pour sélectionner un fichier audio ou vidéo. Nous acceptons MP3, WAV, M4A, MP4, MOV, FLAC, OGG, AAC, AIFF, WMA, AVI, MKV, WebM et 7 autres formats. Jusqu'à 5 Go et 10 heures par fichier.
2
L'IA transcrit en minutes
VexaScribe exécute le modèle Whisper Large-v3 d'OpenAI sur votre audio. Un enregistrement de 60 minutes est généralement traité en 5 à 10 minutes. Fermez l'onglet et revenez plus tard — nous continuons à traiter.
3
Éditer, exporter, partager
Relisez la transcription dans notre éditeur intégré. Renommez les locuteurs, corrigez les erreurs, puis exportez en TXT, DOCX, SRT, VTT ou JSON. Partagez par lien ou téléchargez.

Formats audio et vidéo pris en charge

17 formats couvrant pratiquement tous les appareils d'enregistrement et outils. Fichiers jusqu'à 5 Go et 10 heures par téléchargement.

Formats audio

MP3Le plus courant
WAVSans perte
M4AStandard iPhone
FLACSans perte
OGGFormat ouvert
AACApple/streaming
AIFFAudio pro
WMAWindows
AMRMobile
OPUSWeb moderne

Formats vidéo

MP4Le plus courant
MOVApple/QuickTime
AVIWindows (hérité)
MKVHaute qualité
WebMVidéo web
FLVFlash (hérité)
WMVWindows

L'audio est extrait automatiquement des fichiers vidéo. La vidéo elle-même n'est pas conservée après transcription.

Limites de fichiers : 5 Go par fichier, 10 heures par fichier. Aucune limite de téléchargement mensuelle au-delà des minutes incluses dans votre abonnement.

Que pouvez-vous transcrire ?

Si cela contient de l'audio, VexaScribe peut le transcrire. Cas d'usage courants :

Épisodes de podcast

Notes d'épisode, articles de blog, contenu SEO, archives consultables. Émissions solo et multi-animateurs prises en charge avec identification des locuteurs.

Entretiens

Journalisme, recherche qualitative, RH. La diarisation multi-locuteurs sépare automatiquement l'intervieweur de l'interviewé.

Cours et conférences

Étudiants capturant les cours pour révision. Enseignants générant des notes écrites à partir des sessions enregistrées.

Réunions

Appels Zoom, Google Meet, Microsoft Teams. Téléchargez l'enregistrement ou laissez le bot VexaScribe rejoindre la réunion.

Appels téléphoniques

Appels commerciaux, entretiens clients, enregistrements de support. Enregistrez sur n'importe quel appareil, téléchargez, obtenez une transcription avec les locuteurs.

Contenu vidéo

Vidéos YouTube, vidéos de formation, contenu de cours. Générez des sous-titres SRT/VTT avec des horodatages au mot près.

Transcription dans 99 langues — avec détection automatique

Pas besoin de sélectionner la langue manuellement. VexaScribe détecte automatiquement la langue parlée à partir de l'audio. La précision varie selon le niveau de langue :

Niveau 1

~5 % Word Error Rate (précision la plus élevée)

AnglaisEspagnolFrançaisAllemandItalienPortugaisNéerlandaisPolonaisRusseJaponais

Niveau 2

~8-12 % Word Error Rate

ArabeChinoisCoréenHindiTurcVietnamienThaïIndonésienHébreuTchèqueSuédoisNorvégienDanoisFinnoisGrecUkrainien

+ 73 autres langues

Y compris le gallois, le swahili, le tagalog, le bengali, le pendjabi, le tamoul, le télougou, le marathi, l'ourdou, le persan, le roumain, le hongrois, le bulgare, le croate et bien d'autres. La précision varie selon la langue et la qualité audio.

Ce que vous obtenez avec chaque transcription

Chaque transcription inclut ces fonctionnalités sans surcoût, dans chaque abonnement payant.

Diarisation des locuteurs

Détection et identification automatiques des locuteurs. Plusieurs locuteurs apparaissent comme Locuteur 1, Locuteur 2, Locuteur 3, etc. Renommez-les dans l'éditeur (par ex. « Animateur », « Invité », noms réels).

Horodatages au mot près

Chaque mot est horodaté à la milliseconde. Cliquez sur n'importe quel mot dans l'éditeur pour sauter à ce moment dans l'audio. Essentiel pour les sous-titres vidéo et la vérification de citations.

Plusieurs formats d'export

TXT (texte brut), DOCX (document Word), SRT (sous-titres vidéo), VTT (sous-titres web) et JSON (pour développeurs). Tous les formats disponibles dans chaque abonnement payant, sans surcoût.

Résumés IA

Résumé optionnel généré par IA avec points clés, décisions, tâches à faire et marqueurs de chapitres. Disponible dans tous les abonnements payants. Utile pour les notes de réunion, les notes d'épisodes de podcast et la révision de cours.

Quelle est la précision de la transcription de VexaScribe ?

VexaScribe atteint environ 95 % de précision (5 % de Word Error Rate) sur de l'audio clair en anglais avec un seul locuteur. Sur de l'audio clair en français, la précision est généralement de 93 à 95 %.

La précision réelle varie selon les conditions audio :

●Audio de podcast clair : 3-6 % WER (94-97 % de précision)
●Entretiens bruyants, musique de fond : 8-15 % WER (85-92 % de précision)
●Accents marqués, jargon technique, plusieurs locuteurs se chevauchant : 10-20 % WER (80-90 % de précision)

Nous recommandons de relire les transcriptions avant de publier du contenu critique — aucun outil d'IA n'atteint la précision de 99 %+ de la transcription humaine, mais VexaScribe est 20 à 100× moins cher que les services humains comme Rev (1,99 $/min).

Méthodologie : Le Word Error Rate (WER) se calcule comme (Substitutions + Insertions + Suppressions) / Mots totaux. Nous utilisons la formule standard de l'industrie.

Tarifs simples et transparents

Payez ce que vous utilisez. Aucun frais par utilisateur, aucun frais caché. Annulez à tout moment.

Starter

2 $/mois

200 min/mois

Créateurs solo

Basic

5 $/mois

1 000 min/mois

Podcasteurs réguliers

Pro

10 $/mois

2 500 min/mois

Usage intensif

Voir tous les abonnements, y compris Studio et Team →

Questions fréquentes

Comment VexaScribe transcrit-il l'audio en texte ?

VexaScribe utilise le modèle Whisper Large-v3 d'OpenAI pour convertir la parole en texte. Téléchargez un fichier audio ou vidéo, et l'IA traite l'intégralité de l'enregistrement — en ajoutant des identifiants de locuteurs, des horodatages au mot près et des résumés IA optionnels. Un fichier de 60 minutes est généralement traité en 5 à 10 minutes.

Quels formats audio et vidéo puis-je transcrire ?

VexaScribe accepte MP3, WAV, M4A, FLAC, OGG, AAC, AIFF, WMA, AMR, OPUS pour l'audio, et MP4, MOV, AVI, MKV, WebM, FLV, WMV pour la vidéo. Les fichiers peuvent atteindre 5 Go et 10 heures. Pour les fichiers vidéo, nous extrayons la piste audio automatiquement.

Combien de temps faut-il pour transcrire un fichier audio d'une heure ?

La plupart des fichiers d'une heure sont traités en 5 à 10 minutes. La vitesse de traitement dépend de la qualité audio, de la charge actuelle et du format du fichier. Vous pouvez fermer l'onglet du navigateur et revenir plus tard — la transcription vous attendra dans votre tableau de bord dès qu'elle sera prête.

VexaScribe est-il gratuit ?

Oui, vous obtenez 30 minutes de transcription gratuite sans carte bancaire. Au-delà du forfait gratuit, les abonnements payants commencent à 2 $/mois pour 200 minutes (Starter), 5 $/mois pour 1 000 minutes (Basic), 10 $/mois pour 2 500 minutes (Pro) et 20 $/mois pour 6 000 minutes (Studio). Annulez à tout moment.

Quelle est la précision de la transcription de VexaScribe ?

VexaScribe atteint environ 95 % de précision (5 % de Word Error Rate) sur de l'audio clair en anglais avec un seul locuteur. Sur de l'audio clair en français, la précision est généralement de 93 à 95 %. La précision réelle varie : audio de podcast clair entre 3 et 6 % WER, entretiens bruyants entre 8 et 15 % WER, et audio avec accents marqués ou jargon technique entre 10 et 20 % WER. Nous recommandons de relire les transcriptions avant de publier du contenu critique.

Quelles langues sont prises en charge ?

99 langues incluant le français, l'anglais, l'espagnol, l'allemand, l'italien, le portugais, le néerlandais, le russe, le polonais, le japonais, le chinois, le coréen, l'arabe, le turc, l'hindi, le vietnamien, le thaï et bien d'autres. La langue est détectée automatiquement — pas besoin de la sélectionner manuellement avant chaque transcription.

Puis-je transcrire des fichiers vidéo ?

Oui. Téléchargez des fichiers MP4, MOV, AVI, MKV, WebM, FLV ou WMV et nous extrayons la piste audio automatiquement. La transcription inclut des horodatages pour synchroniser avec votre logiciel de montage vidéo, générer des sous-titres (export SRT/VTT) ou transformer du contenu vidéo en articles de blog.

VexaScribe identifie-t-il plusieurs locuteurs ?

Oui, la diarisation automatique des locuteurs est incluse dans chaque transcription. Plusieurs locuteurs sont identifiés comme Locuteur 1, Locuteur 2, Locuteur 3, etc. Vous pouvez renommer les locuteurs dans l'éditeur intégré (par ex. « Animateur », « Invité », noms réels) pour plus de clarté dans la transcription finale.

Mes données audio sont-elles privées et sécurisées ?

Les fichiers audio transitent via un chiffrement TLS 1.2+ et sont stockés chiffrés au repos dans AWS eu-west-2. Nous n'entraînons aucun modèle d'IA sur vos données audio. Nous ne vendons pas de données utilisateur. Vous pouvez supprimer des fichiers à tout moment depuis votre tableau de bord, et la suppression de compte est en libre-service.

Comment exporter la transcription ?

VexaScribe exporte vers TXT (texte brut), DOCX (document Word), SRT (sous-titres vidéo), VTT (sous-titres web) et JSON (données structurées pour développeurs). Tous les formats sont disponibles dans chaque abonnement payant. SRT et VTT incluent des horodatages au mot près pour les éditeurs vidéo.

Commencez à transcrire en 30 secondes

30 minutes de transcription gratuites, sans carte bancaire. Téléchargez n'importe quel fichier audio et constatez le résultat par vous-même.

Vocabulaire — c'est la même opération

Comment ça marche

Téléchargez votre fichier

L'IA transcrit en minutes

Éditer, exporter, partager

Formats audio et vidéo pris en charge

Formats audio

Formats vidéo

Que pouvez-vous transcrire ?

Épisodes de podcast

Entretiens

Cours et conférences

Réunions

Appels téléphoniques

Contenu vidéo

Transcription dans 99 langues — avec détection automatique

~5 % Word Error Rate (précision la plus élevée)

~8-12 % Word Error Rate

+ 73 autres langues

Ce que vous obtenez avec chaque transcription

Diarisation des locuteurs

Horodatages au mot près

Plusieurs formats d'export

Résumés IA

Quelle est la précision de la transcription de VexaScribe ?

Tarifs simples et transparents

Starter

Basic

Pro

Questions fréquentes

Guides associés

Transcription vidéo en texte

Générateur de sous-titres SRT

Transcrire et traduire

Transcription IA

Transcrire un audio WhatsApp

Prise de notes IA

Alternatives à Amberscript

Alternatives à Happy Scribe

Transcription podcast

Transcription d'entretien

Tarifs

Fonctionnalités

MP3 et M4A en texte

Transcription Whisper

Diarisation des locuteurs

Transcription gratuite — comparatif 2026

Ajouter des sous-titres à une vidéo

Transcribe audio to text (anglais)

Commencez à transcrire en 30 secondes