Transcription Audio en Texte

Transcrivez audio en texte en ligne dans 99 langues. Téléchargez n'importe quel fichier audio ou vidéo — obtenez des transcriptions précises avec identification des locuteurs, horodatages et résumés IA en quelques minutes.

VexaScribe est un convertisseur audio-vers-texte en ligne gratuit qui transcrit les fichiers audio et vidéo en texte précis et horodaté à l'aide du modèle Whisper Large-v3 d'OpenAI. Téléchargez MP3, WAV, M4A, MP4, MOV, FLAC et 14 autres formats jusqu'à 5 Go. Les transcriptions arrivent en 5 à 10 minutes pour un fichier d'une heure, avec environ 95 % de précision sur de l'audio clair en anglais (93-95 % en français) et la prise en charge de 99 langues avec détection automatique. Le forfait gratuit inclut 30 minutes ; les abonnements payants commencent à 2 $/mois pour 200 minutes.

30 minutes gratuitesSans carte bancaire99 languesIdentification des locuteurs

Comment ça marche

Trois étapes du téléchargement à la transcription finale. Aucune configuration, aucun logiciel à installer.

  1. 1

    Téléchargez votre fichier

    Glissez-déposez ou parcourez pour sélectionner un fichier audio ou vidéo. Nous acceptons MP3, WAV, M4A, MP4, MOV, FLAC, OGG, AAC, AIFF, WMA, AVI, MKV, WebM et 7 autres formats. Jusqu'à 5 Go et 10 heures par fichier.

  2. 2

    L'IA transcrit en minutes

    VexaScribe exécute le modèle Whisper Large-v3 d'OpenAI sur votre audio. Un enregistrement de 60 minutes est généralement traité en 5 à 10 minutes. Fermez l'onglet et revenez plus tard — nous continuons à traiter.

  3. 3

    Éditer, exporter, partager

    Relisez la transcription dans notre éditeur intégré. Renommez les locuteurs, corrigez les erreurs, puis exportez en TXT, DOCX, SRT, VTT ou JSON. Partagez par lien ou téléchargez.

Formats audio et vidéo pris en charge

17 formats couvrant pratiquement tous les appareils d'enregistrement et outils. Fichiers jusqu'à 5 Go et 10 heures par téléchargement.

Formats audio

  • MP3Le plus courant
  • WAVSans perte
  • M4AStandard iPhone
  • FLACSans perte
  • OGGFormat ouvert
  • AACApple/streaming
  • AIFFAudio pro
  • WMAWindows
  • AMRMobile
  • OPUSWeb moderne

Formats vidéo

  • MP4Le plus courant
  • MOVApple/QuickTime
  • AVIWindows (hérité)
  • MKVHaute qualité
  • WebMVidéo web
  • FLVFlash (hérité)
  • WMVWindows

L'audio est extrait automatiquement des fichiers vidéo. La vidéo elle-même n'est pas conservée après transcription.

Limites de fichiers : 5 Go par fichier, 10 heures par fichier. Aucune limite de téléchargement mensuelle au-delà des minutes incluses dans votre abonnement.

Que pouvez-vous transcrire ?

Si cela contient de l'audio, VexaScribe peut le transcrire. Cas d'usage courants :

Épisodes de podcast

Notes d'épisode, articles de blog, contenu SEO, archives consultables. Émissions solo et multi-animateurs prises en charge avec identification des locuteurs.

Entretiens

Journalisme, recherche qualitative, RH. La diarisation multi-locuteurs sépare automatiquement l'intervieweur de l'interviewé.

Cours et conférences

Étudiants capturant les cours pour révision. Enseignants générant des notes écrites à partir des sessions enregistrées.

Réunions

Appels Zoom, Google Meet, Microsoft Teams. Téléchargez l'enregistrement ou laissez le bot VexaScribe rejoindre la réunion.

Appels téléphoniques

Appels commerciaux, entretiens clients, enregistrements de support. Enregistrez sur n'importe quel appareil, téléchargez, obtenez une transcription avec les locuteurs.

Contenu vidéo

Vidéos YouTube, vidéos de formation, contenu de cours. Générez des sous-titres SRT/VTT avec des horodatages au mot près.

Transcription dans 99 langues — avec détection automatique

Pas besoin de sélectionner la langue manuellement. VexaScribe détecte automatiquement la langue parlée à partir de l'audio. La précision varie selon le niveau de langue :

Niveau 1

~5 % Word Error Rate (précision la plus élevée)

AnglaisEspagnolFrançaisAllemandItalienPortugaisNéerlandaisPolonaisRusseJaponais
Niveau 2

~8-12 % Word Error Rate

ArabeChinoisCoréenHindiTurcVietnamienThaïIndonésienHébreuTchèqueSuédoisNorvégienDanoisFinnoisGrecUkrainien

+ 73 autres langues

Y compris le gallois, le swahili, le tagalog, le bengali, le pendjabi, le tamoul, le télougou, le marathi, l'ourdou, le persan, le roumain, le hongrois, le bulgare, le croate et bien d'autres. La précision varie selon la langue et la qualité audio.

Ce que vous obtenez avec chaque transcription

Chaque transcription inclut ces fonctionnalités sans surcoût, dans chaque abonnement payant.

Diarisation des locuteurs

Détection et identification automatiques des locuteurs. Plusieurs locuteurs apparaissent comme Locuteur 1, Locuteur 2, Locuteur 3, etc. Renommez-les dans l'éditeur (par ex. « Animateur », « Invité », noms réels).

Horodatages au mot près

Chaque mot est horodaté à la milliseconde. Cliquez sur n'importe quel mot dans l'éditeur pour sauter à ce moment dans l'audio. Essentiel pour les sous-titres vidéo et la vérification de citations.

Plusieurs formats d'export

TXT (texte brut), DOCX (document Word), SRT (sous-titres vidéo), VTT (sous-titres web) et JSON (pour développeurs). Tous les formats disponibles dans chaque abonnement payant, sans surcoût.

Résumés IA

Résumé optionnel généré par IA avec points clés, décisions, tâches à faire et marqueurs de chapitres. Disponible dans tous les abonnements payants. Utile pour les notes de réunion, les notes d'épisodes de podcast et la révision de cours.

Quelle est la précision de la transcription de VexaScribe ?

VexaScribe atteint environ 95 % de précision (5 % de Word Error Rate) sur de l'audio clair en anglais avec un seul locuteur. Sur de l'audio clair en français, la précision est généralement de 93 à 95 %.

La précision réelle varie selon les conditions audio :

  • Audio de podcast clair : 3-6 % WER (94-97 % de précision)
  • Entretiens bruyants, musique de fond : 8-15 % WER (85-92 % de précision)
  • Accents marqués, jargon technique, plusieurs locuteurs se chevauchant : 10-20 % WER (80-90 % de précision)

Nous recommandons de relire les transcriptions avant de publier du contenu critique — aucun outil d'IA n'atteint la précision de 99 %+ de la transcription humaine, mais VexaScribe est 20 à 100× moins cher que les services humains comme Rev (1,99 $/min).

Méthodologie : Le Word Error Rate (WER) se calcule comme (Substitutions + Insertions + Suppressions) / Mots totaux. Nous utilisons la formule standard de l'industrie.

Tarifs simples et transparents

Payez ce que vous utilisez. Aucun frais par utilisateur, aucun frais caché. Annulez à tout moment.

Starter

2 $/mois

200 min/mois

Créateurs solo

Basic

5 $/mois

1 000 min/mois

Podcasteurs réguliers

Pro

10 $/mois

2 500 min/mois

Usage intensif

Questions fréquentes

Comment VexaScribe transcrit-il l'audio en texte ?

VexaScribe utilise le modèle Whisper Large-v3 d'OpenAI pour convertir la parole en texte. Téléchargez un fichier audio ou vidéo, et l'IA traite l'intégralité de l'enregistrement — en ajoutant des identifiants de locuteurs, des horodatages au mot près et des résumés IA optionnels. Un fichier de 60 minutes est généralement traité en 5 à 10 minutes.

Quels formats audio et vidéo puis-je transcrire ?

VexaScribe accepte MP3, WAV, M4A, FLAC, OGG, AAC, AIFF, WMA, AMR, OPUS pour l'audio, et MP4, MOV, AVI, MKV, WebM, FLV, WMV pour la vidéo. Les fichiers peuvent atteindre 5 Go et 10 heures. Pour les fichiers vidéo, nous extrayons la piste audio automatiquement.

Combien de temps faut-il pour transcrire un fichier audio d'une heure ?

La plupart des fichiers d'une heure sont traités en 5 à 10 minutes. La vitesse de traitement dépend de la qualité audio, de la charge actuelle et du format du fichier. Vous pouvez fermer l'onglet du navigateur et revenir plus tard — la transcription vous attendra dans votre tableau de bord dès qu'elle sera prête.

VexaScribe est-il gratuit ?

Oui, vous obtenez 30 minutes de transcription gratuite sans carte bancaire. Au-delà du forfait gratuit, les abonnements payants commencent à 2 $/mois pour 200 minutes (Starter), 5 $/mois pour 1 000 minutes (Basic), 10 $/mois pour 2 500 minutes (Pro) et 20 $/mois pour 6 000 minutes (Studio). Annulez à tout moment.

Quelle est la précision de la transcription de VexaScribe ?

VexaScribe atteint environ 95 % de précision (5 % de Word Error Rate) sur de l'audio clair en anglais avec un seul locuteur. Sur de l'audio clair en français, la précision est généralement de 93 à 95 %. La précision réelle varie : audio de podcast clair entre 3 et 6 % WER, entretiens bruyants entre 8 et 15 % WER, et audio avec accents marqués ou jargon technique entre 10 et 20 % WER. Nous recommandons de relire les transcriptions avant de publier du contenu critique.

Quelles langues sont prises en charge ?

99 langues incluant le français, l'anglais, l'espagnol, l'allemand, l'italien, le portugais, le néerlandais, le russe, le polonais, le japonais, le chinois, le coréen, l'arabe, le turc, l'hindi, le vietnamien, le thaï et bien d'autres. La langue est détectée automatiquement — pas besoin de la sélectionner manuellement avant chaque transcription.

Puis-je transcrire des fichiers vidéo ?

Oui. Téléchargez des fichiers MP4, MOV, AVI, MKV, WebM, FLV ou WMV et nous extrayons la piste audio automatiquement. La transcription inclut des horodatages pour synchroniser avec votre logiciel de montage vidéo, générer des sous-titres (export SRT/VTT) ou transformer du contenu vidéo en articles de blog.

VexaScribe identifie-t-il plusieurs locuteurs ?

Oui, la diarisation automatique des locuteurs est incluse dans chaque transcription. Plusieurs locuteurs sont identifiés comme Locuteur 1, Locuteur 2, Locuteur 3, etc. Vous pouvez renommer les locuteurs dans l'éditeur intégré (par ex. « Animateur », « Invité », noms réels) pour plus de clarté dans la transcription finale.

Mes données audio sont-elles privées et sécurisées ?

Les fichiers audio transitent via un chiffrement TLS 1.2+ et sont stockés chiffrés au repos dans AWS eu-west-2. Nous n'entraînons aucun modèle d'IA sur vos données audio. Nous ne vendons pas de données utilisateur. Vous pouvez supprimer des fichiers à tout moment depuis votre tableau de bord, et la suppression de compte est en libre-service.

Comment exporter la transcription ?

VexaScribe exporte vers TXT (texte brut), DOCX (document Word), SRT (sous-titres vidéo), VTT (sous-titres web) et JSON (données structurées pour développeurs). Tous les formats sont disponibles dans chaque abonnement payant. SRT et VTT incluent des horodatages au mot près pour les éditeurs vidéo.

Commencez à transcrire en 30 secondes

30 minutes de transcription gratuites, sans carte bancaire. Téléchargez n'importe quel fichier audio et constatez le résultat par vous-même.