Audio zu Text Konverter
Wandle Audio in Text um — online, in 99 Sprachen. Lade eine beliebige Audio- oder Videodatei hoch und erhalte präzise Transkripte mit Sprecherkennzeichnungen, Zeitstempeln und KI-Zusammenfassungen in Minuten.
VexaScribe ist ein kostenloser Online-Audio-zu-Text-Konverter, der Audio- und Videodateien mit dem Whisper-Large-v3-Modell von OpenAI in präzisen, mit Zeitstempeln versehenen Text umwandelt. Lade MP3, WAV, M4A, MP4, MOV, FLAC und 14 weitere Formate bis zu 5 GB hoch. Transkripte sind in 5-10 Minuten für eine einstündige Datei fertig, mit rund 95 % Genauigkeit bei klarem englischen Audio (93-95 % bei klarem deutschen Audio) und Unterstützung für 99 Sprachen mit automatischer Erkennung. Das kostenlose Kontingent umfasst 30 Minuten; bezahlte Tarife starten bei 2 $/Monat für 200 Minuten.
So funktioniert es
Drei Schritte vom Upload bis zum fertigen Transkript. Keine Einrichtung, keine Software-Installation.
- 1
Datei hochladen
Per Drag-and-Drop oder Auswahl eine Audio- oder Videodatei hochladen. Wir akzeptieren MP3, WAV, M4A, MP4, MOV, FLAC, OGG, AAC, AIFF, WMA, AVI, MKV, WebM und 7 weitere Formate. Bis zu 5 GB und 10 Stunden pro Datei.
- 2
KI transkribiert in Minuten
VexaScribe wendet das Whisper-Large-v3-Modell von OpenAI auf dein Audio an. Eine 60-minütige Aufnahme ist in der Regel in 5-10 Minuten fertig. Schließe den Tab und komm später zurück — der Vorgang läuft im Hintergrund weiter.
- 3
Bearbeiten, exportieren, teilen
Überprüfe das Transkript im integrierten Editor. Benenne Sprecher um, korrigiere Fehler und exportiere in TXT, DOCX, SRT, VTT oder JSON. Per Link teilen oder herunterladen.
Unterstützte Audio- und Videoformate
17 Formate, die praktisch jedes Aufnahmegerät und Tool abdecken. Dateien bis zu 5 GB und 10 Stunden pro Upload.
Audioformate
- MP3Am häufigsten
- WAVVerlustfrei
- M4AiPhone-Standard
- FLACVerlustfrei
- OGGOffenes Format
- AACApple/Streaming
- AIFFProfi-Audio
- WMAWindows
- AMRMobil
- OPUSModernes Web
Videoformate
- MP4Am häufigsten
- MOVApple/QuickTime
- AVIWindows (Legacy)
- MKVHohe Qualität
- WebMWeb-Video
- FLVFlash (Legacy)
- WMVWindows
Audio wird automatisch aus Videodateien extrahiert. Das Video selbst wird nach der Transkription nicht aufbewahrt.
Was kannst du transkribieren?
Wenn es Audio enthält, kann VexaScribe es transkribieren. Häufige Anwendungsfälle:
Podcast-Folgen
Shownotes, Blogposts, SEO-Inhalte, durchsuchbare Archive. Solo- und Multi-Host-Shows mit Sprecherkennzeichnungen unterstützt.
Interviews
Journalismus, qualitative Forschung, Personalwesen. Multi-Sprecher-Diarisierung trennt Interviewer und Befragten automatisch.
Vorlesungen und Kurse
Studierende erfassen Vorlesungen zur Wiederholung. Lehrkräfte erstellen schriftliche Kursnotizen aus aufgezeichneten Sitzungen.
Meetings
Zoom-, Google-Meet-, Microsoft-Teams-Anrufe. Lade die Aufnahme hoch oder lass den VexaScribe-Meeting-Bot teilnehmen.
Telefonate
Vertriebsanrufe, Kundeninterviews, Support-Aufzeichnungen. Auf jedem Gerät aufnehmen, hochladen und ein Transkript mit Sprechern erhalten.
Video-Inhalte
YouTube-Videos, Schulungsvideos, Kursinhalte. SRT/VTT-Untertitel mit wortgenauen Zeitstempeln generieren.
Transkription in 99 Sprachen — mit automatischer Erkennung
Du musst die Sprache nicht manuell auswählen. VexaScribe erkennt die gesprochene Sprache automatisch aus dem Audio. Die Genauigkeit variiert je nach Sprachstufe:
~5 % Word Error Rate (höchste Genauigkeit)
~8-12 % Word Error Rate
+ 73 weitere Sprachen
Darunter Walisisch, Swahili, Filipino, Bengali, Punjabi, Tamil, Telugu, Marathi, Urdu, Persisch, Rumänisch, Ungarisch, Bulgarisch, Kroatisch und viele weitere. Die Genauigkeit variiert je nach Sprache und Audioqualität.
Was du mit jedem Transkript bekommst
Jede Transkription enthält diese Funktionen ohne Aufpreis in jedem bezahlten Tarif.
Sprecher-Diarisierung
Automatische Sprechererkennung und -kennzeichnung. Mehrere Sprecher erscheinen als Sprecher 1, Sprecher 2, Sprecher 3 usw. Benenne sie im Editor um (z. B. „Moderator“, „Gast“, echte Namen).
Wortgenaue Zeitstempel
Jedes Wort wird auf die Millisekunde mit einem Zeitstempel versehen. Klicke auf ein beliebiges Wort im Editor, um zu dieser Stelle im Audio zu springen. Unverzichtbar für Videountertitel und die Überprüfung von Zitaten.
Mehrere Exportformate
TXT (Klartext), DOCX (Word-Dokument), SRT (Videountertitel), VTT (Web-Untertitel) und JSON (für Entwickler). Alle Formate sind in jedem bezahlten Tarif ohne Upgrade verfügbar.
KI-Zusammenfassungen
Optionale KI-generierte Zusammenfassung mit den wichtigsten Punkten, Entscheidungen, Aufgaben und Kapitelmarken. In allen bezahlten Tarifen verfügbar. Nützlich für Meeting-Notizen, Podcast-Shownotes und die Nachbereitung von Vorlesungen.
Wie genau ist die Transkription von VexaScribe?
VexaScribe erreicht rund 95 % Genauigkeit (5 % Word Error Rate) bei klarem englischen Audio mit einem einzelnen Sprecher. Bei klarem deutschen Audio liegt die Genauigkeit typischerweise bei 93-95 %.
Die tatsächliche Genauigkeit variiert je nach Audioqualität:
- ●Klares Podcast-Audio: 3-6 % WER (94-97 % genau)
- ●Störungsbehaftete Interviews, Hintergrundmusik: 8-15 % WER (85-92 % genau)
- ●Starke Akzente, Fachjargon, mehrere überlappende Sprecher: 10-20 % WER (80-90 % genau)
Wir empfehlen, Transkripte vor der Veröffentlichung kritischer Inhalte zu überprüfen — kein KI-Tool erreicht die 99 %+ Genauigkeit menschlicher Transkription, aber VexaScribe ist 20-100× günstiger als menschliche Dienste wie Rev (1,99 $/Min.).
Einfache, transparente Preise
Zahle nur, was du nutzt. Keine Gebühren pro Platz, keine versteckten Kosten. Jederzeit kündbar.
Starter
200 Min./Monat
Solo-Creator
Basic
1.000 Min./Monat
Regelmäßige Podcaster
Pro
2.500 Min./Monat
Intensive Nutzung
Häufig gestellte Fragen
Wie wandelt VexaScribe Audio in Text um?
VexaScribe verwendet das Whisper-Large-v3-Modell von OpenAI, um Sprache in Text umzuwandeln. Lade eine Audio- oder Videodatei hoch, und die KI verarbeitet die gesamte Aufnahme — mit Sprecherkennzeichnungen, wortgenauen Zeitstempeln und optionalen KI-Zusammenfassungen. Eine 60-minütige Datei ist in der Regel in 5-10 Minuten fertig.
Welche Audio- und Videoformate kann ich transkribieren?
VexaScribe akzeptiert MP3, WAV, M4A, FLAC, OGG, AAC, AIFF, WMA, AMR, OPUS für Audio sowie MP4, MOV, AVI, MKV, WebM, FLV, WMV für Video. Dateien können bis zu 5 GB groß und 10 Stunden lang sein. Bei Videodateien extrahieren wir die Tonspur automatisch.
Wie lange dauert die Transkription einer einstündigen Audiodatei?
Die meisten einstündigen Dateien sind in 5-10 Minuten fertig. Die Verarbeitungsgeschwindigkeit hängt von der Audioqualität, der aktuellen Auslastung und dem Dateiformat ab. Du kannst den Browser-Tab schließen und später zurückkehren — das Transkript wartet in deinem Dashboard, sobald es fertig ist.
Ist VexaScribe kostenlos?
Ja, du bekommst 30 Minuten Transkription kostenlos ohne Kreditkarte. Nach dem kostenlosen Kontingent starten bezahlte Tarife bei 2 $/Monat für 200 Minuten (Starter), 5 $/Monat für 1.000 Minuten (Basic), 10 $/Monat für 2.500 Minuten (Pro) und 20 $/Monat für 6.000 Minuten (Studio). Jederzeit kündbar.
Wie genau ist die Transkription von VexaScribe?
VexaScribe erreicht rund 95 % Genauigkeit (5 % Word Error Rate) bei klarem englischen Audio mit einem einzelnen Sprecher; bei klarem deutschen Audio liegt die Genauigkeit typischerweise bei 93-95 %. Die tatsächliche Genauigkeit variiert: klares Podcast-Audio liegt bei 3-6 % WER, geräuschvolle Interviews bei 8-15 % WER und Aufnahmen mit starken Akzenten oder Fachjargon bei 10-20 % WER. Wir empfehlen, Transkripte vor der Veröffentlichung kritischer Inhalte zu überprüfen.
Welche Sprachen werden unterstützt?
99 Sprachen einschließlich Deutsch, Englisch, Spanisch, Französisch, Italienisch, Portugiesisch, Niederländisch, Russisch, Polnisch, Japanisch, Chinesisch, Koreanisch, Arabisch, Türkisch, Hindi, Vietnamesisch, Thailändisch und viele weitere. Die Sprache wird automatisch erkannt — du musst sie vor dem Hochladen nicht manuell auswählen.
Kann ich Videodateien transkribieren?
Ja. Lade MP4-, MOV-, AVI-, MKV-, WebM-, FLV- oder WMV-Dateien hoch, und wir extrahieren die Tonspur automatisch. Das Transkript enthält Zeitstempel, sodass du es mit deinem Videoeditor synchronisieren, Untertitel generieren (SRT/VTT-Export) oder Videoinhalte in Blogposts umwandeln kannst.
Erkennt VexaScribe mehrere Sprecher?
Ja, automatische Sprecher-Diarisierung ist in jedem Transkript enthalten. Mehrere Sprecher werden als Sprecher 1, Sprecher 2, Sprecher 3 usw. gekennzeichnet. Du kannst Sprecher im integrierten Editor umbenennen (z. B. „Moderator“, „Gast“, echte Namen) für mehr Klarheit im finalen Transkript.
Sind meine Audiodaten privat und sicher?
Audiodateien werden über TLS-1.2+-Verschlüsselung übertragen und verschlüsselt in AWS eu-west-2 gespeichert. Wir trainieren keine KI-Modelle mit deinen Audiodaten. Wir verkaufen keine Nutzerdaten. Du kannst Dateien jederzeit über dein Dashboard löschen, und die Kontolöschung erfolgt selbstständig.
Wie exportiere ich das Transkript?
VexaScribe exportiert in TXT (Klartext), DOCX (Word-Dokument), SRT (Videountertitel), VTT (Web-Untertitel) und JSON (strukturierte Daten für Entwickler). Alle Formate sind in jedem bezahlten Tarif verfügbar. SRT und VTT enthalten wortgenaue Zeitstempel für Videoeditoren.