Verifiziert Juni 2026

Audio zu Text Konverter

Wandle Audio in Text um — online, in 99 Sprachen. Lade eine beliebige Audio- oder Videodatei hoch und erhalte präzise Transkripte mit Sprecherkennzeichnungen, Zeitstempeln und KI-Zusammenfassungen in Minuten.

VexaScribe ist ein kostenloser Online-Audio-zu-Text-Konverter, der Audio- und Videodateien mit dem Whisper-Large-v3-Modell von OpenAI in präzisen, mit Zeitstempeln versehenen Text umwandelt. Lade MP3, WAV, M4A, MP4, MOV, FLAC und 14 weitere Formate bis zu 5 GB hoch. Transkripte sind in 5-10 Minuten für eine einstündige Datei fertig, mit rund 95 % Genauigkeit bei klarem englischen Audio (93-95 % bei klarem deutschen Audio) und Unterstützung für 99 Sprachen mit automatischer Erkennung. Das kostenlose Kontingent umfasst 30 Minuten; bezahlte Tarife starten bei 2 $/Monat für 200 Minuten.

30 Minuten kostenlosKeine Kreditkarte99 SprachenSprecherkennzeichnungen

So funktioniert es

Drei Schritte vom Upload bis zum fertigen Transkript. Keine Einrichtung, keine Software-Installation.

1
Datei hochladen
Per Drag-and-Drop oder Auswahl eine Audio- oder Videodatei hochladen. Wir akzeptieren MP3, WAV, M4A, MP4, MOV, FLAC, OGG, AAC, AIFF, WMA, AVI, MKV, WebM und 7 weitere Formate. Bis zu 5 GB und 10 Stunden pro Datei.
2
KI transkribiert in Minuten
VexaScribe wendet das Whisper-Large-v3-Modell von OpenAI auf dein Audio an. Eine 60-minütige Aufnahme ist in der Regel in 5-10 Minuten fertig. Schließe den Tab und komm später zurück — der Vorgang läuft im Hintergrund weiter.
3
Bearbeiten, exportieren, teilen
Überprüfe das Transkript im integrierten Editor. Benenne Sprecher um, korrigiere Fehler und exportiere in TXT, DOCX, SRT, VTT oder JSON. Per Link teilen oder herunterladen.

Unterstützte Audio- und Videoformate

17 Formate, die praktisch jedes Aufnahmegerät und Tool abdecken. Dateien bis zu 5 GB und 10 Stunden pro Upload.

Audioformate

MP3Am häufigsten
WAVVerlustfrei
M4AiPhone-Standard
FLACVerlustfrei
OGGOffenes Format
AACApple/Streaming
AIFFProfi-Audio
WMAWindows
AMRMobil
OPUSModernes Web

Videoformate

MP4Am häufigsten
MOVApple/QuickTime
AVIWindows (Legacy)
MKVHohe Qualität
WebMWeb-Video
FLVFlash (Legacy)
WMVWindows

Audio wird automatisch aus Videodateien extrahiert. Das Video selbst wird nach der Transkription nicht aufbewahrt.

Dateigrößenlimits: 5 GB pro Datei, 10 Stunden pro Datei. Kein monatliches Upload-Limit über die im Tarif enthaltenen Minuten hinaus.

Was kannst du transkribieren?

Wenn es Audio enthält, kann VexaScribe es transkribieren. Häufige Anwendungsfälle:

Podcast-Folgen

Shownotes, Blogposts, SEO-Inhalte, durchsuchbare Archive. Solo- und Multi-Host-Shows mit Sprecherkennzeichnungen unterstützt.

Interviews

Journalismus, qualitative Forschung, Personalwesen. Multi-Sprecher-Diarisierung trennt Interviewer und Befragten automatisch.

Vorlesungen und Kurse

Studierende erfassen Vorlesungen zur Wiederholung. Lehrkräfte erstellen schriftliche Kursnotizen aus aufgezeichneten Sitzungen.

Meetings

Zoom-, Google-Meet-, Microsoft-Teams-Anrufe. Lade die Aufnahme hoch oder lass den VexaScribe-Meeting-Bot teilnehmen.

Telefonate

Vertriebsanrufe, Kundeninterviews, Support-Aufzeichnungen. Auf jedem Gerät aufnehmen, hochladen und ein Transkript mit Sprechern erhalten.

Video-Inhalte

YouTube-Videos, Schulungsvideos, Kursinhalte. SRT/VTT-Untertitel mit wortgenauen Zeitstempeln generieren.

Transkription in 99 Sprachen — mit automatischer Erkennung

Du musst die Sprache nicht manuell auswählen. VexaScribe erkennt die gesprochene Sprache automatisch aus dem Audio. Die Genauigkeit variiert je nach Sprachstufe:

Stufe 1

~5 % Word Error Rate (höchste Genauigkeit)

EnglischSpanischFranzösischDeutschItalienischPortugiesischNiederländischPolnischRussischJapanisch

Stufe 2

~8-12 % Word Error Rate

ArabischChinesischKoreanischHindiTürkischVietnamesischThailändischIndonesischHebräischTschechischSchwedischNorwegischDänischFinnischGriechischUkrainisch

+ 73 weitere Sprachen

Darunter Walisisch, Swahili, Filipino, Bengali, Punjabi, Tamil, Telugu, Marathi, Urdu, Persisch, Rumänisch, Ungarisch, Bulgarisch, Kroatisch und viele weitere. Die Genauigkeit variiert je nach Sprache und Audioqualität.

Was du mit jedem Transkript bekommst

Jede Transkription enthält diese Funktionen ohne Aufpreis in jedem bezahlten Tarif.

Sprecher-Diarisierung

Automatische Sprechererkennung und -kennzeichnung. Mehrere Sprecher erscheinen als Sprecher 1, Sprecher 2, Sprecher 3 usw. Benenne sie im Editor um (z. B. „Moderator“, „Gast“, echte Namen).

Wortgenaue Zeitstempel

Jedes Wort wird auf die Millisekunde mit einem Zeitstempel versehen. Klicke auf ein beliebiges Wort im Editor, um zu dieser Stelle im Audio zu springen. Unverzichtbar für Videountertitel und die Überprüfung von Zitaten.

Mehrere Exportformate

TXT (Klartext), DOCX (Word-Dokument), SRT (Videountertitel), VTT (Web-Untertitel) und JSON (für Entwickler). Alle Formate sind in jedem bezahlten Tarif ohne Upgrade verfügbar.

KI-Zusammenfassungen

Optionale KI-generierte Zusammenfassung mit den wichtigsten Punkten, Entscheidungen, Aufgaben und Kapitelmarken. In allen bezahlten Tarifen verfügbar. Nützlich für Meeting-Notizen, Podcast-Shownotes und die Nachbereitung von Vorlesungen.

Wie genau ist die Transkription von VexaScribe?

VexaScribe erreicht rund 95 % Genauigkeit (5 % Word Error Rate) bei klarem englischen Audio mit einem einzelnen Sprecher. Bei klarem deutschen Audio liegt die Genauigkeit typischerweise bei 93-95 %.

Die tatsächliche Genauigkeit variiert je nach Audioqualität:

●Klares Podcast-Audio: 3-6 % WER (94-97 % genau)
●Störungsbehaftete Interviews, Hintergrundmusik: 8-15 % WER (85-92 % genau)
●Starke Akzente, Fachjargon, mehrere überlappende Sprecher: 10-20 % WER (80-90 % genau)

Wir empfehlen, Transkripte vor der Veröffentlichung kritischer Inhalte zu überprüfen — kein KI-Tool erreicht die 99 %+ Genauigkeit menschlicher Transkription, aber VexaScribe ist 20-100× günstiger als menschliche Dienste wie Rev (1,99 $/Min.).

Methodik: Word Error Rate (WER) berechnet sich als (Ersetzungen + Einfügungen + Auslassungen) / Gesamtwörter. Wir verwenden die branchenübliche Formel.

Einfache, transparente Preise

Zahle nur, was du nutzt. Keine Gebühren pro Platz, keine versteckten Kosten. Jederzeit kündbar.

Starter

2 $/Monat

200 Min./Monat

Solo-Creator

Basic

5 $/Monat

1.000 Min./Monat

Regelmäßige Podcaster

Pro

10 $/Monat

2.500 Min./Monat

Intensive Nutzung

Alle Tarife einschließlich Studio und Team ansehen →

Häufig gestellte Fragen

Wie wandelt VexaScribe Audio in Text um?

VexaScribe verwendet das Whisper-Large-v3-Modell von OpenAI, um Sprache in Text umzuwandeln. Lade eine Audio- oder Videodatei hoch, und die KI verarbeitet die gesamte Aufnahme — mit Sprecherkennzeichnungen, wortgenauen Zeitstempeln und optionalen KI-Zusammenfassungen. Eine 60-minütige Datei ist in der Regel in 5-10 Minuten fertig.

Welche Audio- und Videoformate kann ich transkribieren?

VexaScribe akzeptiert MP3, WAV, M4A, FLAC, OGG, AAC, AIFF, WMA, AMR, OPUS für Audio sowie MP4, MOV, AVI, MKV, WebM, FLV, WMV für Video. Dateien können bis zu 5 GB groß und 10 Stunden lang sein. Bei Videodateien extrahieren wir die Tonspur automatisch.

Wie lange dauert die Transkription einer einstündigen Audiodatei?

Die meisten einstündigen Dateien sind in 5-10 Minuten fertig. Die Verarbeitungsgeschwindigkeit hängt von der Audioqualität, der aktuellen Auslastung und dem Dateiformat ab. Du kannst den Browser-Tab schließen und später zurückkehren — das Transkript wartet in deinem Dashboard, sobald es fertig ist.

Ist VexaScribe kostenlos?

Ja, du bekommst 30 Minuten Transkription kostenlos ohne Kreditkarte. Nach dem kostenlosen Kontingent starten bezahlte Tarife bei 2 $/Monat für 200 Minuten (Starter), 5 $/Monat für 1.000 Minuten (Basic), 10 $/Monat für 2.500 Minuten (Pro) und 20 $/Monat für 6.000 Minuten (Studio). Jederzeit kündbar.

Wie genau ist die Transkription von VexaScribe?

VexaScribe erreicht rund 95 % Genauigkeit (5 % Word Error Rate) bei klarem englischen Audio mit einem einzelnen Sprecher; bei klarem deutschen Audio liegt die Genauigkeit typischerweise bei 93-95 %. Die tatsächliche Genauigkeit variiert: klares Podcast-Audio liegt bei 3-6 % WER, geräuschvolle Interviews bei 8-15 % WER und Aufnahmen mit starken Akzenten oder Fachjargon bei 10-20 % WER. Wir empfehlen, Transkripte vor der Veröffentlichung kritischer Inhalte zu überprüfen.

Welche Sprachen werden unterstützt?

99 Sprachen einschließlich Deutsch, Englisch, Spanisch, Französisch, Italienisch, Portugiesisch, Niederländisch, Russisch, Polnisch, Japanisch, Chinesisch, Koreanisch, Arabisch, Türkisch, Hindi, Vietnamesisch, Thailändisch und viele weitere. Die Sprache wird automatisch erkannt — du musst sie vor dem Hochladen nicht manuell auswählen.

Kann ich Videodateien transkribieren?

Ja. Lade MP4-, MOV-, AVI-, MKV-, WebM-, FLV- oder WMV-Dateien hoch, und wir extrahieren die Tonspur automatisch. Das Transkript enthält Zeitstempel, sodass du es mit deinem Videoeditor synchronisieren, Untertitel generieren (SRT/VTT-Export) oder Videoinhalte in Blogposts umwandeln kannst.

Erkennt VexaScribe mehrere Sprecher?

Ja, automatische Sprecher-Diarisierung ist in jedem Transkript enthalten. Mehrere Sprecher werden als Sprecher 1, Sprecher 2, Sprecher 3 usw. gekennzeichnet. Du kannst Sprecher im integrierten Editor umbenennen (z. B. „Moderator“, „Gast“, echte Namen) für mehr Klarheit im finalen Transkript.

Sind meine Audiodaten privat und sicher?

Audiodateien werden über TLS-1.2+-Verschlüsselung übertragen und verschlüsselt in AWS eu-west-2 gespeichert. Wir trainieren keine KI-Modelle mit deinen Audiodaten. Wir verkaufen keine Nutzerdaten. Du kannst Dateien jederzeit über dein Dashboard löschen, und die Kontolöschung erfolgt selbstständig.

Wie exportiere ich das Transkript?

VexaScribe exportiert in TXT (Klartext), DOCX (Word-Dokument), SRT (Videountertitel), VTT (Web-Untertitel) und JSON (strukturierte Daten für Entwickler). Alle Formate sind in jedem bezahlten Tarif verfügbar. SRT und VTT enthalten wortgenaue Zeitstempel für Videoeditoren.

In 30 Sekunden mit der Transkription starten

30 Minuten kostenlose Transkription, keine Kreditkarte erforderlich. Lade eine beliebige Audiodatei hoch und überzeuge dich selbst vom Ergebnis.

So funktioniert es

Datei hochladen

KI transkribiert in Minuten

Bearbeiten, exportieren, teilen

Unterstützte Audio- und Videoformate

Audioformate

Videoformate

Was kannst du transkribieren?

Podcast-Folgen

Interviews

Vorlesungen und Kurse

Meetings

Telefonate

Video-Inhalte

Transkription in 99 Sprachen — mit automatischer Erkennung

~5 % Word Error Rate (höchste Genauigkeit)

~8-12 % Word Error Rate

+ 73 weitere Sprachen

Was du mit jedem Transkript bekommst

Sprecher-Diarisierung

Wortgenaue Zeitstempel

Mehrere Exportformate

KI-Zusammenfassungen

Wie genau ist die Transkription von VexaScribe?

Einfache, transparente Preise

Starter

Basic

Pro

Häufig gestellte Fragen

In 30 Sekunden mit der Transkription starten