Verificado em junho de 2026

Transcrever e traduzir áudio — em qualquer idioma

Whisper Large-v3 transcreve em 99 idiomas; LLM traduz para 80+. Você recebe texto e legendas SRT bilíngues — sem dublagem IA, preservando a voz original do orador.

VexaScribe transcreve áudio em 99 idiomas com Whisper Large-v3 (precisão Tier 1 ~92-97% em inglês, espanhol, francês, alemão, japonês, mandarim) e traduz para português brasileiro e 80+ outros idiomas via LLM otimizado para texto contínuo. Pipeline em duas etapas: áudio → texto no original → texto traduzido — preserva precisão, permite revisão humana entre etapas, é juridicamente seguro. Saídas: TXT, DOCX, SRT bilíngue (linha original + linha traduzida), VTT, JSON. Diferença ética crítica: NÃO fazemos dublagem IA (voice cloning) — nossa ferramenta é para legendadores, tradutores, jornalistas e pesquisadores, alinhada ao movimento Dublagem Viva e ao PL 2462/2025. Hospedagem em AWS eu-west-2 (Londres), fora do Cloud Act dos EUA — adequado para LGPD, sigilo de fonte, dados sensíveis. 30 minutos grátis sem cartão de crédito.

99 idiomas Whisper80+ pares de traduçãoSRT bilíngueSem dublagem IA

O essencial

  • Pipeline em duas etapas: transcrição (Whisper Large-v3, 99 idiomas) → tradução (LLM, 80+ idiomas). Sem voice cloning.
  • Saídas profissionais: TXT, DOCX, SRT bilíngue (linha original + linha traduzida), VTT, JSON com timestamps.
  • Tier 1 (92-97% precisão): inglês, espanhol, francês, alemão, italiano, japonês, mandarim, coreano. Tradução LLM acompanha qualidade.
  • Posicionamento ético: NÃO fazemos dublagem IA. PL 2462/2025 + movimento Dublagem Viva + Lei 12.485/2011 contextualizam a escolha.
  • LGPD com servidor UE: AWS eu-west-2 (Londres). Fora do Cloud Act EUA — adequado para fonte confidencial, dado sensível, sigilo profissional.
  • Revisão humana é parte do workflow. IA acelera ~80%; revisão de 30 min/h cobre os 20% finais (termos técnicos, nomes próprios, nuance cultural).

Como funciona o pipeline

O fluxo separa transcrição e tradução em duas etapas — diferente das ferramentas de dublagem IA que vão direto áudio→áudio. A separação é deliberada e gera três vantagens.

Áudio (qualquer idioma) Whisper Large-v3 Texto no idioma original

Texto no idioma original LLM tradução Texto em PT-BR (ou outro)

  1. Preserva precisão. A transcrição capta exatamente o que foi dito; a tradução parte de texto limpo, não de áudio ruidoso.
  2. Permite revisão entre etapas. Você pode corrigir nomes próprios no texto original antes de traduzir — economiza retrabalho.
  3. É juridicamente seguro. Tradução de texto é trabalho derivado regulado pela Lei 9.610/1998 (Direitos Autorais) há décadas; voice cloning está em terreno legal incerto (PL 2462/2025).

Idiomas suportados

Whisper Large-v3 cobre 99 idiomas — qualidade varia por tier. Tradução para PT-BR funciona para qualquer um deles; pares menos comuns têm qualidade variável e exigem mais revisão.

Tier 1 (92-97%)

Inglês, espanhol, francês, alemão, italiano, holandês, russo, polonês, português (PT/BR), japonês, mandarim, coreano.

Tier 2 (88-92%)

Árabe, turco, hindi, vietnamita, tailandês, indonésio, ucraniano, tcheco, húngaro, romeno, sueco, dinamarquês, finlandês.

Tier 3 (75-88%)

Suaíli, bengali, punjabi, tâmil, télugo, galês, e outras línguas com menos dados de treinamento. Sempre revisar.

Tutorial em 4 passos

  1. 1

    Upload do áudio ou vídeo

    Arraste MP3, M4A, WAV (áudio) ou MP4, MOV (vídeo). Limite 5 GB e 10 horas. Whisper detecta automaticamente o idioma de origem.

  2. 2

    Transcrição no idioma original

    Whisper Large-v3 processa em 5-10 min/h. Gera texto com timestamps ao nível da palavra, diarização (até 10 vozes), pontuação automática.

  3. 3

    Escolher idioma de destino

    No painel: “Traduzir para...” → escolha PT-BR (ou qualquer outro idioma). LLM otimizado para texto contínuo gera tradução comparável a tradutor humano.

  4. 4

    Revisar e exportar

    Revise nomes próprios e termos técnicos (~20% do trabalho). Exporte TXT, DOCX, SRT bilíngue, VTT ou JSON.

Casos de uso no Brasil

Jornalismo internacional

Globo, Folha, UOL, Estadão, Veja com fontes em inglês/espanhol

Entrevista com fonte estrangeira → transcrição no original → tradução para PT-BR → publicação com citação precisa. Proteção de fonte (CF art. 5º XIV) exige hospedagem fora dos EUA. Abraji + Google lançaram em out/2025 o “Gemini Tools Kit for Journalists” — IA está integrada nas redações brasileiras.

Pesquisa acadêmica

USP, UFRJ, UNICAMP, UNB com fontes/literatura internacionais

Entrevistas com participantes internacionais (estudo multi-país), seminários gravados em alemão/japonês, palestras em inglês para resumo em PT-BR. Workflow: transcrever → traduzir → importar em NVivo/ATLAS.ti → codificar. CEP/CONEP exige anonimização e armazenamento controlado.

Negócios B2B

Reuniões com clientes/fornecedores na Europa, EUA, Ásia, LATAM

Call internacional → transcrição + tradução para PT-BR → ata circulada para time interno + ata em inglês para parceiro estrangeiro. Reduz custo de interpretação ao vivo e cria registro fiel. Cuidado LGPD com dados sensíveis em reuniões executivas.

Criadores de conteúdo

YouTube, TikTok, podcasts com audiência multilíngue

Legendar vídeo em inglês para audiência BR (gateway de crescimento), ou vice-versa: criador brasileiro legendando vídeo em PT-BR para audiência global. SRT bilíngue acelera audiência hispana/lusófona. Mantém voz original — autenticidade do criador é parte do produto.

Educação e EdTech

Cursos importados (Coursera, edX, MIT OCW), palestras estrangeiras

Transcrever palestras de Stanford/MIT em inglês e traduzir para PT-BR — material de apoio para alunos brasileiros. Cursos importados sem licença de dublagem podem usar legendas em PT-BR sem violar direitos autorais sobre a voz/imagem do palestrante original.

ONGs e diplomacia

ONU, organismos multilaterais, ONGs internacionais com escritório BR

Conferências em inglês/francês/espanhol → relatórios multilíngues. Documentação ágil para reuniões com Itamaraty, agências da ONU, fundações filantrópicas. Hospedagem UE preferida por compliance internacional.

Tradução de texto vs. dublagem IA: a diferença ética

Esta é uma escolha deliberada do VexaScribe. A diferença entre o que fazemos (tradução de texto) e o que ferramentas de voice cloning fazem (dublagem IA) é técnica, jurídica e ética.

O que VexaScribe faz

  • ● Gera TEXTO traduzido (DOCX, TXT)
  • ● Gera LEGENDAS bilíngues (SRT, VTT)
  • ● Preserva 100% a voz original do orador
  • ● Equivalente a tradutor humano em workflow digital

O que ferramentas de dublagem IA fazem

  • ● Geram VOZ sintética que “fala” o texto traduzido
  • ● Clonam timbre, sotaque, emoção do orador original
  • ● Substituem a voz original — orador “fala” idioma que não fala
  • ● Ferramentas: Synthesia, ElevenLabs, Rask AI, HeyGen

Por que escolhemos o lado da tradução de texto

  • PL 2462/2025 — projeto de lei brasileiro propõe proibir uso de IA para dublagem em obras audiovisuais comerciais, com multa de R$ 50.000 e suspensão de 90 dias da atividade. A discussão está ativa no Congresso.
  • Movimento “Dublagem Viva” — dubladores brasileiros como Wendel Bezerra, Mário Jorge, Manolo Rey, Marcelo Garcia se posicionaram publicamente contra IA generativa de voz. A dublagem brasileira é Patrimônio Cultural Imaterial reconhecido internacionalmente.
  • Lei 12.485/2011 (TV paga) — já exige dublagem profissional para conteúdo nacional. Reforça o ethos cultural de proteção ao trabalho dos dubladores brasileiros.
  • A voz é parte do conteúdo. Em entrevista, sotaque e timbre transmitem informação (jornalismo); em palestra, emoção autenticidade (educação); em podcast, identidade (criadores). Texto traduzido + legenda permite ao espectador OUVIR o original e LER a tradução.

VexaScribe é ferramenta para legendadores profissionais, tradutores, jornalistas, pesquisadores e criadores — não para substituir dubladores. Para legendas profissionais com padrões ABNT NBR 15290 (acessibilidade), veja o gerador de legendas.

Qualidade da tradução: o que esperar

Sermos honestos sobre a precisão é parte do produto. O pipeline tem duas etapas independentes — entender onde cada uma falha ajuda a planejar a revisão.

EtapaQualidade típicaOnde falha
Transcrição (áudio → texto original)92-97% em Tier 1, áudio limpoSotaques marcados, ruído de fundo, sobreposição de vozes
Tradução (texto original → PT-BR)~92-95% para texto contínuo geralTermos técnicos do seu setor, nomes próprios raros, gírias muito atuais, nuance cultural
Acumulado (sem revisão)~85-90%Soma dos erros das duas etapas
Acumulado (com revisão de 30 min/h)96-98%Equivalente a tradução humana profissional

Para conteúdo crítico (publicação em jornal, livro, contrato), sempre revisar. Para uso interno (anotações, pauta, análise), o resultado bruto já é utilizável. O ganho real da IA não é “eliminar revisão” — é acelerar 80% do trabalho para você focar nos 20% que realmente exigem julgamento humano.

VexaScribe vs alternativas

Mercado de transcrição + tradução tem dois grupos: ferramentas focadas em texto/legendas (VexaScribe, Sonix, Maestra parcial) e ferramentas focadas em dublagem IA (Synthesia, Rask, HeyGen). Posicionamento ético é o eixo de decisão mais importante para o Brasil em 2026.

FerramentaIdiomasModeloSRT bilíngueServidorDublagem IAPreço
VexaScribe99 transcrição / 80+ traduçãoWhisper Large-v3 + LLM✅ SimLondres (UK-GDPR)❌ Não — só texto~R$ 11-110/mês
Maestra125+ idiomasProprietário✅ SimEUA✅ Faz dublagem IA~US$ 49/mês (R$ 270)
Sonix40+ idiomasProprietário✅ SimEUA❌ Não~US$ 22/mês (R$ 120)
Synthesia / Rask / HeyGen30-130 idiomasVoice cloning + LLMVariávelEUA✅ Foco principal~US$ 30-90/mês
VozParaTextoFoco PT-BR (tradução não destacada)Proprietário (claim AssemblyAI)Não documentadoBR❌ NãoR$ 19,90-149,90/mês
SintesyFoco PT-BR (tradução secundária)Whisper Large-v3Não destacadoBR/EUA❌ NãoR$ 12,49-39,90/mês

Preços e funcionalidades verificados em junho de 2026. Cotação USD/BRL ≈ 5,50.

LGPD: traduzindo dados sensíveis

Áudio em outro idioma continua sendo dado pessoal pela LGPD (art. 5º, II — voz é dado biométrico). E o conteúdo do áudio pode incluir dado sensível mesmo quando estrangeiro: dados de saúde de paciente, posição política, orientação sexual, dado financeiro (art. 11 LGPD).

  • Servidor fora da UE/UK = risco. Maestra, Sonix, ferramentas de dublagem IA armazenam nos EUA — sujeitas ao Cloud Act, que permite ao governo americano requisitar dados de empresas estabelecidas nos EUA.
  • VexaScribe armazena em Londres (AWS eu-west-2). UK-GDPR, fora do Cloud Act. Sem treino de IA com seu áudio. DPA disponível.
  • Para transferência internacional de dados (cliente europeu enviando áudio para análise no Brasil): UE-Brasil exige base legal (consentimento, contrato, decisão de adequação). VexaScribe documenta o tratamento para auditoria.

Para detalhes do tratamento LGPD em transcrição IA, veja transcrição com IA.

Perguntas frequentes

Como transcrever um áudio em inglês para texto em português?

Workflow em duas etapas no VexaScribe. (1) Upload do arquivo: arraste seu MP3, MP4, WAV ou M4A na interface. Whisper Large-v3 detecta automaticamente o idioma de origem nos primeiros 30 segundos — não precisa configurar manualmente. (2) Transcrição em inglês: a IA gera o texto no idioma original (inglês) com timestamps ao nível da palavra e diarização (até 10 vozes). Tempo médio: 5-10 minutos para 1 hora de áudio. (3) Tradução para português brasileiro: no painel, escolha “Traduzir para PT-BR”. A tradução é por LLM otimizado para texto contínuo (não é tradução de voz). Resultado: texto em português + opção de legendas SRT bilíngues (linha em inglês + linha em português). (4) Exportação: TXT, DOCX, SRT, VTT ou JSON com timestamps. Atenção: a tradução acelera ~80% do trabalho — os 20% finais (termos técnicos, gírias regionais, nuance cultural) exigem revisão humana antes de publicar.

Quais idiomas o VexaScribe transcreve e traduz?

Transcrição: Whisper Large-v3 cobre 99 idiomas. Tier 1 (precisão 92-97%): português (BR e PT), inglês, espanhol, francês, alemão, italiano, holandês, russo, polonês, japonês, mandarim, coreano. Tier 2 (88-92%): árabe, turco, hindi, vietnamita, tailandês, indonésio, ucraniano, tcheco, húngaro, romeno. Tier 3 (75-88%): suaíli, bengali, punjabi, tâmil, télugo, galês e outras línguas com menos dados de treinamento. Tradução: o pipeline cobre 80+ pares de idiomas mais comuns (inglês↔português, espanhol↔português, francês↔português, alemão↔português, italiano↔português, japonês↔português, mandarim↔português, etc.). Pares menos comuns (suaíli→português, por exemplo) funcionam, mas com qualidade variável. Sempre revise antes de publicar — especialmente para termos técnicos do seu domínio.

A tradução é automática ou preciso revisar?

Automática, mas exige revisão. O pipeline VexaScribe gera transcrição (Whisper Large-v3) e tradução (LLM) com qualidade boa para texto contínuo geral — funciona bem para entrevistas, podcasts, palestras, reuniões. Pontos onde a revisão humana é necessária: (1) Nomes próprios — IA acerta nomes comuns, erra nomes raros, marcas pouco conhecidas, abreviações locais. (2) Termos técnicos do seu setor — direito societário, terminologia médica especializada, jargão de TI específico do Brasil. (3) Gírias e regionalismos — “break a leg” (boa sorte), “piece of cake” (moleza) são bem traduzidos; gírias muito atuais (Gen Z, TikTok) podem ser literais demais. (4) Nuance cultural — humor irônico, sarcasmo, referências culturais podem perder força na tradução literal. Recomendação: use o tempo poupado (80% do trabalho) para revisão cuidadosa dos 20% restantes — o resultado final fica equivalente a tradução humana profissional, em uma fração do custo.

VexaScribe faz dublagem com IA (voice cloning)?

Não. Esta é uma escolha deliberada. VexaScribe gera apenas TEXTO traduzido e legendas (SRT/VTT) — preservamos a voz original do orador. Outras ferramentas no mercado (Synthesia, ElevenLabs, Rask AI, HeyGen) usam voice cloning para gerar uma voz sintética que “fala” o texto traduzido. Razões éticas e legais para nossa escolha: (1) PL 2462/2025 — projeto de lei brasileiro propõe proibir uso de IA para dublagem em obras audiovisuais comerciais, com multa de R$ 50.000 e suspensão de 90 dias da atividade. (2) Movimento “Dublagem Viva” — dubladores brasileiros (Wendel Bezerra, Mário Jorge, Manolo Rey, entre outros) defendem o trabalho humano contra IA generativa de voz. (3) Lei 12.485/2011 (TV paga) — já exige dublagem profissional para conteúdo nacional, reforçando o ethos cultural. VexaScribe se posiciona como ferramenta para legendadores profissionais, tradutores, jornalistas e pesquisadores — não para substituir dubladores. A voz original do orador é parte do conteúdo: timbre, sotaque, emoção transmitem informação que texto puro não captura.

Posso gerar legendas SRT bilíngues (idioma original + tradução)?

Sim. No painel VexaScribe, após a tradução estar pronta, escolha o formato de exportação SRT e marque a opção &ldquo;bilíngue&rdquo;. Cada bloco de legenda terá duas linhas: linha 1 no idioma original (ex. inglês), linha 2 na tradução (ex. português). Timestamps são compatíveis com YouTube, Vimeo, Final Cut Pro, DaVinci Resolve, Premiere Pro, OBS e qualquer player que aceite .srt. Útil para: (1) Vídeos educacionais com aprendizado de idioma (conteúdo em inglês com tradução em PT-BR para o aluno acompanhar). (2) Reuniões internacionais B2B onde o vídeo será assistido por equipes em dois países. (3) Documentários e entrevistas internacionais publicados na imprensa brasileira (jornal, podcast). (4) Cursos online importados onde o original em inglês é mantido por questões de direito autoral. Para legendas só em português (sem linha em inglês), escolha SRT &ldquo;monolíngue&rdquo; com idioma traduzido. Para detalhes sobre formato e padrões ABNT NBR 15290 (acessibilidade), veja o <a href="/pt/gerador-de-legendas">gerador de legendas</a>.

É legal usar IA para transcrever e traduzir áudio comercialmente no Brasil?

Sim, com ressalvas. (1) Transcrição + tradução de texto (o que VexaScribe faz): totalmente legal — você gera um texto traduzido como faria um tradutor humano com mais rapidez. Direito autoral: o áudio original pertence ao orador/produtor; o texto traduzido é trabalho derivado regulado pela Lei 9.610/1998 (Direitos Autorais) — uso comercial exige autorização do detentor do original, igual a qualquer outra tradução. (2) Dublagem IA (voz sintética substituindo a voz original): PL 2462/2025 propõe restrição em obras audiovisuais comerciais. Mesmo antes da lei aprovada, dubladores podem alegar uso indevido de voz/imagem (CC art. 20, art. 5º X CF). VexaScribe NÃO faz dublagem IA. (3) Tradução juramentada com fé pública: serviços de IA não substituem tradutor juramentado registrado em Junta Comercial — para documentos oficiais (contratos internacionais, certidões, processos), tradução juramentada continua obrigatória. VexaScribe é adequado para: jornalismo (Abraji), pesquisa acadêmica (CEP/CONEP), conteúdo educacional, marketing, podcast, vídeo, reuniões B2B.

Qual a precisão da transcrição em inglês traduzida para PT-BR?

Duas etapas independentes do pipeline. (1) Transcrição (inglês → texto em inglês): Whisper Large-v3 atinge 95-97% em inglês de áudio limpo (estúdio, podcast profissional, vídeo corporativo bem gravado). Para áudio com sotaques marcados (indiano, escocês, do sul dos EUA) ou ruído, cai para 88-92%. (2) Tradução (texto em inglês → texto em PT-BR): LLM otimizado para tradução atinge ~92-95% de qualidade comparável a tradutor humano para texto contínuo geral. Termos técnicos do seu setor e nomes próprios reduzem para 80-85% — sempre revisar. (3) Acumulado (do áudio em inglês ao texto final em PT-BR): ~85-90% sem revisão, ~96-98% com revisão de 30 min por hora de áudio. (4) Para benchmark formal: o Word Error Rate (WER) Whisper Large-v3 em inglês é ~5%; em PT-BR é ~8% (Distil-Whisper Common Voice Brasil). Para conteúdo crítico (publicação em jornal, livro, contrato), sempre revisar — para uso interno (anotações, preparação de pauta, análise), o resultado bruto já é utilizável.

Posso transcrever espanhol/francês/alemão e traduzir para português brasileiro?

Sim. Estes três idiomas estão em Tier 1 de Whisper Large-v3 — qualidade equivalente ao inglês. (1) Espanhol → PT-BR: especialmente útil para B2B com clientes em LATAM (Argentina, Chile, México, Colômbia), pesquisa acadêmica com fontes hispano-americanas, jornalismo cobrindo política regional. Atenção a falsos cognados (&ldquo;embarazada&rdquo; ≠ embaraçada). (2) Francês → PT-BR: documentários, cinema autoral, conteúdo educacional, entrevistas com fontes francófonas africanas (Senegal, Costa do Marfim) ou canadenses. (3) Alemão → PT-BR: B2B com indústria europeia, pesquisa acadêmica (alta produção alemã em ciências), conferências técnicas. O fluxo é idêntico ao do inglês: upload → detecção automática do idioma → transcrição no original → escolher PT-BR como destino → exportar. Para mais de uma tradução em paralelo (ex. transcrever em alemão e exportar legendas em PT-BR + ES + EN), os planos pagos permitem múltiplas exportações por arquivo.

Metodologia e fontes

  • ● Idiomas Whisper Large-v3: documentação oficial OpenAI (2023).
  • ● Benchmarks WER por idioma: paper Whisper (Radford et al., 2022) + Distil-Whisper Common Voice Brasil (8,22%).
  • ● PL 2462/2025: tramitação no Congresso Nacional — Câmara dos Deputados, junho 2026.
  • ● Movimento Dublagem Viva: declarações públicas de Wendel Bezerra, Mário Jorge e outros (2024-2026).
  • ● Lei 12.485/2011: Lei do SeAC (TV paga), art. 17.
  • ● LGPD: Lei 13.709/2018, arts. 5º, 11, 33-40 (transferência internacional).
  • ● Cloud Act EUA: 18 U.S.C. § 2713 (2018).
  • ● Preços de concorrentes (Maestra, Sonix, Synthesia, Rask, HeyGen): sites oficiais, junho 2026.

Continue lendo