Tradutor de Áudio e Vídeo — Legendas em 80+ Idiomas (PT-BR)

O essencial

●Pipeline em duas etapas: transcrição (Whisper Large-v3, 99 idiomas) → tradução (LLM, 80+ idiomas). Sem voice cloning.
●Saídas profissionais: TXT, DOCX, SRT bilíngue (linha original + linha traduzida), VTT, JSON com timestamps.
●Tier 1 (92-97% precisão): inglês, espanhol, francês, alemão, italiano, japonês, mandarim, coreano. Tradução LLM acompanha qualidade.
●Posicionamento ético: NÃO fazemos dublagem IA. PL 2462/2025 + movimento Dublagem Viva + Lei 12.485/2011 contextualizam a escolha.
●LGPD com servidor na UE: AWS eu-west-2 (Londres). Adequado para fonte confidencial, dado sensível, sigilo profissional sob política interna que prefira hospedagem na UE.
●Revisão humana é parte do workflow. IA acelera ~80%; revisão de 30 min/h cobre os 20% finais (termos técnicos, nomes próprios, nuance cultural).

Como funciona o pipeline

O fluxo separa transcrição e tradução em duas etapas — diferente das ferramentas de dublagem IA que vão direto áudio→áudio. A separação é deliberada e gera três vantagens.

Áudio (qualquer idioma) → Whisper Large-v3 → Texto no idioma original
↓
Texto no idioma original → LLM tradução → Texto em PT-BR (ou outro)

Preserva precisão. A transcrição capta exatamente o que foi dito; a tradução parte de texto limpo, não de áudio ruidoso.
Permite revisão entre etapas. Você pode corrigir nomes próprios no texto original antes de traduzir — economiza retrabalho.
É juridicamente seguro. Tradução de texto é trabalho derivado regulado pela Lei 9.610/1998 (Direitos Autorais) há décadas; voice cloning está em terreno legal incerto (PL 2462/2025).

Idiomas suportados

Whisper Large-v3 cobre 99 idiomas — qualidade varia por tier. Tradução para PT-BR funciona para qualquer um deles; pares menos comuns têm qualidade variável e exigem mais revisão.

Tier 1 (92-97%)

Inglês, espanhol, francês, alemão, italiano, holandês, russo, polonês, português (PT/BR), japonês, mandarim, coreano.

Tier 2 (88-92%)

Árabe, turco, hindi, vietnamita, tailandês, indonésio, ucraniano, tcheco, húngaro, romeno, sueco, dinamarquês, finlandês.

Tier 3 (75-88%)

Suaíli, bengali, punjabi, tâmil, télugo, galês, e outras línguas com menos dados de treinamento. Sempre revisar.

Tutorial em 4 passos

1
Upload do áudio ou vídeo
Arraste MP3, M4A, WAV (áudio) ou MP4, MOV (vídeo). Limite 5 GB e 10 horas. Whisper detecta automaticamente o idioma de origem.
2
Transcrição no idioma original
Whisper Large-v3 processa em 5-10 min/h. Gera texto com timestamps ao nível da palavra, diarização (até 10 vozes), pontuação automática.
3
Escolher idioma de destino
No painel: “Traduzir para...” → escolha PT-BR (ou qualquer outro idioma). LLM otimizado para texto contínuo gera tradução comparável a tradutor humano.
4
Revisar e exportar
Revise nomes próprios e termos técnicos (~20% do trabalho). Exporte TXT, DOCX, SRT bilíngue, VTT ou JSON.

Casos de uso no Brasil

Jornalismo internacional

Globo, Folha, UOL, Estadão, Veja com fontes em inglês/espanhol

Entrevista com fonte estrangeira → transcrição no original → tradução para PT-BR → publicação com citação precisa. Proteção de fonte (CF art. 5º XIV) exige hospedagem fora dos EUA. Abraji + Google lançaram em out/2025 o “Gemini Tools Kit for Journalists” — IA está integrada nas redações brasileiras.

Pesquisa acadêmica

USP, UFRJ, UNICAMP, UNB com fontes/literatura internacionais

Entrevistas com participantes internacionais (estudo multi-país), seminários gravados em alemão/japonês, palestras em inglês para resumo em PT-BR. Workflow: transcrever → traduzir → importar em NVivo/ATLAS.ti → codificar. CEP/CONEP exige anonimização e armazenamento controlado.

Negócios B2B

Reuniões com clientes/fornecedores na Europa, EUA, Ásia, LATAM

Call internacional → transcrição + tradução para PT-BR → ata circulada para time interno + ata em inglês para parceiro estrangeiro. Reduz custo de interpretação ao vivo e cria registro fiel. Cuidado LGPD com dados sensíveis em reuniões executivas.

Criadores de conteúdo

YouTube, TikTok, podcasts com audiência multilíngue

Legendar vídeo em inglês para audiência BR (gateway de crescimento), ou vice-versa: criador brasileiro legendando vídeo em PT-BR para audiência global. SRT bilíngue acelera audiência hispana/lusófona. Mantém voz original — autenticidade do criador é parte do produto.

Educação e EdTech

Cursos importados (Coursera, edX, MIT OCW), palestras estrangeiras

Transcrever palestras de Stanford/MIT em inglês e traduzir para PT-BR — material de apoio para alunos brasileiros. Cursos importados sem licença de dublagem podem usar legendas em PT-BR sem violar direitos autorais sobre a voz/imagem do palestrante original.

ONGs e diplomacia

ONU, organismos multilaterais, ONGs internacionais com escritório BR

Conferências em inglês/francês/espanhol → relatórios multilíngues. Documentação ágil para reuniões com Itamaraty, agências da ONU, fundações filantrópicas. Hospedagem UE preferida por compliance internacional.

Tradução de texto vs. dublagem IA: a diferença ética

Esta é uma escolha deliberada do VexaScribe. A diferença entre o que fazemos (tradução de texto) e o que ferramentas de voice cloning fazem (dublagem IA) é técnica, jurídica e ética.

O que VexaScribe faz

● Gera TEXTO traduzido (DOCX, TXT)
● Gera LEGENDAS bilíngues (SRT, VTT)
● Preserva 100% a voz original do orador
● Equivalente a tradutor humano em workflow digital

O que ferramentas de dublagem IA fazem

● Geram VOZ sintética que “fala” o texto traduzido
● Clonam timbre, sotaque, emoção do orador original
● Substituem a voz original — orador “fala” idioma que não fala
● Ferramentas: Synthesia, ElevenLabs, Rask AI, HeyGen

Por que escolhemos o lado da tradução de texto

●PL 2462/2025 — projeto de lei brasileiro propõe proibir uso de IA para dublagem em obras audiovisuais comerciais, com multa de R$ 50.000 e suspensão de 90 dias da atividade. A discussão está ativa no Congresso.
●Movimento “Dublagem Viva” — dubladores brasileiros como Wendel Bezerra, Mário Jorge, Manolo Rey, Marcelo Garcia se posicionaram publicamente contra IA generativa de voz. A dublagem brasileira é Patrimônio Cultural Imaterial reconhecido internacionalmente.
●Lei 12.485/2011 (TV paga) — já exige dublagem profissional para conteúdo nacional. Reforça o ethos cultural de proteção ao trabalho dos dubladores brasileiros.
●A voz é parte do conteúdo. Em entrevista, sotaque e timbre transmitem informação (jornalismo); em palestra, emoção autenticidade (educação); em podcast, identidade (criadores). Texto traduzido + legenda permite ao espectador OUVIR o original e LER a tradução.

VexaScribe é ferramenta para legendadores profissionais, tradutores, jornalistas, pesquisadores e criadores — não para substituir dubladores. Para legendas profissionais com padrões ABNT NBR 15290 (acessibilidade), veja o gerador de legendas.

Qualidade da tradução: o que esperar

Sermos honestos sobre a precisão é parte do produto. O pipeline tem duas etapas independentes — entender onde cada uma falha ajuda a planejar a revisão.

Etapa	Qualidade típica	Onde falha
Transcrição (áudio → texto original)	92-97% em Tier 1, áudio limpo	Sotaques marcados, ruído de fundo, sobreposição de vozes
Tradução (texto original → PT-BR)	~92-95% para texto contínuo geral	Termos técnicos do seu setor, nomes próprios raros, gírias muito atuais, nuance cultural
Acumulado (sem revisão)	~85-90%	Soma dos erros das duas etapas
Acumulado (com revisão de 30 min/h)	96-98%	Equivalente a tradução humana profissional

Para conteúdo crítico (publicação em jornal, livro, contrato), sempre revisar. Para uso interno (anotações, pauta, análise), o resultado bruto já é utilizável. O ganho real da IA não é “eliminar revisão” — é acelerar 80% do trabalho para você focar nos 20% que realmente exigem julgamento humano.

VexaScribe vs alternativas

Mercado de transcrição + tradução tem dois grupos: ferramentas focadas em texto/legendas (VexaScribe, Sonix, Maestra parcial) e ferramentas focadas em dublagem IA (Synthesia, Rask, HeyGen). Posicionamento ético é o eixo de decisão mais importante para o Brasil em 2026.

Ferramenta	Idiomas	Modelo	SRT bilíngue	Servidor	Dublagem IA	Preço
VexaScribe★	99 transcrição / 80+ tradução	Whisper Large-v3 + LLM	✅ Sim	Londres (UE)	❌ Não — só texto	~R$ 11-110/mês
Maestra	125+ idiomas	Proprietário	✅ Sim	EUA	✅ Faz dublagem IA	~US$ 49/mês (R$ 270)
Sonix	40+ idiomas	Proprietário	✅ Sim	EUA	❌ Não	~US$ 22/mês (R$ 120)
Synthesia / Rask / HeyGen	30-130 idiomas	Voice cloning + LLM	Variável	EUA	✅ Foco principal	~US$ 30-90/mês
VozParaTexto	Foco PT-BR (tradução não destacada)	Proprietário (claim AssemblyAI)	Não documentado	BR	❌ Não	R$ 19,90-149,90/mês
Sintesy	Foco PT-BR (tradução secundária)	Whisper Large-v3	Não destacado	BR/EUA	❌ Não	R$ 12,49-39,90/mês

Preços e funcionalidades verificados em junho de 2026. Cotação USD/BRL ≈ 5,50.

LGPD: traduzindo dados sensíveis

Áudio em outro idioma continua sendo dado pessoal pela LGPD (art. 5º, II — voz é dado biométrico). E o conteúdo do áudio pode incluir dado sensível mesmo quando estrangeiro: dados de saúde de paciente, posição política, orientação sexual, dado financeiro (art. 11 LGPD).

●Confira a localização dos dados. Maestra, Sonix e várias ferramentas de dublagem IA hospedam nos EUA; VexaScribe e Happy Scribe hospedam na UE; VozParaTexto no Brasil — alinhe ao que sua política interna exige.
●VexaScribe armazena em Londres (AWS eu-west-2, UE). Sem treino de IA com seu áudio. DPA disponível.
●Para transferência internacional de dados (cliente europeu enviando áudio para análise no Brasil): UE-Brasil exige base legal (consentimento, contrato, decisão de adequação). VexaScribe documenta o tratamento para auditoria.

Para detalhes do tratamento LGPD em transcrição IA, veja transcrição com IA.

Perguntas frequentes

Como transcrever um áudio em inglês para texto em português?

Workflow em duas etapas no VexaScribe. (1) Upload do arquivo: arraste seu MP3, MP4, WAV ou M4A na interface. Whisper Large-v3 detecta automaticamente o idioma de origem nos primeiros 30 segundos — não precisa configurar manualmente. (2) Transcrição em inglês: a IA gera o texto no idioma original (inglês) com timestamps ao nível da palavra e diarização (até 10 vozes). Tempo médio: 5-10 minutos para 1 hora de áudio. (3) Tradução para português brasileiro: no painel, escolha “Traduzir para PT-BR”. A tradução é por LLM otimizado para texto contínuo (não é tradução de voz). Resultado: texto em português + opção de legendas SRT bilíngues (linha em inglês + linha em português). (4) Exportação: TXT, DOCX, SRT, VTT ou JSON com timestamps. Atenção: a tradução acelera ~80% do trabalho — os 20% finais (termos técnicos, gírias regionais, nuance cultural) exigem revisão humana antes de publicar.

Quais idiomas o VexaScribe transcreve e traduz?

Transcrição: Whisper Large-v3 cobre 99 idiomas. Tier 1 (precisão 92-97%): português (BR e PT), inglês, espanhol, francês, alemão, italiano, holandês, russo, polonês, japonês, mandarim, coreano. Tier 2 (88-92%): árabe, turco, hindi, vietnamita, tailandês, indonésio, ucraniano, tcheco, húngaro, romeno. Tier 3 (75-88%): suaíli, bengali, punjabi, tâmil, télugo, galês e outras línguas com menos dados de treinamento. Tradução: o pipeline cobre 80+ pares de idiomas mais comuns (inglês↔português, espanhol↔português, francês↔português, alemão↔português, italiano↔português, japonês↔português, mandarim↔português, etc.). Pares menos comuns (suaíli→português, por exemplo) funcionam, mas com qualidade variável. Sempre revise antes de publicar — especialmente para termos técnicos do seu domínio.

A tradução é automática ou preciso revisar?

Automática, mas exige revisão. O pipeline VexaScribe gera transcrição (Whisper Large-v3) e tradução (LLM) com qualidade boa para texto contínuo geral — funciona bem para entrevistas, podcasts, palestras, reuniões. Pontos onde a revisão humana é necessária: (1) Nomes próprios — IA acerta nomes comuns, erra nomes raros, marcas pouco conhecidas, abreviações locais. (2) Termos técnicos do seu setor — direito societário, terminologia médica especializada, jargão de TI específico do Brasil. (3) Gírias e regionalismos — “break a leg” (boa sorte), “piece of cake” (moleza) são bem traduzidos; gírias muito atuais (Gen Z, TikTok) podem ser literais demais. (4) Nuance cultural — humor irônico, sarcasmo, referências culturais podem perder força na tradução literal. Recomendação: use o tempo poupado (80% do trabalho) para revisão cuidadosa dos 20% restantes — o resultado final fica equivalente a tradução humana profissional, em uma fração do custo.

VexaScribe faz dublagem com IA (voice cloning)?

Não. Esta é uma escolha deliberada. VexaScribe gera apenas TEXTO traduzido e legendas (SRT/VTT) — preservamos a voz original do orador. Outras ferramentas no mercado (Synthesia, ElevenLabs, Rask AI, HeyGen) usam voice cloning para gerar uma voz sintética que “fala” o texto traduzido. Razões éticas e legais para nossa escolha: (1) PL 2462/2025 — projeto de lei brasileiro propõe proibir uso de IA para dublagem em obras audiovisuais comerciais, com multa de R$ 50.000 e suspensão de 90 dias da atividade. (2) Movimento “Dublagem Viva” — dubladores brasileiros (Wendel Bezerra, Mário Jorge, Manolo Rey, entre outros) defendem o trabalho humano contra IA generativa de voz. (3) Lei 12.485/2011 (TV paga) — já exige dublagem profissional para conteúdo nacional, reforçando o ethos cultural. VexaScribe se posiciona como ferramenta para legendadores profissionais, tradutores, jornalistas e pesquisadores — não para substituir dubladores. A voz original do orador é parte do conteúdo: timbre, sotaque, emoção transmitem informação que texto puro não captura.

Posso gerar legendas SRT bilíngues (idioma original + tradução)?

Sim. No painel VexaScribe, após a tradução estar pronta, escolha o formato de exportação SRT e marque a opção “bilíngue”. Cada bloco de legenda terá duas linhas: linha 1 no idioma original (ex. inglês), linha 2 na tradução (ex. português). Timestamps são compatíveis com YouTube, Vimeo, Final Cut Pro, DaVinci Resolve, Premiere Pro, OBS e qualquer player que aceite .srt. Útil para: (1) Vídeos educacionais com aprendizado de idioma (conteúdo em inglês com tradução em PT-BR para o aluno acompanhar). (2) Reuniões internacionais B2B onde o vídeo será assistido por equipes em dois países. (3) Documentários e entrevistas internacionais publicados na imprensa brasileira (jornal, podcast). (4) Cursos online importados onde o original em inglês é mantido por questões de direito autoral. Para legendas só em português (sem linha em inglês), escolha SRT “monolíngue” com idioma traduzido. Para detalhes sobre formato e padrões ABNT NBR 15290 (acessibilidade), veja o <a href="/pt/gerador-de-legendas">gerador de legendas</a>.

É legal usar IA para transcrever e traduzir áudio comercialmente no Brasil?

Sim, com ressalvas. (1) Transcrição + tradução de texto (o que VexaScribe faz): totalmente legal — você gera um texto traduzido como faria um tradutor humano com mais rapidez. Direito autoral: o áudio original pertence ao orador/produtor; o texto traduzido é trabalho derivado regulado pela Lei 9.610/1998 (Direitos Autorais) — uso comercial exige autorização do detentor do original, igual a qualquer outra tradução. (2) Dublagem IA (voz sintética substituindo a voz original): PL 2462/2025 propõe restrição em obras audiovisuais comerciais. Mesmo antes da lei aprovada, dubladores podem alegar uso indevido de voz/imagem (CC art. 20, art. 5º X CF). VexaScribe NÃO faz dublagem IA. (3) Tradução juramentada com fé pública: serviços de IA não substituem tradutor juramentado registrado em Junta Comercial — para documentos oficiais (contratos internacionais, certidões, processos), tradução juramentada continua obrigatória. VexaScribe é adequado para: jornalismo (Abraji), pesquisa acadêmica (CEP/CONEP), conteúdo educacional, marketing, podcast, vídeo, reuniões B2B.

Qual a precisão da transcrição em inglês traduzida para PT-BR?

Duas etapas independentes do pipeline. (1) Transcrição (inglês → texto em inglês): Whisper Large-v3 atinge 95-97% em inglês de áudio limpo (estúdio, podcast profissional, vídeo corporativo bem gravado). Para áudio com sotaques marcados (indiano, escocês, do sul dos EUA) ou ruído, cai para 88-92%. (2) Tradução (texto em inglês → texto em PT-BR): LLM otimizado para tradução atinge ~92-95% de qualidade comparável a tradutor humano para texto contínuo geral. Termos técnicos do seu setor e nomes próprios reduzem para 80-85% — sempre revisar. (3) Acumulado (do áudio em inglês ao texto final em PT-BR): ~85-90% sem revisão, ~96-98% com revisão de 30 min por hora de áudio. (4) Para benchmark formal: o Word Error Rate (WER) Whisper Large-v3 em inglês é ~5%; em PT-BR é ~8% (Distil-Whisper Common Voice Brasil). Para conteúdo crítico (publicação em jornal, livro, contrato), sempre revisar — para uso interno (anotações, preparação de pauta, análise), o resultado bruto já é utilizável.

Traduzir arquivo SRT já pronto — como funciona?

Se você já tem um arquivo SRT (legendas prontas em outro idioma) e quer só traduzir sem re-transcrever, o fluxo é diferente. Duas opções: (1) Fluxo VexaScribe completo: faça upload do vídeo/áudio original, VexaScribe transcreve e gera o SRT direto no idioma de destino — vantagem: timestamps preservados, sincronização perfeita, todos os formatos exportáveis. Desvantagem: consome minutos da sua cota. (2) Tradução direta de SRT existente: para SRT que você já tem, ferramentas dedicadas de tradução de legendas são mais rápidas. Alternativas: (a) DeepL (deepl.com) — cole o texto do SRT bloco por bloco, cola de volta. Lento para arquivos grandes mas alta qualidade. (b) Subtitle Edit (open source, Windows) — importa .srt, traduz via Google Translate ou DeepL API integrada, exporta .srt traduzido preservando timestamps. (c) Aegisub — para tradutores profissionais de legendas, oferece controle total sobre timing e estilo. Recomendação: para traduzir SRT sem re-processar o áudio, use Subtitle Edit gratuito. Para gerar SRT traduzido A PARTIR DO VÍDEO, use VexaScribe — a qualidade da tradução no contexto do vídeo é superior (o LLM “vê” a fala contínua, não blocos isolados).

VexaScribe vs Maestra vs Sonix vs Notta para tradução de áudio em PT-BR — comparação honesta

Comparação para o caso de uso “traduzir áudio ou vídeo com IA em português brasileiro” (verificado em 24/07/2026). VexaScribe (US$ 2-20/mês, ~R$ 11-110): Whisper Large-v3 + LLM otimizado para tradução, hospedagem AWS Londres (UK-GDPR + LGPD), texto e legendas SRT/VTT bilíngues, SEM dublagem IA. Ideal para tradutores profissionais, jornalismo internacional, pesquisa acadêmica, criadores de conteúdo bilíngues. Sonix (US$ 5/h PAYG ou US$ 22/mês): tradução para 40+ idiomas, servidor US, sem dublagem, forte em legendas profissionais. Ideal para agências de tradução com workflow estabelecido. Notta (US$ 8,33-19/mês): tradução para 60+ idiomas, servidor US/Japão, integrações Zoom/Teams/Meet fortes. Ideal para reuniões B2B internacionais. Maestra (US$ 30/mês+): DUBLAGEM IA + tradução + legendas — inclui voice cloning que VexaScribe/Sonix/Notta não fazem. Ideal se você quer voz sintética narrando em PT-BR (mas atenção ao PL 2462/2025). Rask AI + HeyGen: similar à Maestra, foco em dublagem com sincronização labial. Regra rápida: (a) tradução textual + legendas + LGPD → VexaScribe; (b) dublagem IA com voice cloning → Maestra/Rask/HeyGen (ciente das restrições legais); (c) workflow B2B integrado com CRM/Zoom → Notta; (d) agência com necessidade de PAYG por hora → Sonix.

Posso transcrever espanhol/francês/alemão e traduzir para português brasileiro?

Sim. Estes três idiomas estão em Tier 1 de Whisper Large-v3 — qualidade equivalente ao inglês. (1) Espanhol → PT-BR: especialmente útil para B2B com clientes em LATAM (Argentina, Chile, México, Colômbia), pesquisa acadêmica com fontes hispano-americanas, jornalismo cobrindo política regional. Atenção a falsos cognados (“embarazada” ≠ embaraçada). (2) Francês → PT-BR: documentários, cinema autoral, conteúdo educacional, entrevistas com fontes francófonas africanas (Senegal, Costa do Marfim) ou canadenses. (3) Alemão → PT-BR: B2B com indústria europeia, pesquisa acadêmica (alta produção alemã em ciências), conferências técnicas. O fluxo é idêntico ao do inglês: upload → detecção automática do idioma → transcrição no original → escolher PT-BR como destino → exportar. Para mais de uma tradução em paralelo (ex. transcrever em alemão e exportar legendas em PT-BR + ES + EN), os planos pagos permitem múltiplas exportações por arquivo.

Metodologia e fontes

● Idiomas Whisper Large-v3: documentação oficial OpenAI (2023).
● Benchmarks WER por idioma: paper Whisper (Radford et al., 2022) + Distil-Whisper Common Voice Brasil (8,22%).
● PL 2462/2025: tramitação no Congresso Nacional — Câmara dos Deputados, junho 2026.
● Movimento Dublagem Viva: declarações públicas de Wendel Bezerra, Mário Jorge e outros (2024-2026).
● Lei 12.485/2011: Lei do SeAC (TV paga), art. 17.
● LGPD: Lei 13.709/2018, arts. 5º, 11, 33-40 (transferência internacional).
● Preços de concorrentes (Maestra, Sonix, Synthesia, Rask, HeyGen): sites oficiais, junho 2026.