Verificado em junho de 2026

Transcrever áudio em texto em português brasileiro

IA Whisper Large-v3, precisão Tier 1 (~93-95%), conforme LGPD com hospedagem em servidor europeu (Londres), tratamento de sotaques regionais brasileiros, exportação para TXT, DOCX, SRT, VTT ou JSON. 30 minutos grátis na inscrição, sem cartão.

VexaScribe transcreve seu áudio em português brasileiro com IA Whisper Large-v3 da OpenAI — o padrão técnico de 2026. Faça upload de qualquer arquivo (MP3, M4A, WAV, OGG, FLAC, AAC até 5 GB e 10 horas), receba a transcrição em 5-10 minutos por hora de áudio, com identificação automática de locutores (diarização) e timestamps ao nível da palavra. Detecção automática de português brasileiro com tratamento de sotaques regionais (paulista, carioca, sulista, mineiro, nordestino). Exportação para TXT, DOCX, SRT, VTT, JSON. Tradução integrada para 133 idiomas. Dados armazenados em AWS eu-west-2 (Londres) — conforme LGPD, sem treinamento de IA com seus arquivos (compromisso contratual explícito, diferencial vs Otter americano). 30 minutos grátis na inscrição, sem cartão de crédito.

30 min grátisConforme LGPDHospedagem UESuporte em português

O essencial

  • Precisão Whisper Large-v3 em PT-BR: ~93-95% em áudio limpo. Tier 1, comparável ao inglês. Detecção automática de português brasileiro vs europeu.
  • Conforme LGPD. Hospedagem AWS eu-west-2 (Londres), criptografia TLS 1.2+ e AES-256. VexaScribe não treina IA com seus áudios — compromisso contratual explícito.
  • 30 minutos grátis na inscrição sem cartão. Plano Starter a partir de US$ 2/mês (~R$ 11) para 200 minutos.
  • 5-10 minutos de processamento por 1 hora de áudio — vs 4-6 horas de transcrição manual humana (R$ 300-900 por hora no Brasil).
  • WhatsApp transcreve nativamente desde 2024 — mas VexaScribe é melhor para áudios encaminhados, WhatsApp Web/Desktop, áudios longos e exportação de arquivos. Ver página dedicada.
  • Todos os formatos aceitos: MP3, M4A (iPhone), WAV, OGG, FLAC, AAC, OPUS (WhatsApp). Arquivos até 5 GB e 10 horas.
  • Identificação automática de locutores (diarização) para 2-10 vozes — ideal para entrevistas, podcasts multi-participantes, reuniões.

Como transcrever áudio (3 passos)

Fluxo idêntico para qualquer formato (MP3, M4A, WAV) ou contexto (entrevista, podcast, aula, reunião).

  1. 1

    Upload do arquivo

    Arraste seu MP3, M4A, WAV ou outro formato de áudio. Limite de 5 GB e 10 horas por arquivo. Para M4A do iPhone: exportar do app Gravador via Compartilhar → Salvar em Arquivos. Detecção automática de português brasileiro.

  2. 2

    IA transcreve em PT-BR

    Whisper Large-v3 processa o áudio em 5-10 minutos por hora, com etiquetas automáticas de locutores (Speaker 1, 2…) e timestamps ao nível da palavra. Precisão ~93-95% em áudio limpo.

  3. 3

    Editar e exportar

    Renomeie locutores (Speaker 1 → Marcos), corrija nomes próprios e termos técnicos no editor integrado. Traduza para 133 idiomas se necessário. Exporte como TXT, DOCX, SRT, VTT ou JSON.

Precisão por sotaque do português

O português brasileiro está em Tier 1 do Whisper Large-v3 — categoria de máxima precisão, comparável ao inglês. Mas há variação importante por região e sotaque. Tabela única no mercado brasileiro de transcrição IA — nenhum concorrente publica esses números abertamente.

Sotaque / origemPrecisãoNotas
Paulista (São Paulo)94-96%Sotaque mais representado no treinamento Whisper, alta precisão
Carioca (Rio de Janeiro)93-95%Bem coberto, 'chiado' tratado corretamente
Sulista (RS, SC, PR)92-95%Bem coberto, exceto algumas marcas regionais fortes
Mineiro (Minas Gerais)92-94%Bom desempenho; algumas elisões podem reduzir precisão
Nordestino / Baiano88-92%Variações mais pronunciadas; revisão extra recomendada
Português europeu (PT-PT)91-93%Coberto mas levemente inferior ao PT-BR
Português africano (PALOP)85-90%Variável conforme sotaque local angolano/moçambicano

Fonte: Distil-Whisper Large-v3 PT-BR benchmark do Hugging Face (8,22% Word Error Rate em Common Voice) + testes internos VexaScribe em 30 áudios padronizados cobrindo as 5 principais regiões brasileiras.

Casos de uso por profissão

Seis perfis típicos de uso profissional da transcrição IA em português brasileiro.

Jornalista de redação

Entrevistas, coletivas de imprensa, fontes confidenciais

Workflow: entrevista gravada no celular ou Zoom H-series → upload VexaScribe → transcrição em 5-10 min → exportação DOCX para redação + extração de citações. Para proteção de fontes: hospedagem UE, sem treinamento de IA, DPA disponível. Diferencial crítico vs Otter (americano, treina IA por padrão) para jornalismo investigativo.

Advogado / advogada

Audiências gravadas, depoimentos de clientes, consultas

Workflow: gravação de audiência (CPC permite, mediante autorização) → transcrição para análise preparatória → exportação DOCX para o dossier do processo. Conformidade LGPD: sigilo profissional OAB exige tratamento adequado de dados pessoais sensíveis. VexaScribe: hospedagem UE, DPA disponível, sem reutilização. Para uso processual formal (verbatim certificado), ainda recomenda-se transcritor humano juramentado.

Pesquisador acadêmico (sciências sociais)

Entrevistas qualitativas, grupos focais, etnografia

Workflow: 20-100 entrevistas em PT-BR → transcrição automática com diarização → importação em NVivo, ATLAS.ti, MAXQDA → codificação temática. Economia de tempo enorme: ~6h de transcrição manual por hora de entrevista vs ~30 min de revisão com IA. Conformidade ética: cumpre exigências de Comitês de Ética em Pesquisa (CEP/CONEP) sobre tratamento de dados de informantes.

Podcaster brasileiro

Episódios semanais, multi-convidados, versão em vídeo no YouTube

Workflow: gravação multi-pista Riverside/SquadCast → exportação MP3 → transcrição com diarização (identifica cada convidado separadamente) → exportação TXT para show notes do site + SRT para vídeo no YouTube + tradução para inglês ou espanhol para audiência internacional. Brasil tem alguns dos maiores podcasts do mundo (Flow, Inteligência Ltda, PodPah, NerdCast) — workflow profissional importa.

Profissional de RH

Entrevistas de admissão gravadas, feedbacks, sessões de desligamento

Workflow: gravação com consentimento escrito (Art. 7º LGPD) → transcrição → arquivamento controlado no dossier do colaborador. Hospedagem UE é essencial para conformidade com LGPD em dados pessoais de funcionários. Para entrevistas estruturadas em volume (recrutamento em massa), VexaScribe acelera análise comparativa entre candidatos.

Professor / criadora de curso EAD

Cursos Hotmart, Eduzz, Kiwify, aulas gravadas

Workflow: aulas gravadas (vídeo ou áudio) → transcrição completa → exportação DOCX para apostila + SRT para legendas de acessibilidade. Acessibilidade é exigência crescente: tribunais brasileiros começam a aplicar a Lei Brasileira de Inclusão (Lei 13.146/2015) ao conteúdo educacional digital. Sem legendas, conteúdos podem ser questionados.

Formatos de áudio aceitos

VexaScribe aceita todos os formatos de áudio comuns nativamente, sem necessidade de conversão prévia.

FormatoUso típicoTamanho médio 1hPrecisão PT-BR
MP3Podcasts, gravadores digitais, smartphones (mais universal)30-60 MB / hora93-95%
M4AiPhone, iPad, Mac — gravador padrão Apple30-50 MB / hora93-95%
WAVEstúdio, qualidade máxima sem perda~600 MB / hora94-96%
FLACArquivo de alta qualidade, audiófilo~300 MB / hora94-96%
OGG / OPUSWhatsApp (Android), Discord, navegador web30-50 MB / hora92-95%
AACStreaming, broadcast30-50 MB / hora93-95%

Para vídeo (MP4, MOV, MKV), a extração de áudio é automática — ver transcrever vídeo em texto.

LGPD e privacidade

A LGPD (Lei 13.709/2018) trata a voz como dado pessoal e o conteúdo do áudio como dado potencialmente sensível, especialmente para áudios contendo informações de saúde, dados de menores, posicionamento religioso/político, ou conversas profissionais sigilosas. Critérios de conformidade que serviços de transcrição devem atender:

Base legal para tratamento (Art. 7)

Execução de contrato com você (Art. 7, V). O consentimento dos titulares dos áudios (interlocutores que aparecem no áudio) é sua responsabilidade enquanto controlador. VexaScribe atua como operador no sentido da LGPD, processando os dados nas suas instruções.

Local de armazenamento e transferência internacional

VexaScribe armazena em AWS eu-west-2 (Londres). A LGPD permite transferência internacional para países com nível adequado de proteção (Art. 33, I) — o Reino Unido tem decisão de adequação UE, considerada equivalente. Diferença importante: serviços americanos (Otter, Notta, Transkriptor) estão sujeitos ao Cloud Act dos EUA, que permite acesso governamental aos dados sem notificação ao titular brasileiro.

Sem treinamento de IA com seus dados

Compromisso contratual explícito da VexaScribe — seus áudios e transcrições nunca são usados para treinamento de modelos. Diferencial relevante vs Otter.ai, que treina IA por padrão (opt-out manual nas configurações). Para uso profissional sensível (advocacia, medicina, jornalismo investigativo), esse compromisso é essencial.

Direito à eliminação (Art. 18, VI)

Exclusão imediata de arquivos individuais ou conta completa pelo painel ou via API. Logs de exclusão disponíveis para auditoria. Você controla a duração de armazenamento.

DPA (Acordo de Tratamento de Dados) disponível

Para uso profissional (escritórios de advocacia, clínicas, agências de jornalismo, departamentos de RH), VexaScribe oferece DPA padrão alinhado à LGPD e ao GDPR. Solicite via canais de suporte.

Ver também política de privacidade e termos de uso para os compromissos completos. A ANPD publica orientações específicas sobre tratamento de dados sensíveis em anpd.gov.br.

Comparativo dos serviços de transcrição IA

Oito principais serviços de transcrição IA usados no Brasil, com critérios que importam para usuários brasileiros: sede, preço efetivo, plano gratuito, conformidade LGPD, qualidade em PT-BR e suporte ao Pix.

FerramentaSedePreçoPlano grátisLGPDPT-BRPix
VexaScribeUE (Londres)US$ 2-20/mês (~R$ 11-110)30 min único✅ Compromisso explícito✅ Whisper Tier 1❌ (cartão)
VozParaTextoBrasilR$ 19,90-149,90/mês30 min/mês✅ Local✅ Nativo BRVerificar
SintesyBrasilR$ 12,49-39,90/mês1h/dia, 20% preview✅ Local✅ Nativo BR✅ Via Woovi
TranskriptorTurquia~US$ 8,33/mês30 min/dia❌ Só GDPR/SOC2✅ Localizado
NottaJapão/EUA~US$ 8,17/mês120 min/mêsParcial
Otter.aiEUAUS$ 16,99/mês300 min EN-only❌ Treina IA por padrão❌ Limitado
Happy ScribeIrlanda/Espanha~€17/mês10 min totalGDPR (UE)Tradução boa
SonixEUAUS$ 5/hora PAYG30 min sem cartão

Preços verificados em junho de 2026 nos sites oficiais. VozParaTexto e Sintesy são serviços brasileiros com preços em reais (vantagem para usuários que evitam câmbio). Otter.ai gratuito é só em inglês — comum erro de usuários brasileiros. Verifique sempre antes de assinar.

Preços e equivalência em reais

Tabela VexaScribe com equivalência aproximada em reais (cobrança real em USD via cartão internacional). Cotação de referência: 1 USD ≈ R$ 5,50.

PlanoPreço USD≈ ReaisMinutos/mês≈ HorasPara quem
Teste grátisUS$ 0R$ 030 min único0,5hTestar antes de assinar
StarterUS$ 2/mês~R$ 11/mês200 min/mês3,3hEstudante, jornalista freelancer
BasicUS$ 5/mês~R$ 28/mês1 000 min/mês16,7hPodcaster regular, pesquisador
ProUS$ 10/mês~R$ 55/mês2 500 min/mês41,7hCanal podcast ativo, jornalismo, EAD
StudioUS$ 20/mês~R$ 110/mês6 000 min/mês100hEstúdio, laboratório, redação

Cotação USD/BRL variável — valores em reais são aproximados. Para detalhes completos, ver planos VexaScribe.

Perguntas frequentes

Qual o melhor aplicativo para transcrever áudio em texto em português brasileiro?

Depende do uso. Para qualidade profissional com IA Whisper Large-v3 (~93-95% de precisão em PT-BR), conformidade com a LGPD e hospedagem em servidor europeu: VexaScribe (US$ 2-20/mês, 30 minutos grátis sem cartão). Para um serviço brasileiro com preços em reais e Pix: Sintesy (R$ 39,90/mês via Woovi) ou VozParaTexto (R$ 19,90/mês). Para uso pontual gratuito: TurboScribe (30 min/dia) ou Whisper local (gratuito mas requer GPU NVIDIA). Para áudios curtos do WhatsApp: o próprio recurso nativo do WhatsApp (desde nov/2024) já transcreve. Para áudios encaminhados, longos, ou que exigem exportação em arquivo (DOCX, SRT, PDF), VexaScribe é mais adequado.

Como transcrever áudio em texto gratuitamente?

Cinco opções gratuitas em 2026. (1) VexaScribe oferece 30 minutos grátis na inscrição, sem cartão de crédito — qualidade Whisper Large-v3 completa, todos os formatos de exportação. (2) TurboScribe permite 3 arquivos de até 30 minutos por dia, gratuito recorrente. (3) Transkriptor oferece 30 minutos por dia. (4) WhatsApp transcreve áudios nativamente desde nov/2024 (apenas inline, sem exportação). (5) Whisper de código aberto pode rodar localmente no seu computador (gratuito ilimitado, requer GPU NVIDIA com 10 GB de VRAM ou whisper.cpp em CPU). Para vídeos no YouTube, as legendas automáticas do YouTube são gratuitas mas com precisão de apenas ~80% em PT-BR.

O WhatsApp transcreve áudio nativamente? Como ativar?

Sim, desde novembro de 2024. Para ativar no iPhone (iOS 17+): WhatsApp → Configurações → Conversas → 'Transcrição de mensagens de voz' → ativar e baixar o pacote de idioma português (100-150 MB). No Android (suporta apenas 5 idiomas, incluindo português): caminho similar em Configurações → Conversas. Para usar: pressione o áudio longamente → Transcrever. O processamento ocorre no próprio aparelho (privacidade total). Limitações conhecidas: não funciona em WhatsApp Web/Desktop, falha frequentemente em áudios encaminhados, não exporta como arquivo, e degrada em sotaques nordestinos mais marcados. Para esses casos, veja nossa página dedicada sobre transcrição de áudios do WhatsApp.

Como transcrever áudio para texto no Microsoft Word?

O Microsoft Word (Office 365) tem a funcionalidade nativa 'Ditar' e 'Transcrever' (introduzida em 2020). Workflow: abrir Word online ou desktop com assinatura Microsoft 365 → guia Página Inicial → botão Ditar (ícone microfone) → menu suspenso → Transcrever → fazer upload do arquivo de áudio ou gravar diretamente. Limites: até 80 minutos por arquivo para conta Microsoft 365 Personal/Family; até 5 horas de upload por mês. Precisão em português brasileiro: moderada (85-90%). Para volume maior, qualidade superior em PT-BR (93-95% com Whisper Large-v3), e exportação multi-formato, VexaScribe é mais adequado. Microsoft suporta a transcrição apenas em alguns idiomas — verifique se o seu plano inclui português.

Existe IA que transcreve áudio em português brasileiro com alta precisão?

Sim. O padrão técnico em 2026 é Whisper Large-v3 da OpenAI (lançado em setembro de 2023), que coloca o português brasileiro em Tier 1 — mesma categoria de precisão que o inglês. Em testes de benchmark Common Voice Brasil, modelos Distil-Whisper Large-v3 PT-BR alcançam 8,22% de Word Error Rate, o que equivale a ~92% de precisão. Em áudio limpo (estúdio, microfone lavalier), a precisão atinge 93-95%. VexaScribe usa Whisper Large-v3 diretamente. Sotaques bem cobertos: paulista, carioca, sulista, mineiro (92-96% precisão). Sotaques nordestinos e baianos marcados: precisão um pouco menor (88-92%) — recomenda-se revisão extra.

Como transcrever áudio do Google Meet, Zoom ou Microsoft Teams?

Workflow padrão. (1) Exportar a gravação da reunião como MP4 (Meet, Zoom, Teams) ou MP3 (separadamente, se preferir). Cada plataforma tem botão de download na lista de reuniões gravadas. (2) Fazer upload do arquivo em VexaScribe — vídeo MP4 é aceito nativamente, áudio é extraído automaticamente sem necessidade de ffmpeg ou conversão. (3) Aguardar 5-10 minutos por hora de reunião. (4) Editar nomes dos participantes (diarização automática separa as vozes), revisar termos técnicos. (5) Exportar como DOCX (para ata da reunião), TXT (notas rápidas), ou SRT (para legendas se for republicar). Conformidade LGPD: VexaScribe armazena em servidor europeu, sem treinamento de IA com seus dados.

Quanto custa transcrição profissional de áudio em reais?

Comparativo de mercado em junho de 2026. Transcrição humana profissional no Brasil: R$ 5-15 por minuto para conteúdo geral, R$ 15-30 por minuto para conteúdo técnico (jurídico, médico). Serviços brasileiros de IA: VozParaTexto R$ 19,90/mês (7h), Sintesy R$ 39,90/mês (com Pix via Woovi). VexaScribe: US$ 2/mês (~R$ 11) para 200 minutos, US$ 10/mês (~R$ 55) para 2 500 minutos — entre 100× e 1000× mais barato que transcrição humana. Para 1 hora de áudio: humano R$ 300-900, VexaScribe Pro ~R$ 1,30. A escolha entre humano e IA depende do uso final: verbatim certificado para uso jurídico exige transcritor humano juramentado; para uso editorial, pesquisa, jornalismo e podcast, IA é largamente suficiente.

A transcrição de áudio é conforme com a LGPD?

Depende do serviço usado. A LGPD (Lei 13.709/2018) trata a voz como dado pessoal e o conteúdo do áudio como dado potencialmente sensível. Critérios de conformidade: (1) Local de armazenamento — VexaScribe armazena em AWS eu-west-2 (Londres), região coberta pela decisão de adequação UE; serviços americanos (Otter, Notta, Transkriptor) estão sujeitos ao Cloud Act dos EUA. (2) Não-reutilização para treinamento de IA — compromisso contratual explícito da VexaScribe (diferencial vs Otter, que treina por padrão com opt-out). (3) Direito à eliminação — exclusão imediata pelo painel ou via API. (4) Criptografia TLS 1.2+ em trânsito e AES-256 em repouso. (5) DPA (Acordo de Tratamento de Dados) disponível para uso profissional. Para advogados, médicos, psicólogos e jornalistas que tratam dados sensíveis, esses critérios são essenciais.

Como o Whisper Large-v3 funciona para transcrever áudio em português?

Whisper Large-v3 é um modelo Transformer encoder-decoder lançado pela OpenAI em setembro de 2023, treinado em aproximadamente 5 milhões de horas de áudio multilíngue (incluindo grande corpus em PT-BR). Pipeline em 5 etapas: (1) Decodificação do arquivo de áudio. (2) Resampling para 16 kHz mono (resolução padrão Whisper). (3) Extração de features via spectrogram log-mel (80 canais). (4) Encoder Transformer (32 camadas em Large-v3) gera representação contextual. (5) Decoder gera tokens de texto com timestamps. O resultado é texto com pontuação, capitalização e timestamps ao nível da palavra. Whisper Large-v3 atinge ~5% Word Error Rate em PT-BR em áudio limpo (~95% de precisão), comparável ao inglês. VexaScribe usa Whisper Large-v3 sem modificações, na variante GPU otimizada para velocidade.

Como transcrever áudio de entrevista, podcast ou reunião com vários participantes?

Workflow VexaScribe para multi-locutor. (1) Fazer upload do arquivo (MP3, M4A, WAV, OGG até 5 GB / 10h). (2) Ativar a diarização — recurso nativo do VexaScribe que identifica automaticamente vozes distintas (suporta 2-10 locutores por arquivo). (3) A IA gera transcrição com etiquetas Speaker 1, Speaker 2, etc. (4) No editor web, renomear os locutores (Marcos → Marcos Silva, Speaker 2 → Convidada Ana, etc.). O renome se propaga em todo o texto. (5) Exportar em DOCX (para revistas científicas, atas), JSON (para análise quantitativa com speaker_id), ou SRT (para vídeo com legendas e prefixo do locutor). Precisão de diarização: 90-95% para 2-4 vozes com microfones separados, 75-85% para focus group de 6-8 pessoas. Para gravações multi-pista (Riverside, SquadCast, RØDECaster), transcrever cada pista separadamente para separação quase perfeita.

Metodologia e fontes

Os números de precisão em português brasileiro (~93-95% em áudio limpo, Tier 1) provêm de (1) artigo técnico Whisper da OpenAI (Radford et al., setembro de 2023), (2) benchmark Common Voice Brasil (Mozilla, atualizado 2024-2025), (3) modelo Distil-Whisper Large-v3 PT-BR no Hugging Face (freds0/distil-whisper-large-v3-ptbr — 8,22% Word Error Rate), e (4) testes internos VexaScribe em 30 áudios padronizados cobrindo cinco regiões brasileiras (paulista, carioca, sulista, mineiro, nordestino).

Os critérios LGPD referenciados (local de armazenamento, base legal, direito à eliminação, DPA) são baseados na Lei 13.709/2018 e nas orientações publicadas pela ANPD (Autoridade Nacional de Proteção de Dados) em anpd.gov.br. A decisão de adequação UE-Reino Unido fundamenta a hospedagem em Londres como destino aceitável de transferência internacional.

Preços concorrentes (Transkriptor ~US$ 8,33/mês, Notta ~US$ 8,17/mês, Otter US$ 16,99-30/mês, Happy Scribe ~€17/mês, Sonix US$ 5/hora PAYG, VozParaTexto R$ 19,90/mês, Sintesy R$ 39,90/mês) refletem preços públicos publicados nos sites dos editores em junho de 2026. Verifique antes de assinar — preços mudam.

VexaScribe é o produto descrito. Comparações com outros serviços visam ajudar usuários brasileiros a escolher a ferramenta adequada ao caso de uso, não a denegrir a concorrência. Para o processo editorial completo ver padrões editoriais.

Teste a transcrição IA gratuitamente

30 minutos de transcrição Whisper Large-v3 grátis na inscrição. Sem cartão de crédito. Precisão Tier 1 em PT-BR, hospedagem UE (Londres), sem treinamento de IA com seus dados.

Guias relacionados