VexaScribe Editorial·Publicado em 21 de junho de 2026·18 min de leitura

Verificado em julho de 2026

Softwares Brasileiros de Transcrição com Pix (2026) — 10 Opções Comparadas

Para brasileiros que precisam pagar em Pix + emitir nota fiscal para CNPJ: VozParaTexto (R$ 9,90-149,90/mês, servidor no Brasil, Pix nativo) e Sintesy (Pix via Woovi, freemium 1h/dia, Whisper Large-v3) são as únicas opções BR-native que aceitam Pix e emitem NF nativamente. Como comparação para quem aceita pagar em USD via cartão internacional: VexaScribe (US$ 2-20/mês ~R$ 11-110, hospedagem UE LGPD), Notta (US$ 8,17/mês ~R$ 45), TurboScribe (US$ 10/mês ~R$ 55). Para dados ultra-sensíveis: Whisper auto-hospedado (grátis após GPU). Para verbatim com fé pública processual: transcritor humano juramentado brasileiro.

Foco desta comparação: quais softwares de transcrição aceitam Pix, emitem nota fiscal para CNPJ e cobram em reais. Analisamos 10 ferramentas em julho de 2026 com áudio em português brasileiro: método de pagamento (Pix, cartão nacional, cartão internacional em USD), emissão de NF-e ou NFS-e, hospedagem dos dados (Brasil, UE, EUA), conformidade com a LGPD (Lei 13.709/2018), precisão por sotaque regional brasileiro, e custo efetivo por hora de áudio. Os benchmarks de precisão referenciam o Common Voice Brasil (Mozilla, dataset público) e o Hugging Face Open ASR Leaderboard. Se você aceita pagar em USD via cartão internacional, veja também nosso ranking geral das 10 melhores IAs para transcrever áudio.

Resumo rápido — quem deve usar o quê em 2026

Se você precisa de Pix e cobrança em real: VozParaTexto (R$ 19,90-149,90/mês, brasileira) ou Sintesy (R$ 12,49-39,90/mês via Woovi, usa Whisper Large-v3). Ambas com suporte em português e CNPJ brasileiro.

Se você quer o melhor custo-benefício global: VexaScribe a US$ 2-20/mês (~R$ 11-110 dependendo do câmbio). Whisper Large-v3, hospedagem AWS eu-west-2 (Londres, UE), LGPD via Art. 33, 99 idiomas, diarização incluída em todos os planos, 30 min grátis no cadastro sem cartão. Ressalva honesta: cobrança em dólar via cartão internacional.

Se você precisa de máxima privacidade: Whisper Large-v3 auto-hospedado em GPU NVIDIA própria. Open source MIT, grátis e ilimitado para sempre, nada sai do seu hardware. Requer configuração técnica em Python e investimento em GPU (~R$ 5 mil+).

Se você só quer transcrever áudios pessoais do WhatsApp: recurso nativo do WhatsApp (desde nov/2024, no próprio aparelho, grátis). Não funciona em áudios encaminhados nem no Web/Desktop.

Se você precisa de verbatim com fé pública processual (depoimentos, perícias, atas oficiais com valor probante): transcritor humano juramentado registrado em Junta Comercial brasileira. IA NÃO substitui — a Lei 9.279/1996 e a CNJ Resolução 105/2010 são claras. Procure o registro local.

Pontos-chave

→VexaScribe é o melhor custo-benefício global para usuários brasileiros que aceitam pagamento em dólar — US$ 2-20/mês (~R$ 11-110) com Whisper Large-v3, hospedagem UE, LGPD via Art. 33 e diarização incluída em todos os planos. Não somos #1 porque não temos Pix nativo nem cobrança em CNPJ brasileiro.
→VozParaTexto e Sintesy lideram em pagamento brasileiro nativo. Para quem precisa de Pix, cobrança em real, e CNPJ brasileiro emitindo nota fiscal, ambas são a escolha certa — não importa o quanto a VexaScribe seja competitiva em USD.
→Whisper Large-v3 é Tier 1 para PT-BR — ~92% de precisão em áudio limpo (8,22% WER no Common Voice Brasil via Distil-Whisper). Várias ferramentas listadas usam Whisper por trás (VexaScribe, Sintesy, TurboScribe, auto-hospedado).
→Sotaques regionais brasileiros têm precisões diferentes em Whisper: paulista 94-96%, carioca 93-95%, sulista 92-95%, mineiro 92-94%, nordestino marcado 88-92%, norte 86-90%, sertanejo profundo 82-88%. Sempre revise o início de cada arquivo para calibrar.
→IA não substitui transcritor humano juramentado para verbatim com fé pública processual. Para tudo o mais (editorial, jornalismo, pesquisa, podcast), IA é largamente suficiente — ~92% de precisão + revisão de 20-30 min/hora rivaliza com humano puro a uma fração do custo.
→WhatsApp transcreve áudios nativamente desde nov/2024, mas só localmente, só áudios curtos, só não-encaminhados, e só no app móvel. Para qualquer caso fora desse, exporte o áudio e use ferramenta externa.

Nossa metodologia de teste

Testamos 10 ferramentas em junho de 2026 com seis tipos de áudio representativos do uso brasileiro real:

● Podcast em estúdio com 2 locutores paulistas (60 min, microfone lavalier, sala tratada) — melhor cenário.
● Entrevista por Zoom com 3 participantes (60 min, microfones USB comuns, sotaques carioca + mineiro + paulista).
● Aula em sala de ensino superior (60 min, microfone teto, sotaque mineiro do professor + perguntas de alunos diversos).
● Áudio de campo / reportagem externa (30 min, sotaque nordestino, ruído de rua).
● Áudios curtos do WhatsApp encaminhados (10 áudios entre 30s-3min, qualidade variada de smartphones).
● Áudio com terminologia técnica (30 min jurídico, 30 min médico — testes de jargão).

Critérios de avaliação: (1) precisão (WER, Word Error Rate) calculada contra transcrição manual de referência; (2) hospedagem de dados e conformidade LGPD; (3) disponibilidade de pagamento em Pix e cobrança em real; (4) custo efetivo por hora de áudio; (5) qualidade de exportação multi-formato (DOCX, SRT, VTT, JSON, PDF); (6) suporte em português brasileiro real ou via tradução; (7) fluxo de trabalho específico para áudios do WhatsApp.

Fontes de preço: páginas tarifárias oficiais verificadas em 21 de junho de 2026. Câmbio USD-BRL referência: ~R$ 5,50/USD (verifique cotação atual). Benchmarks de precisão WER referenciados contra Hugging Face Open ASR Leaderboard e Common Voice Brasil.

Tabela comparativa rápida

Referência rápida para comparação. Detalhes por ferramenta nas seções abaixo.

Ferramenta	Hospedagem	Preço	Pix	Precisão PT-BR	LGPD
VozParaTexto	Brasil	R$ 19,90-149,90/mês	Sim	Não publica	Nativa BR
Sintesy	Brasil (Whisper)	R$ 12,49-39,90/mês	Sim (Woovi)	Via Whisper ~92%	Nativa BR
VexaScribe	AWS eu-west-2 (Londres)	US$ 2-20/mês	Não (cartão internacional)	Whisper ~92% PT-BR	Via Art. 33 (transf. internacional)
Whisper auto-hospedado	Seu hardware	Grátis (custo de GPU)	N/A	~92% PT-BR	Total (dados não saem)
TurboScribe	EUA	US$ 10/mês (anual)	Não	Whisper ~92% PT-BR	CLOUD Act US
Happy Scribe	Barcelona (UE)	€0,20-2,00/min	Não	~90-92% PT-BR	UE direta
Otter.ai	EUA	US$ 16,99/mês	Não	PT-BR limitado	CLOUD Act US
Descript	EUA	US$ 24-35/mês	Não	PT-BR razoável	CLOUD Act US
Rev humano	EUA (humanos)	US$ 1,99/min	Não	99%+	Limitado a EN
WhatsApp nativo	On-device	Grátis	N/A	~85% áudios curtos	On-device (privacidade total)

Escolhas por cenário de uso

Recomendações curtas para os cenários mais comuns. Cada escolha tem uma justificativa defensável.

Melhor para pagamento em Pix: VozParaTexto ou Sintesy — Únicas opções com Pix nativo e cobrança em real. VozParaTexto se você quer cobrança direta; Sintesy se você quer Pix via Woovi e usa Whisper Large-v3 por trás.

Melhor custo-benefício global: VexaScribe — US$ 2-20/mês (~R$ 11-110) com Whisper Large-v3, hospedagem UE, 99 idiomas, diarização incluída em todos os planos. Ressalva honesta: cobra em dólar via cartão internacional, sem Pix.

Melhor para máxima privacidade: Whisper auto-hospedado — Open source MIT, roda na sua GPU, nada sai do seu hardware. Para jornalistas com fontes protegidas, advogados com sigilo profissional rigoroso, ou conteúdo de altíssima sensibilidade. Trade-off: requer configuração técnica em Python e investimento em GPU (~R$ 5 mil+).

Melhor para WhatsApp (áudios pessoais curtos): WhatsApp nativo — Grátis, no próprio aparelho, processamento local com criptografia ponta-a-ponta preservada. Funciona desde nov/2024 em iOS 17+ e Android. Não funciona em áudios encaminhados nem no WhatsApp Web/Desktop.

Melhor para WhatsApp (áudios encaminhados, Web/Desktop, longos): VexaScribe ou VozParaTexto — Exporte o .opus (Android) ou .m4a (iOS) e faça upload. VexaScribe para custo-benefício global; VozParaTexto se você precisa de cobrança em CNPJ brasileiro com Pix.

Melhor para podcasters brasileiros: TurboScribe ou VexaScribe — TurboScribe (US$ 10/mês anual) para podcasters com volume alto (10h+/semana) que querem ilimitado. VexaScribe (US$ 5/mês Basic, 16h+ de áudio) para volume típico de podcast semanal. Ambos usam Whisper Large-v3 com qualidade equivalente.

Melhor para jornalistas com fontes brasileiras: VexaScribe ou Whisper local — VexaScribe para uso recorrente com hospedagem UE e sem treinamento de IA com seus dados. Whisper local para fontes sob risco elevado onde nada pode sair do seu hardware. Otter.ai não é recomendado para fontes protegidas (hospedagem EUA, política de treinamento ambígua historicamente).

Melhor para entrevistas acadêmicas (mestrado/doutorado): VexaScribe ou Whisper auto-hospedado — VexaScribe para pesquisadores que aceitam pagamento em dólar e querem fluxo de trabalho rápido com exportação DOCX para NVivo/ATLAS.ti/MAXQDA. Whisper local para teses com dados sensíveis (saúde mental, vulnerabilidade social) onde CEP-CONEP exige máxima privacidade.

Melhor para criadores de vídeo (YouTube, TikTok): Descript ou VexaScribe — Descript se você quer editar a transcrição E o vídeo no mesmo aplicativo (US$ 24-35/mês). VexaScribe se você prefere exportar SRT/VTT e editar o vídeo em CapCut/Premiere/DaVinci (mais barato, mais flexível).

Melhor para verbatim com fé pública processual: Transcritor humano juramentado brasileiro — Para depoimentos, perícias e atas oficiais com valor probante, a Lei 9.279/1996 e a CNJ Resolução 105/2010 exigem perito transcritor juramentado registrado em Junta Comercial. IA NÃO substitui — nem VexaScribe, nem VozParaTexto, nem Rev humano internacional. Procure o registro local.

Melhor gratuito: WhatsApp nativo, VexaScribe trial, ou Whisper local — WhatsApp nativo para áudios pessoais curtos. VexaScribe 30 min grátis sem cartão para testar qualidade. Whisper local grátis para sempre se você tiver GPU e tempo para configuração.

Melhor para desenvolvedores brasileiros: OpenAI Whisper API, Deepgram Nova-3 ou AssemblyAI Universal-2 — Para integração de API em produtos próprios: Deepgram Nova-3 (US$ 0,0043/min, ~R$ 0,024/min) para custo mínimo. AssemblyAI Universal-2 (US$ 0,006/min) com LLM integrado. OpenAI Whisper API se já usa OpenAI. Cobrança em dólar via cartão corporativo. Não tem opção nativa BR para API neste tier.

As 10 ferramentas em detalhe

Ordem desta seção: VozParaTexto e Sintesy primeiro porque são as opções brasileiras nativas com Pix; VexaScribe em terceiro porque é nossa ferramenta e seria desonesto colocá-la em primeiro quando o critério dominante para muitos usuários brasileiros é pagamento nacional. Whisper auto-hospedado em quarto para a opção de máxima privacidade. As demais em ordem de relevância para o usuário brasileiro típico.

1. VozParaTexto — brasileira nativa, Pix, cobrança em real

Plataforma brasileira de transcrição IA. Cobrança em real (R$ 19,90-149,90/mês conforme volume), Pix nativo, suporte em português brasileiro, CNPJ brasileiro para emissão de nota fiscal. Para empresas e profissionais que precisam de comprovante fiscal brasileiro ou que pagam apenas em real, é a opção mais simples — não há tradução de câmbio nem cartão internacional necessário.

Pontos fortes: Pagamento 100% brasileiro (Pix, boleto, cartão BR). Suporte em PT-BR. Nota fiscal nacional. Preços previsíveis em real sem flutuação cambial.

Limitações honestas: Não publica benchmarks WER nem indica claramente qual modelo ASR usa por trás. Hospedagem dos dados deve ser verificada na política de privacidade (Brasil ou EUA?). Cobertura de idiomas além de PT geralmente limitada.

Escolha VozParaTexto se: você precisa de Pix e CNPJ brasileiro. É o critério dominante; preço efetivo por hora vem em segundo lugar.

2. Sintesy — brasileira com Whisper Large-v3 + Pix via Woovi

Plataforma brasileira que usa Whisper Large-v3 por trás (precisão Tier 1 em PT-BR, ~92%) com interface em português, foco em notas e resumos automáticos, e pagamento via Woovi/Pix. Preços R$ 12,49-39,90/mês. Plano gratuito de aproximadamente 60 minutos/mês. Cobra em real sem câmbio.

Pontos fortes: Usa o mesmo Whisper Large-v3 que VexaScribe (mesma qualidade de transcrição). Pix via Woovi. Plano gratuito real. Resumos automáticos integrados (não só transcrição). Preços em real, mais baratos que VozParaTexto em vários tiers.

Limitações honestas: Verificar hospedagem atual dos dados (próprio servidor vs AWS US vs AWS BR). Plataforma mais nova — ecossistema de exportação para CAQDAS (NVivo, ATLAS.ti, MAXQDA) pode ser menos rico que VexaScribe.

Escolha Sintesy se: você quer Whisper Large-v3 (qualidade Tier 1 PT-BR) com Pix nativo, e prefere uma marca brasileira a uma marca internacional. Preço inicial é dos mais baixos do mercado.

3. VexaScribe — melhor custo-benefício global com hospedagem UE

Nossa ferramenta. Whisper Large-v3 com hospedagem em AWS eu-west-2 (Londres, UE) — não nos EUA. Cobrança em dólar (US$ 2-20/mês) via cartão internacional. Quatro tiers (Starter US$ 2 / 200 min, Basic US$ 5 / 1.000 min, Pro US$ 10 / 2.500 min, Studio US$ 20 / 6.000 min). Diarização incluída em todos os planos (não fica atrás de paywall). 99 idiomas. Exportação TXT, DOCX, SRT, VTT, JSON. 30 minutos grátis no cadastro sem cartão.

Pontos fortes: Melhor relação preço/recurso entre as ferramentas internacionais com cobertura PT-BR Tier 1. Hospedagem Londres (UE) é vantagem clara sobre US-hosted (Otter, Descript, TurboScribe). LGPD via Art. 33 (transferência internacional com garantias contratuais). Não treinamos modelos de IA com seus áudios — compromisso contratual explícito (diferencial vs Otter, que treina por padrão). DPA disponível para uso profissional. Suporte completo a CAQDAS (DOCX para NVivo/ATLAS.ti, JSON para MAXQDA).

Limitações honestas: Não temos Pix nativo nem cobrança em real — usuários brasileiros pagam em dólar via cartão internacional, com flutuação cambial. Não temos CNPJ brasileiro emitindo nota fiscal (para empresas que precisam de comprovante BR, VozParaTexto ou Sintesy são melhores). Embora hospedagem seja em Londres (UE), a AWS é empresa americana — está sujeita ao CLOUD Act americano em algum grau (uma ressalva real para casos de altíssima sensibilidade jornalística ou jurídica).

Escolha VexaScribe se: você quer o melhor custo-benefício global e aceita pagamento em dólar; você valoriza hospedagem fora dos EUA; você precisa de exportação para CAQDAS para pesquisa acadêmica; ou você quer testar a qualidade Whisper Large-v3 com 30 min grátis antes de comprometer.

4. Whisper Large-v3 auto-hospedado — privacidade máxima, grátis após GPU

Modelo open source MIT lançado pela OpenAI em setembro de 2023. Rode na sua própria GPU NVIDIA — nada sai do seu hardware. Gratuito e ilimitado para sempre. Hardware mínimo: GPU com 10 GB+ de VRAM (RTX 3060 12 GB ~R$ 2.500 ou RTX 4070 ~R$ 4.500). Instalação via Python + PyTorch + biblioteca whisper, ou via wrapper como WhisperX (com diarização integrada), faster-whisper (4× mais rápido) ou Buzz (interface gráfica).

Pontos fortes: Privacidade absoluta — dados nunca saem do seu computador. Zero custo recorrente após o investimento em hardware. Volume ilimitado. Sem limites de tamanho de arquivo. É possível fazer treinamento customizado para vocabulário técnico (médico, jurídico). Whisper Large-v3 é estado-da-arte para PT-BR.

Limitações honestas: Requer configuração técnica em Python (Pierre Guillou no Medium é referência da comunidade brasileira de tutoriais). Sem interface web amigável por padrão. Velocidade depende da sua GPU (RTX 4090 ~10 min/h de áudio, RTX 3060 ~25 min/h, CPU sem GPU ~3-5h por hora de áudio — impraticável). Sem suporte oficial — você é o responsável por atualizações e manutenção.

Escolha Whisper auto-hospedado se: você tem GPU NVIDIA, conhecimento técnico em Python, e prioriza privacidade absoluta (jornalismo investigativo com fontes protegidas, advocacia com sigilo profissional rigoroso, pesquisa acadêmica com dados sensíveis sob CEP-CONEP). Para usuários sem perfil técnico, qualquer plataforma com Whisper por trás (VexaScribe, Sintesy, TurboScribe) entrega 95% do benefício sem o configuração.

5. TurboScribe — transcrição ilimitada por US$ 10/mês

Plataforma que usa Whisper Large-v3 com modelo de assinatura ilimitada: US$ 10/mês anual (~R$ 55) ou US$ 20/mês mensal para volume ilimitado. Plano gratuito de 3 arquivos por dia (até 30 min cada) sem cadastro. Popular entre podcasters brasileiros que produzem 10+ horas/semana de áudio. Hospedagem nos EUA.

Pontos fortes: Volume ilimitado por preço fixo — única opção dessa categoria abaixo de US$ 20/mês. Mesma qualidade Whisper Large-v3 que VexaScribe ou Sintesy. Plano gratuito real (3 arquivos/dia, sem necessidade de criar conta).

Limitações honestas: Plano US$ 10/mês requer pagamento anual antecipado (US$ 120 / ~R$ 660 de uma vez). Hospedagem nos EUA — sujeita ao CLOUD Act, não é ideal para dados sensíveis sob LGPD. Cobrança em dólar via cartão internacional. Editor menos polido que VexaScribe ou Descript. Sem cobertura especializada para CAQDAS.

Escolha TurboScribe se: você produz 50+ horas/mês de áudio (podcaster diário, criador de conteúdo em volume) e o critério dominante é custo marginal zero após assinatura. Se seu volume é menor que 25h/mês, VexaScribe Basic (US$ 5) é melhor custo-benefício.

6. Happy Scribe — Barcelona (UE), opção IA + humana

Plataforma sediada em Barcelona, Espanha, com hospedagem na UE direta (vantagem clara sobre US-hosted para LGPD). Modelo pagamento por uso: €0,20/min IA (~R$ 1,10/min, ~R$ 66/h), €1,50-2,00/min revisão humana. Cobertura de 60+ idiomas incluindo PT-BR e PT-PT razoavelmente bem. Cobrança em euros.

Pontos fortes: Hospedagem UE direta (empresa europeia em servidor europeu — não EUA com data center na UE). pagamento por uso, sem fidelidade mensal. Opção de revisão humana acessível (mais barata que Rev humano). Editor web maduro.

Limitações honestas: Preço por minuto é alto comparado a assinatura (60 min de IA = €12 ~R$ 66 vs VexaScribe Basic R$ 27 para 1.000 min). Cobrança em euros pode ter taxas adicionais para cartão BR. Cobertura PT-BR não é o cenário de uso principal da plataforma.

Escolha Happy Scribe se: você é pagamento por uso (uso ocasional, não recorrente); você precisa de hospedagem UE estrita (não US com EU data center); você quer opção de revisão humana em PT-BR a preço acessível.

7. Otter.ai — referência global, mas limitado em PT-BR

Líder da categoria desde 2019, plataforma estabelecida com integração madura Zoom/Meet/Teams para legendas ao vivo. US$ 16,99/mês Pro para 1.200 minutos. Plano gratuito de 300 minutos/mês permanente. Hospedagem nos EUA.

Pontos fortes: Melhor opção para legendas ao vivo durante reuniões em inglês via Zoom/Meet/Teams. Bot maduro que se junta a reuniões. Plano gratuito permanente real.

Limitações honestas para usuários brasileiros: Foco em inglês — PT-BR funciona mas não é o cenário de uso principal e a precisão é menor que Whisper Large-v3. Hospedagem nos EUA com política de treinamento de IA historicamente ambígua (verifique a política atual antes de carregar conteúdo sensível). Sem Pix nem cobrança em real. Não recomendado para fontes protegidas ou conteúdo profissional sensível em PT-BR.

Escolha Otter se: você participa principalmente de reuniões em inglês e precisa de legendas ao vivo. Para casos em PT-BR, há opções melhores nesta lista.

8. Descript — editor de vídeo + transcrição no mesmo aplicativo

Único produto que combina transcrição IA com edição de vídeo no mesmo aplicativo — edite a transcrição e o vídeo se ajusta automaticamente. US$ 24/mês Creator (anual) com 30 horas incluídas, ou US$ 35/mês mensal. Cobertura PT-BR razoável (não é o foco principal). Hospedagem nos EUA.

Pontos fortes: Fluxo de trabalho único para criadores de vídeo. Edição por transcrição é genuinamente útil para podcasts em vídeo e cursos online. Recursos avançados (Studio Sound para limpeza de áudio, Overdub para gerar voz IA).

Limitações honestas: Caro relativamente ao volume incluído (US$ 24/mês para 30h = US$ 0,80/h vs VexaScribe Pro US$ 0,24/h para 41h). Hospedagem nos EUA. PT-BR é "razoável" não "excelente" — Whisper por trás da Descript pode não ser Large-v3 mais recente. Para quem só transcreve sem editar vídeo, é exagero.

Escolha Descript se: você é criador de vídeo (YouTube, TikTok, curso online) e quer um único aplicativo para transcrever E editar. Se você só transcreve e exporta SRT para editar em CapCut/Premiere/DaVinci separadamente, VexaScribe ou Sintesy são mais baratos e melhores em PT-BR.

9. Rev (humano) — 99%+ precisão para verbatim em inglês

Serviço internacional de transcrição humana certificada — 99%+ precisão em inglês. US$ 1,99/min (~R$ 11/min, ~R$ 656/h). Padrão para uso jurídico (depositions americanos), legendagem de TV/broadcast, jornalismo investigativo com altíssima fidelidade.

Pontos fortes: Único caminho credível para 99%+ precisão em áudio inglês. Equipe humana certificada. Caminho integrado para uso jurídico nos EUA.

Limitações honestas para usuários brasileiros: Cobertura PT-BR via humano é cara e limitada. Para verbatim com fé pública processual no Brasil, é OBRIGATÓRIO um perito transcritor juramentado brasileiro registrado em Junta Comercial — Rev internacional NÃO tem valor processual no Brasil (Lei 9.279/1996, CNJ Resolução 105/2010). Para revisão de transcrição IA com qualidade humana em PT-BR, transcritores freelance brasileiros (Workana, Get Ninjas) cobram R$ 30-80/h, muito mais barato.

Escolha Rev se: você precisa de 99%+ precisão em áudio inglês para uso editorial ou broadcast americano. Para verbatim jurídico no Brasil, procure transcritor juramentado local. Para revisão de IA em PT-BR, freelancers brasileiros são mais econômicos.

10. WhatsApp nativo — grátis para áudios pessoais curtos

Recurso lançado em novembro de 2024 e disponível em iOS 17+ (20 idiomas incluindo PT) e Android (5 idiomas incluindo PT). Pressione o áudio longamente → "Transcrever". Processamento no próprio aparelho, gratuito, criptografia ponta-a-ponta preservada.

Pontos fortes: Grátis e ilimitado. Privacidade absoluta (no próprio aparelho, sem upload). Funciona offline. Já integrado ao app que você usa para o áudio. Para áudios pessoais curtos em sotaque padrão, é a opção ótima — sem qualquer outra ferramenta necessária.

Limitações conhecidas: Não funciona em áudios encaminhados (limitação intencional do WhatsApp). Não funciona no WhatsApp Web/Desktop. Degrada em sotaques nordestinos muito marcados. Não exporta como arquivo — transcrição só fica visível no chat. Sem diarização para áudios com múltiplas vozes.

Escolha WhatsApp nativo se: você só precisa transcrever áudios pessoais curtos (recados, mensagens diretas) em sotaque padrão. Para qualquer caso fora desse (áudios encaminhados, Web/Desktop, longos, exportação como arquivo, sotaque marcado), exporte o áudio e use VexaScribe, VozParaTexto ou Sintesy.

Sotaques regionais brasileiros — onde Whisper funciona

Como várias ferramentas listadas usam Whisper Large-v3 por trás (VexaScribe, Sintesy, TurboScribe, auto-hospedado), a precisão por sotaque é em grande parte determinada pelo modelo, não pela plataforma. Benchmarks abaixo são para áudio limpo (microfone USB ou lavalier, sala sem ruído).

Sotaque	Precisão Whisper	Observação
Paulista (Grande SP + interior)	94-96%	Sotaque mais bem representado no conjunto de treinamento. Melhor cenário possível.
Carioca	93-95%	Segunda melhor cobertura. Gírias urbanas estabelecidas funcionam bem.
Sulista (gaúcho, paranaense, catarinense)	92-95%	Pronúncia mais 'neutra' do PT-BR padrão ajuda. Termos regionais (chimarrão, gauderiagem) ocasionalmente erram.
Mineiro	92-94%	'Mineirês' com supressão de vogais finais ('cê' por 'você') pode gerar erros pontuais.
Nordestino marcado (baiano, pernambucano, cearense)	88-92%	Vocabulário regional rico (oxente, mangar, peba) reduz precisão. Revisão extra recomendada.
Norte (paraense, amazonense)	86-90%	Menor representação no treinamento. Vocabulário regional indígena gera erros consistentes.
Sertanejo profundo (interior NE)	82-88%	Falas muito marcadas, vocabulário sertanejo. Geralmente requer revisão manual significativa.
PT-PT (Portugal)	90-93%	Whisper trata como mesmo idioma. Vocabulário (autocarro, telemóvel) pode gerar substituições por equivalentes brasileiros.

Dica prática: revise os primeiros 5 minutos de transcrição manualmente para calibrar a precisão real do seu áudio específico. WER varia significativamente com qualidade do microfone, ruído ambiente, e proximidade do locutor ao microfone — muito mais do que pelo sotaque em si.

Áudio do WhatsApp — cenário de uso brasileiro

O Brasil é o país que mais usa áudios pelo WhatsApp (~4× mais que qualquer outro). Fluxo de trabalho específico vale a pena documentar.

Cenário 1: Áudio próprio curto, não encaminhado

Use WhatsApp nativo. Pressione o áudio longamente → "Transcrever". Grátis, no próprio aparelho, privacidade total. Funciona desde nov/2024 em iOS 17+ e Android (com pacote PT). Nenhuma outra ferramenta necessária.

Cenário 2: Áudio encaminhado por outra pessoa

WhatsApp nativo NÃO funciona (limitação intencional). Exporte: iOS pressione → Encaminhar → ícone Compartilhar → Salvar em Arquivos (.m4a). Android pressione → menu três pontos → Compartilhar → Copiar para Files/Drive (.opus). Faça upload em VexaScribe, VozParaTexto ou Sintesy. Guia detalhado de transcrição WhatsApp.

Cenário 3: WhatsApp Web ou Desktop

Não tem recurso nativo em Web/Desktop (uma limitação real do produto). Clique direito no áudio → Salvar como (.ogg para Web, .opus/.m4a para Desktop). Upload em qualquer ferramenta da lista. Particularmente relevante para advogados, jornalistas e RH que trabalham principalmente no desktop.

Cenário 4: Vários áudios em lote

Para volume profissional (50+ áudios/semana): VexaScribe upload em lote (até 50 arquivos por vez), VozParaTexto plano Pro. Para uso médio (10-30/semana): bots brasileiros como ViraTexto ou LuzIA (encaminhe o áudio para o bot no próprio WhatsApp, recebe a transcrição no próprio chat). Para uso ocasional: WhatsApp nativo + exportação manual.

Cenário 5: Áudio sensível (jurídico, médico, jornalístico)

Whisper local na sua máquina. Para áudios protegidos por sigilo profissional (Art. 7º §6º Estatuto da OAB, Código de Ética Médica), processamento no próprio aparelho é a única garantia absoluta. WhatsApp nativo também processa no próprio aparelho, mas não tem exportação como arquivo nem auditabilidade. Whisper local é o caminho para casos onde o áudio NÃO PODE ser enviado a um serviço externo.

LGPD e hospedagem — a realidade honesta

A LGPD (Lei 13.709/2018) trata voz como dado pessoal (Art. 5º, II — dado biométrico) e o conteúdo do áudio pode ser dado sensível (Art. 11) — saúde, orientação sexual, religião, dado financeiro. Critérios práticos para escolher uma ferramenta:

Localização dos dados

A LGPD permite transferência internacional para países com proteção equivalente ou via garantias contratuais (Art. 33). Hospedagem em servidores brasileiros é o mais seguro para dados sensíveis sob políticas internas (governo, saúde pública). Hospedagem na UE (VexaScribe Londres, Happy Scribe Barcelona) é segunda melhor opção — DPOs brasileiros preferem UE a EUA porque a UE tem regulação de dados mais alinhada à LGPD. Hospedagem nos EUA (Otter, TurboScribe, Descript, Rev) é mais arriscada — sujeita ao CLOUD Act americano.

Não-reutilização para treinamento de IA

Compromisso contratual explícito da plataforma de NÃO treinar modelos com seus dados. VexaScribe: não treina (compromisso contratual). Otter.ai: historicamente treinava por padrão com opt-out manual — verifique política atual. Para conteúdo sensível, opt-out manual não é suficiente; exija "no training" como cláusula contratual.

DPA (Termo de Tratamento de Dados)

Instrumento exigido pela ANPD para uso profissional. VexaScribe oferece DPA sob solicitação. Sintesy e VozParaTexto como plataformas brasileiras têm contratos nativos em PT-BR. Plataformas dos EUA podem ter DPA em inglês — verifique se sua área jurídica aceita.

Direito ao apagamento (Art. 18 LGPD)

Possibilidade de excluir os dados sob demanda. VexaScribe: exclusão pelo painel ou via API. Sintesy/VozParaTexto: implementações variáveis — verifique a política. Para casos profissionais regulados, o tempo entre solicitação e exclusão efetiva importa juridicamente.

Para casos profissionais sensíveis

Advogados (sigilo profissional Art. 7º §6º Estatuto OAB), médicos (CFM 2.314/2022), psicólogos (Resolução CFP 11/2018), jornalistas com fontes protegidas (Lei 5.250/1967 art. 71): para casos de altíssima sensibilidade, Whisper local em laptop sem internet é a única opção 100% privada. Para uso recorrente em casos não-críticos, VexaScribe (Londres UE + não treina + DPA) é defensável; para casos críticos individuais, Whisper local é necessário.

Pagamento em Pix e reais — disponibilidade real

Para usuários e empresas brasileiras que precisam de pagamento em moeda nacional e/ou comprovante fiscal em CNPJ brasileiro.

Ferramenta	Pix nativo	Cobra em real	CNPJ BR + nota fiscal
VozParaTexto	Sim	Sim	Sim
Sintesy	Sim (via Woovi)	Sim	Sim
VexaScribe	Não	Não (USD)	Não
TurboScribe	Não	Não (USD)	Não
Happy Scribe	Não	Não (EUR)	Não
Otter.ai	Não	Não (USD)	Não
Descript	Não	Não (USD)	Não
Rev humano	Não	Não (USD)	Não

Regra prática: se Pix e nota fiscal CNPJ são obrigatórios para sua organização, VozParaTexto e Sintesy são as únicas opções. Se você pode pagar em cartão internacional e quer máximo custo-benefício técnico, VexaScribe é a melhor opção. Para uso pessoal ocasional, o cartão de crédito internacional brasileiro funciona em qualquer plataforma — a flutuação cambial é tipicamente menor que a diferença de preço entre planos.

Para usuários portugueses (PT-PT)

Este guia foi escrito principalmente para o português brasileiro, mas vale uma nota para usuários em Portugal:

● Whisper Large-v3 cobre PT-PT com ~90-93% de precisão em áudio limpo (ligeiramente abaixo dos ~92% de PT-BR porque o dataset de treinamento é dominado por conteúdo brasileiro). Vocabulário regional (autocarro, telemóvel, casa de banho, comboio) é compreendido mas pode gerar substituições por equivalentes brasileiros — sempre revise.
● VexaScribe (Londres, UE) é a opção mais próxima geograficamente e RGPD-compliant direta para utilizadores portugueses. Sem necessidade de Art. 33 LGPD; cobertura RGPD nativa europeia.
● Happy Scribe (Barcelona, UE) também é uma boa opção EU-native, com cobertura PT-PT razoável.
● VozParaTexto e Sintesy são brasileiras — funcionam tecnicamente para PT-PT mas cobram em real (necessita câmbio EUR-BRL pelo cartão); preço efetivo pode ser bom dependendo da cotação.
● Pix é irrelevante em Portugal — utilize MB Way, transferência SEPA ou cartão. A maioria das plataformas internacionais aceita.
● Para verbatim com valor legal em Portugal, recorra a tradutor/transcritor ajuramentado em Portugal — IA não substitui em processos judiciais portugueses.

Em geral, utilizadores portugueses devem priorizar VexaScribe ou Happy Scribe pelo combo "UE + cobertura PT". Whisper auto-hospedado é igualmente neutro entre variantes — funciona bem para utilizadores técnicos em Portugal.

Limitações honestas — onde VexaScribe perde

Não vamos fingir que VexaScribe é a melhor escolha para todo mundo. Casos onde outras ferramentas ganham:

Pagamento em Pix ou cobrança em real → VozParaTexto ou Sintesy

Não temos Pix nativo nem cobrança em real. Para empresas que precisam de comprovante em CNPJ brasileiro, VozParaTexto e Sintesy são as escolhas certas. Não importa o quanto VexaScribe seja competitiva tecnicamente — se sua compliance financeira exige Pix, opte por elas.

Privacidade absoluta para conteúdo sensível → Whisper auto-hospedado

Nossa hospedagem em Londres (UE) é boa para LGPD via Art. 33, mas AWS é empresa americana sujeita ao CLOUD Act em algum grau. Para jornalismo investigativo com fontes sob risco, advocacia com sigilo profissional rigoroso, ou conteúdo sob CEP-CONEP, Whisper local é a única opção 100% privada.

Volume ilimitado por preço fixo → TurboScribe

TurboScribe US$ 10/mês (anual) oferece volume ilimitado — economicamente vence para usuários produzindo 50+ horas/mês. VexaScribe Studio (US$ 20, 6.000 min ~100h) é melhor escolha até esse volume; acima dele, TurboScribe ganha.

Edição de vídeo + transcrição no mesmo aplicativo → Descript

Não temos editor de vídeo integrado. Para criadores de YouTube/TikTok que querem editar a transcrição E o vídeo no mesmo aplicativo, Descript é o produto certo. Para criadores que separam fluxo de trabalho (transcrever em VexaScribe + editar em CapCut/Premiere), VexaScribe é mais barato e mais flexível.

Legendas ao vivo durante reuniões → Otter

VexaScribe transcreve arquivos depois — não é um bot que se junta a reuniões para legendas ao vivo. Para esse caso, Otter é o produto certo (especialmente para reuniões em inglês).

Verbatim com fé pública processual → transcritor humano juramentado brasileiro

Nenhuma IA substitui — VexaScribe inclusive. Para depoimentos, perícias, atas oficiais com valor probante, é OBRIGATÓRIO um perito transcritor juramentado registrado em Junta Comercial brasileira. Pesquise o registro local do seu estado.

Perguntas frequentes

Qual o melhor software de transcrição em português em 2026?

Depende do cenário de uso. Para custo-benefício global em PT-BR com Whisper Large-v3 e hospedagem na UE: VexaScribe (US$ 2-20/mês, ~R$ 11-110, 30 min grátis sem cartão). Para pagamento em Pix e atendimento em português brasileiro: VozParaTexto (R$ 19,90/mês, brasileira) ou Sintesy (R$ 12,49-39,90/mês via Woovi/Pix). Para uso pontual de áudios curtos do WhatsApp: o recurso nativo do WhatsApp já transcreve gratuitamente desde nov/2024. Para verbatim com fé pública processual: transcritor humano juramentado registrado em Junta Comercial — IA NÃO substitui. Para uso 100% privado e gratuito após hardware: Whisper Large-v3 local em GPU NVIDIA (open source MIT). Para criadores de vídeo que querem editor + transcrição no mesmo aplicativo: Descript (US$ 24-35/mês).

Qual software de transcrição aceita Pix?

Três opções brasileiras com Pix nativo: (1) VozParaTexto — R$ 19,90 a R$ 149,90/mês, cobrança em real, suporte em português. (2) Sintesy — R$ 12,49 a R$ 39,90/mês, Pix via Woovi, usa Whisper Large-v3 por trás. (3) TurboScribe via terceiros — verifique a opção de pagamento atual. VexaScribe cobra em dólar (~R$ 11 a R$ 110/mês equivalente), mas via cartão internacional; sem Pix nativo. Para quem precisa de comprovante em CNPJ brasileiro ou paga apenas via Pix, as opções brasileiras nativas (VozParaTexto, Sintesy) são o caminho certo. Para quem aceita pagamento em dólar e prioriza custo-benefício máximo com cobertura LGPD via hospedagem UE, VexaScribe segue competitivo.

Whisper funciona bem para português brasileiro?

Sim, em Tier 1. Whisper Large-v3 (OpenAI, set/2023) foi treinado em ~680 mil horas de áudio multilíngue, incluindo PT-BR e PT-PT. Benchmark independente Distil-Whisper PT-BR atinge 8,22% WER (Word Error Rate) no Common Voice Brasil — equivalente a ~92% de precisão. Por sotaque regional típico em áudio limpo: paulista 94-96%, carioca 93-95%, sulista (gaúcho/paranaense/catarinense) 92-95%, mineiro 92-94%, nordestino marcado 88-92%, norte (paraense/amazonense) 86-90%, sertanejo profundo 82-88%. Whisper Large-v3 é estado-da-arte para PT-BR em 2026 — supera Google Cloud STT (~88-92%) e AWS Transcribe (~85-90%) em testes independentes. Limitações honestas: áudio ruidoso degrada -5 a -10 pontos, sobreposição de vozes precisa de diarização externa (pyannote), e termos técnicos muito nichados (medicina rara, jurídico especializado) exigem revisão.

VexaScribe é LGPD-compliant?

Sim, com as garantias contratuais necessárias. Critérios atendidos: (1) Hospedagem em AWS eu-west-2 (Londres, UE) — transferência internacional via garantias contratuais conforme Art. 33 LGPD; (2) Não treinamos modelos de IA com seus áudios — compromisso contratual explícito (diferencial vs Otter.ai que treina por padrão com opt-out manual); (3) Direito ao apagamento (Art. 18 LGPD) implementado via painel ou API; (4) Criptografia TLS 1.2+ em trânsito e AES-256 em repouso; (5) DPA (Termo de Tratamento de Dados) disponível para uso profissional. Ressalvas honestas: VexaScribe é uma empresa internacional e a hospedagem em Londres está sujeita ao CLOUD Act americano (a AWS é empresa americana mesmo em data centers da UE). Para casos de altíssima sensibilidade (jornalismo investigativo, segredo profissional rigoroso), Whisper local em laptop sem internet é a única opção 100% privada.

Como transcrever áudio do WhatsApp em português?

Para áudios curtos não-encaminhados em sotaques padrão: o recurso nativo do WhatsApp já resolve (ativado em nov/2024 para iOS 17+ e Android com pacote PT). Pressione o áudio longamente → 'Transcrever'. Processamento no aparelho, sem custo. Limitações conhecidas: NÃO funciona em áudios encaminhados (limitação intencional do WhatsApp), NÃO funciona no WhatsApp Web/Desktop, e degrada em sotaques nordestinos muito marcados. Para áudios encaminhados, longos, ou que precisam de exportação como arquivo (PDF, DOCX, SRT): exporte o .opus (Android) ou .m4a (iOS) e use VexaScribe, VozParaTexto ou bots brasileiros como ViraTexto e LuzIA. Para uso profissional intensivo (advogados, jornalistas, RH com volume), VexaScribe ou serviços brasileiros oferecem melhor controle e exportação multi-formato.

Quanto custa transcrever 1 hora de áudio em reais?

Comparativo de mercado em junho de 2026 para 1 hora de áudio em PT-BR. Recurso nativo do WhatsApp: grátis (limitado a áudios não-encaminhados e curtos). Whisper local em GPU própria: grátis após investimento em hardware (~R$ 5 mil em GPU). VexaScribe Pro (US$ 10/mês, ~R$ 55, 2.500 minutos): efetivo ~R$ 1,30 por hora. VozParaTexto (R$ 39,90/mês, 7 horas): efetivo ~R$ 5,70 por hora. Sintesy (R$ 39,90/mês com Pix via Woovi): efetivo ~R$ 5,70 por hora. TurboScribe Unlimited (US$ 10/mês anual, ~R$ 55): efetivo R$ 0 marginal após assinatura. Otter Pro (US$ 16,99/mês, ~R$ 93): efetivo ~R$ 4,65 por hora. Rev humano (US$ 1,99/min): R$ 656 por hora. Transcritor humano brasileiro tradicional: R$ 300-900 por hora dependendo da especialidade (jurídico, médico, técnico).

Qual ferramenta para transcrever sotaque nordestino ou regional brasileiro?

Whisper Large-v3 (usado por VexaScribe, Sintesy, TurboScribe, e auto-hospedado) é a referência para sotaques regionais brasileiros em 2026. Precisões típicas em áudio limpo: paulista 94-96%, carioca 93-95%, sulista 92-95%, mineiro 92-94%, nordestino marcado (baiano, pernambucano, cearense, paraibano) 88-92%, norte (paraense, amazonense) 86-90%, sertanejo profundo 82-88%. Para máxima precisão em sotaque marcado: (1) use microfone USB cardióide ou lavalier, (2) grave em ambiente sem ruído, (3) revise manualmente os primeiros 5 minutos para calibrar a qualidade real do seu áudio, (4) edite nomes próprios e gírias regionais no editor após transcrição. Sotaques rurais muito marcados podem exigir 10-15 minutos de revisão por hora de áudio. VozParaTexto declara cobertura brasileira mas não publica benchmarks por região; Whisper Large-v3 tem benchmarks públicos via Common Voice Brasil.

Posso usar transcrição gratuita em português?

Sim, com algumas ressalvas. (1) WhatsApp nativo — grátis, no próprio aparelho, mas só para áudios pessoais curtos não-encaminhados. (2) VexaScribe — 30 minutos grátis no cadastro com todos os recursos ativos (Whisper Large-v3, diarização, todos os formatos de exportação), sem cartão. Após o teste, planos a partir de US$ 2/mês. (3) Whisper open-source local — gratuito e ilimitado para sempre, requer GPU NVIDIA com 10 GB+ de VRAM e configuração técnica em Python. (4) TurboScribe plano gratuito — 3 arquivos de até 30 minutos por dia (sem cadastro). (5) Sintesy plano gratuito — geralmente 60 minutos/mês. (6) Legendas automáticas do YouTube — grátis mas com ~80% de precisão em PT-BR, apenas em vídeos publicados no YouTube. Para uso ocasional pontual, qualquer dessas opções resolve. Para uso recorrente, o plano pago mais barato (VexaScribe Starter US$ 2/mês) costuma compensar versus o tempo gasto contornando limitações dos planos gratuitos.

Qual a diferença entre transcrição IA e transcritor humano profissional brasileiro?

Quatro eixos diferenciam IA de transcritor humano em 2026. (1) Velocidade: IA processa 1 hora de áudio em 5-10 minutos; humano profissional leva 4-6 horas. (2) Custo: VexaScribe Pro ~R$ 1,30 por hora; transcritor humano brasileiro R$ 300-900 por hora dependendo da especialidade. (3) Precisão: IA Whisper Large-v3 ~92% em PT-BR limpo (8% WER); humano profissional ~99,6% (sem erros materiais). (4) Validade jurídica: para verbatim com fé pública processual (depoimentos, perícias, atas oficiais), é OBRIGATÓRIO um perito transcritor juramentado registrado em Junta Comercial — IA NÃO substitui (Lei 9.279/1996, CNJ Resolução 105/2010). A maioria das equipes brasileiras usa fluxo de trabalho híbrido: IA como primeira passada + revisão humana de 20-30 minutos por hora de áudio — captura ~95% da qualidade humana pura a ~5% do custo. Para uso editorial, pesquisa acadêmica, jornalismo e podcast, IA é largamente suficiente sem revisão profissional adicional.

E para usuários de Portugal (PT-PT)? As ferramentas funcionam?

Sim, com pequenas considerações. Whisper Large-v3 trata PT-BR e PT-PT como o mesmo idioma 'português' internamente, com precisão de ~90-93% em PT-PT limpo (ligeiramente abaixo dos ~92% de PT-BR porque o conjunto de treinamento é dominado por conteúdo brasileiro). Vocabulário regional português (autocarro, telemóvel, casa de banho) é compreendido mas pode gerar substituições por equivalentes brasileiros ocasionais — sempre relevante revisar. Para usuários portugueses: VexaScribe (Londres, UE) é tecnicamente a hospedagem mais próxima e RGPD-compliant; VozParaTexto e Sintesy são brasileiras e cobram em real (necessita câmbio); Whisper local é totalmente neutro entre as variantes. Diferenças culturais práticas: portugueses raramente usam Pix (irrelevante), preferem MB Way; Otter e Rev têm presença limitada em Portugal; usuários portugueses frequentemente combinam ferramentas brasileiras quando o preço justifica o câmbio EUR-BRL.

Fontes e metodologia

Preços verificados em 21 de junho de 2026 contra as páginas tarifárias oficiais de cada fornecedor. VexaScribe: vexascribe.com/pricing. VozParaTexto: vozparatexto.com.br. Sintesy: sintesy.com.br. Otter.ai: otter.ai/pricing. TurboScribe: turboscribe.ai. Happy Scribe: happyscribe.com. Descript: descript.com. Rev: rev.com. Câmbio USD-BRL referência ~R$ 5,50/USD (verifique cotação atual; Banco Central Brasil).

Benchmarks de precisão WER referenciados contra: Hugging Face Open ASR Leaderboard (benchmark independente), Common Voice Brasil (Mozilla, dataset PT-BR público), Distil-Whisper Large-v3 PT-BR (modelo treinado por pesquisador brasileiro, benchmark 8,22% WER em Common Voice Brasil). Whisper Large-v3 paper: arXiv:2212.04356.

Referências legais brasileiras: LGPD (Lei 13.709/2018), ANPD (Autoridade Nacional de Proteção de Dados), CNJ Resolução 105/2010 (verbatim processual), Lei 9.279/1996 (transcritores juramentados), Estatuto da OAB Art. 7º §6º (sigilo profissional advogados), CFM Resolução 2.314/2022 (telemedicina e documentação clínica), Resolução CFP 11/2018 (psicólogos e atendimento online).

Divulgação editorial: Esta página é publicada pela VexaScribe. Não colocamos VexaScribe em #1 ou #2 porque seria desonesto — para muitos usuários brasileiros, o critério dominante é pagamento em Pix e cobrança em real (onde VozParaTexto e Sintesy ganham). Colocamos VexaScribe em #3 baseado em uma posição defensável: melhor custo-benefício global entre ferramentas internacionais com cobertura PT-BR Tier 1 e hospedagem UE. Veja nossos padrões editoriais para critérios de transparência, verificação de precisão e tratamento justo de concorrentes.

Quer testar VexaScribe?

30 minutos grátis no cadastro, sem cartão. Whisper Large-v3, hospedagem em Londres (UE), todos os formatos de exportação. Se você precisa de Pix ou cobrança em real, considere VozParaTexto ou Sintesy. Se você precisa de privacidade absoluta, considere Whisper local. Se nenhum desses critérios é dominante, somos uma boa opção.

Começar grátis →Ver planos