IA para Transcrever Áudio — Whisper Large-v3 EU-Hosted a R$ 11/mês (2026)

O essencial

●Whisper Large-v3 (OpenAI) é o estado-da-arte em 2026. Open source MIT. Usado pelas principais ferramentas comerciais.
●~92% de precisão em PT-BR em áudio limpo (WER 8,22% Distil-Whisper Common Voice Brasil). Varia por sotaque regional.
●Modelo importa mais que marca. VexaScribe, Sintesy, TurboScribe, Happy Scribe usam Whisper Large-v3 — qualidade base equivalente. Diferenciador é hospedagem, LGPD, preço.
●Otter.ai NÃO suporta PT-BR em 2026 — apenas inglês, francês e espanhol. Listas internacionais traduzidas erram nesse ponto.
●LGPD + localização dos dados = critério decisivo para dado sensível. Londres (VexaScribe) e Barcelona (Happy Scribe) hospedam na UE; TurboScribe e Notta hospedam nos EUA.
●IA não substitui transcritor humano em verbatim com fé pública processual (perito juramentado) ou tradução juramentada — limites regulatórios brasileiros.

O que é transcrição com IA

Transcrição com IA (em inglês: AI transcription ou automatic speech recognition, ASR) é a conversão automática de fala gravada em texto escrito, feita por modelos de aprendizado profundo treinados em grandes volumes de áudio. Difere do ASR antigo (anos 1990-2000) baseado em HMM/GMM e dicionários fonéticos manuais — modelos modernos aprendem diretamente do áudio bruto e generalizam para sotaques, idiomas e contextos não vistos.

Cronologia simplificada da tecnologia:

● ~1990-2010: ASR baseado em HMM/GMM (Modelos Ocultos de Markov). Dragon NaturallySpeaking, IBM ViaVoice. Precisão ~70-80% e exige treinamento por usuário.
● 2010-2016: Redes neurais profundas (DNN, RNN, LSTM). Google e Microsoft levam ASR ao smartphone (assistentes de voz).
● 2016-2020: Cloud STT (Google Cloud Speech, AWS Transcribe, Azure Speech). Atinge ~85-90% em inglês.
● 2020: Wav2Vec 2.0 (Meta) prova aprendizado auto-supervisionado em áudio.
● Set/2022: OpenAI lança Whisper (Large-v1) — encoder-decoder Transformer treinado em 680k horas multilíngue. Open source MIT. Salto de qualidade.
● Dez/2022: Whisper Large-v2 — refinamento. Comunidade adota massivamente.
● Nov/2023: Whisper Large-v3 — atual estado-da-arte. ~95% em inglês, ~92% em PT-BR.
● 2024-2026: Variantes otimizadas (Distil-Whisper, Whisper-Turbo, faster-whisper). Foco em velocidade e custo, mantendo qualidade.

A maioria das ferramentas comerciais em 2026 — incluindo VexaScribe — usa Whisper Large-v3 ou variantes otimizadas como modelo principal. Modelos proprietários dos hyperscalers (Google USM, AWS Transcribe) e de algumas startups (Notta, VozParaTexto afirmando AssemblyAI) competem mas raramente superam Whisper em benchmarks abertos em 2026.

Whisper Large-v3 em português brasileiro

Whisper Large-v3 é um encoder-decoder Transformer com 1,55 bilhão de parâmetros, treinado em 680.000 horas de áudio multilíngue rotulado e fracamente supervisionado. Lançado pela OpenAI em novembro de 2023, foi disponibilizado com licença MIT (open source, permite uso comercial). Arquitetura simplificada: o encoder transforma áudio (mel-spectrogram) em features acústicas; o decoder gera os tokens de texto autorregressivamente.

Performance em PT-BR

Benchmark verificável: Distil-Whisper PT-BR atinge 8,22% WER no Common Voice Brasil — equivalente a ~92% de precisão palavra-a-palavra. Comparado a Google Cloud STT (~88-92% PT-BR em 2026) e AWS Transcribe (~85-90%), Whisper Large-v3 é estado-da-arte.

Região / Sotaque	Precisão típica	Observação
Paulista (SP capital e interior)	94-96%	Sotaque mais bem representado em dados de treinamento
Carioca (Rio de Janeiro)	93-95%	Segunda melhor cobertura
Sulista (RS, PR, SC)	92-95%	Pronúncia mais “neutra” ajuda
Mineiro (MG)	92-94%	Supressão de vogais finais (“cê”) gera erros pontuais
Nordestino (BA, PE, CE)	88-92%	Sotaques mais marcados, palavras regionais reduzem precisão
Norte (PA, AM)	86-90%	Menor representação nos dados de treinamento
Sertanejo profundo	85-88%	Falas muito marcadas exigem revisão

Pontos fortes em PT-BR

● Pontuação automática — vírgulas, pontos finais, interrogações, exclamações, dois-pontos.
● Números por extenso → numerais — “dois mil e vinte e seis” → “2026”.
● Code-switching PT↔EN — reconhece anglicismos em discurso técnico (“rodar o build”, “dar deploy”, “fazer call”).
● Gírias urbanas estabelecidas — “bicho”, “mano”, “véi”, “cara”.
● Expressões idiomáticas comuns — “dar uma força”, “virar a chave”.

Limitações honestas

● Áudio com ruído alto — perde 5 a 15 pontos percentuais. Pré-processamento com noise reduction (Adobe Enhance Speech, RNNoise) recupera ~5 pontos.
● Sobreposição de vozes — diarização separada (pyannote) é necessária. VexaScribe inclui no pipeline.
● Termos técnicos nichados — medicina rara (terminologia latina), jurídico processual, programação muito específica — erra 20-30%.
● Nomes próprios pouco comuns — sobrenomes regionais, marcas pequenas, abreviações locais.

Para tutorial técnico de Whisper local em PT-BR: Pierre Guillou no Medium é a referência da comunidade brasileira de NLP, com tutoriais para variantes faster-whisper e WhisperX. IA Expert Academy e TabNews complementam.

Pipeline técnico simplificado

Para entender por que IA leva 5-10 min para transcrever 1h de áudio (e por que nenhum serviço entrega isso de graça em volume): cada arquivo passa por 4 etapas computacionalmente caras.

1
Pré-processamento
Áudio bruto (waveform PCM) → conversão para 16kHz mono → cálculo do mel-spectrogram (representação tempo-frequência). Custo: CPU, rápido.
2
Encoder Transformer
Mel-spectrogram em janelas de 30 segundos → camadas de atenção extraem features acústicas. 32 camadas Transformer × 1280 dimensões. Custo: GPU intensivo.
3
Decoder Transformer (autorregressivo)
Gera tokens de texto um por um, condicionado nas features do encoder. 32 camadas de atenção cruzada. Custo: GPU intensivo — é a etapa mais cara.
4
Pós-processamento
Tokens → texto com pontuação, capitalização, números formatados. Alinhamento de timestamps com janela de áudio. Diarização separada (pyannote). Custo: CPU, médio.

Custo computacional: 1 hora de áudio com Whisper Large-v3 em GPU AWS g5.xlarge (NVIDIA A10G) custa US$ 0,20-0,40 ao provedor cloud. Esse é o piso de custo de qualquer serviço sério — e a razão pela qual planos “100% grátis ilimitado na nuvem” não existem. Para detalhes, veja transcrição gratuita — comparação honesta.

Comparativo: 6 ferramentas de transcrição IA em PT-BR

Mercado brasileiro de transcrição IA em junho de 2026. Critério #1 em PT-BR: modelo usado. Critério #2: localização dos dados (LGPD). Critério #3: preço em reais ou em moeda forte com câmbio claro.

Ferramenta	Modelo	Precisão PT-BR	Servidor	LGPD	Preço	Diferencial
VexaScribe★	Whisper Large-v3	92-95% PT-BR	Londres (UE)	✅ DPA disponível, sem treino	~R$ 11-110/mês	Hospedagem UE, BRL pricing, suporte PT
Sintesy	Whisper Large-v3	92-95% PT-BR	BR/EUA misto	Verificar ToS	R$ 12,49-39,90/mês (Pix)	Foco em notas e resumos, Pix, plano free 60 min/mês
TurboScribe	Whisper Large-v3	92-95% PT-BR	EUA	Verificar ToS	US$ 20/mês (~R$ 110)	Plano free 90 min/dia, interface simples
VozParaTexto	Proprietário (afirma AssemblyAI)	88-92% PT-BR	BR	BR-LGPD nativo	R$ 19,90-149,90/mês (Pix)	Verticais BR (jornalismo, jurídico, saúde), Pix
Happy Scribe	Whisper híbrido + humano	94-96% PT-BR (revisão)	Barcelona (UE)	✅ UE	US$ 0,17/min (~R$ 0,94/min)	Opção de revisão humana, hospedagem UE
Notta	Proprietário	88-92% PT-BR	EUA/Japão	Treino opt-out	US$ 14,99-27,99/mês	120 min/mês free, integração com Zoom/Meet

Preços e funcionalidades verificados em junho de 2026 nos sites oficiais. Cotação USD/BRL ≈ 5,50. Para listas brasileiras de referência, ver cobertura editorial do TechTudo e Serasa Experian sobre transcrição IA.

Casos de uso por setor no Brasil

Jornalismo

Redações brasileiras (Globo, Folha, UOL, Estadão, Agência Pública, Veja)

IA acelera transcrição de entrevistas, coletivas e CPIs. Em outubro de 2025, Abraji e Google lançaram o “Gemini Tools Kit for Journalists” — kit oficial para uso de IA em redações brasileiras. Para fontes confidenciais: hospedagem em UE e ausência de treino IA com áudio são critérios importantes (CF art. 5º XIV — sigilo da fonte).

Pesquisa acadêmica

USP, UFRJ, UNICAMP, UFMG, FIOCRUZ e pós-graduações em geral

Workflow padrão: aprovação no CEP via Plataforma Brasil (Resoluções CNS 466/2012 e 510/2016 para humanidades) → coleta com TCLE → transcrição IA → importação NVivo/ATLAS.ti/MAXQDA/IRaMuTeQ → codificação temática → citação ABNT NBR 10520. Hospedagem UE preferida por bancas e CEPs.

Jurídico

Escritórios de advocacia, departamentos jurídicos, tribunais

CNJ Resoluções 354/2020 e 105/2010 regulamentam audiências gravadas e degravação. IA é adequada para preparação interna (razões finais, recursos, análise estratégica de depoimentos). Verbatim com fé pública processual continua exigindo transcritor humano juramentado registrado em Junta Comercial. EAOAB art. 7º XIX (sigilo profissional) exige cuidado com hospedagem.

Saúde

Telemedicina, consultórios, hospitais

Pós-pandemia, telemedicina consolidou-se com CFM Resolução 2.314/2022. Anamnese e prontuários podem ser transcritos por IA — mas conteúdo é dado sensível (LGPD art. 11). Hospedagem UE/UK e DPA são exigências mínimas. Para clínica privada, considere Whisper local em servidor próprio para máximo controle.

Acessibilidade

Empresas, eventos, conteúdo audiovisual

LBI (Lei 13.146/2015 — Lei Brasileira de Inclusão) exige acessibilidade comunicacional. ABNT NBR 15290 define padrões de legenda para surdos. IA gera legendas SRT em poucos minutos — base para legenda profissional revisada. Veja o “gerador de legendas” para padrões ABNT.

Educação e EdTech

Universidades, cursos online, professores

Aulas remotas (legado da pandemia) geram volume enorme de áudio gravado. IA transcreve para criar materiais de apoio, resumos, busca por palavra-chave em videoaulas, acessibilidade para alunos com deficiência auditiva. Coursera, Udemy e plataformas BR (Hotmart, Eduzz) incorporam transcrição automática.

Marketing e conteúdo

Podcasters, criadores de YouTube, agências

Pipeline tipico: gravar podcast → transcrever IA → repurposing em artigo de blog, threads, citações para redes sociais, SRT para YouTube. Aumenta SEO (Google indexa transcrições), acessibilidade e produção de conteúdo derivado. Ganho de tempo: 5h de trabalho manual → 30 min de edição.

LGPD e transcrição IA: o que sua empresa precisa saber

A LGPD (Lei 13.709/2018) é central na escolha de ferramenta de transcrição IA — especialmente para setores regulados (saúde, jurídico, RH, jornalismo, pesquisa acadêmica).

●Áudio é dado pessoal (art. 5º, II — voz é dado biométrico). Qualquer transcrição IA processa dado pessoal.
●Conteúdo pode ser dado sensível (art. 11): saúde, orientação sexual, religião, dado financeiro, posição política, dado biométrico, dado genético. Exige base legal específica (consentimento ou exceção do art. 11).
●Bases legais para transcrição: consentimento (art. 7º, I), legítimo interesse (art. 7º, IX — exige LIA documentado), execução de contrato (art. 7º, V), cumprimento de obrigação legal (art. 7º, II).
●Localização dos dados: a LGPD permite transferência internacional desde que o país de destino tenha proteção equivalente ou existam garantias contratuais (art. 33). Hospedagem na UE é amplamente aceita por DPOs brasileiros; algumas políticas internas (governo, saúde, jurídico) exigem servidores no Brasil. VexaScribe armazena em AWS eu-west-2 (Londres).
●DPIA (Relatório de Impacto): obrigatório para tratamento de alto risco (art. 38). ANPD publicou guia em 2024. Para transcrição IA de dado sensível em volume, DPIA é recomendado.
●Retenção mínima: ANPD orienta minimização (art. 6º, III). VexaScribe deleta áudios após processamento conforme política configurada.

Para framework prático de decisão entre ferramentas gratuitas e pagas considerando LGPD, veja transcrição gratuita — comparação honesta.

Tendências 2026: para onde vai a transcrição IA

Modelos menores e mais eficientes

Distil-Whisper, Whisper-Turbo: mantêm 95% da qualidade com 4-5× mais velocidade. Permite transcrição em tempo real on-device.

Transcrição on-device

Apple Intelligence (iOS 18+), Google Gemini Nano (Android), Qualcomm Snapdragon AI Engine. Privacidade total — nada sai do aparelho.

Diarização integrada

Hoje pyannote roda separado do Whisper. Tendência: modelos end-to-end que entregam diarização nativa, sem pipeline externo.

Tradução em tempo real

Combinação Whisper + LLM permite tradução simultânea de áudio. Aplicações: reuniões internacionais, atendimento ao cliente multilíngue, turismo.

Regulação

AI Act da UE entra em vigor por fases até 2026/2027. No Brasil, PL 2338/2023 (marco da IA) em discussão. PL 2462/2025 propõe restringir dublagem IA em obras comerciais.

Teste Whisper Large-v3 em PT-BR grátis

30 minutos no cadastro, sem cartão de crédito, dados em AWS eu-west-2 (Londres) sob LGPD.

Começar agora →

Perguntas frequentes

O que é transcrição com IA?

Transcrição com IA é a conversão automática de fala gravada (áudio ou vídeo) em texto escrito por meio de modelos de aprendizado profundo — tipicamente Whisper (OpenAI), Conformer (NVIDIA) ou USM (Google). Um serviço moderno recebe um arquivo, processa em um encoder que extrai features acústicas do áudio (mel-spectrogram), passa por um decoder Transformer que gera os tokens de texto, e aplica pós-processamento (pontuação, capitalização, segmentação por parágrafo). O resultado inclui timestamps e, em serviços completos, identificação de quem fala (diarização). A tecnologia se tornou viável comercialmente em 2022 com o lançamento do Whisper Large-v2; em 2026, o estado-da-arte é Whisper Large-v3, com ~95% de precisão em inglês limpo e ~92% em PT-BR (WER 8,22% no Common Voice Brasil).

Qual a melhor IA para transcrever áudio em português?

Depende do workflow. Para qualidade Whisper Large-v3 + LGPD + hospedagem UE + DPA: VexaScribe (US$ 2-20/mês, ~R$ 11-110/mês, 30 min grátis no cadastro). Para serviço brasileiro com Pix e foco em verticais nacionais: VozParaTexto (R$ 19,90-149,90/mês, modelo proprietário). Para Sintesy: Pix, foco em notas e resumos, usa Whisper Large-v3 (R$ 12,49-39,90/mês). Para TurboScribe: 90 min/dia grátis com Whisper (cadastro obrigatório, servidor EUA). Para Happy Scribe: híbrido IA + revisão humana (Barcelona, UE). Para uso 100% privado e gratuito após hardware: Whisper local em GPU NVIDIA com 10GB+ VRAM (open source MIT, requer setup Python). Para verbatim com fé pública processual: transcritor humano juramentado registrado em Junta Comercial — IA NÃO substitui. Citação técnica: TechTudo, Serasa Experian e canais brasileiros de NLP cobrem o tema desde 2024.

Whisper funciona bem em português brasileiro?

Sim, em Tier 1. Whisper Large-v3 (OpenAI, 2023) foi treinado em ~680.000 horas de áudio multilíngue, incluindo PT-BR e PT-PT. Benchmark independente: Distil-Whisper PT-BR atinge 8,22% WER (Word Error Rate) no Common Voice Brasil — equivalente a ~92% de precisão palavra-a-palavra. Por sotaque regional típico: paulista 94-96%, carioca 93-95%, sulista 92-95%, mineiro 92-94%, nordestino 88-92%. Pontos fortes: pontuação automática, números por extenso (“dois mil e vinte e seis” → “2026”), code-switching PT↔EN (anglicismos em discurso técnico), gírias urbanas estabelecidas, expressões idiomáticas comuns. Limitações honestas: áudio com ruído alto (-5 a -10 pontos), sobreposição de vozes (precisa diarização externa), termos técnicos muito nichados (medicina rara, jurídico especializado), nomes próprios pouco comuns. Comparado a Google Cloud STT (~88-92% PT-BR) e AWS Transcribe (~85-90%), Whisper Large-v3 é estado-da-arte em 2026.

Qual a precisão (WER) do Whisper em PT-BR?

WER é o métrica padrão da indústria — calculada como (substituições + deleções + inserções) / total de palavras na referência. Quanto menor, melhor. Whisper Large-v3 em PT-BR: ~8% WER em áudio limpo (Distil-Whisper Common Voice Brasil benchmark = 8,22%), o que equivale a ~92% de precisão. Para comparação: inglês limpo (LibriSpeech) ~5% WER (~95% precisão); francês ~6% (~94%); espanhol ~6% (~94%); alemão ~6% (~94%); mandarim ~8% (~92%); árabe ~12% (~88%); suaíli ~22% (~78%). Real-world em PT-BR varia muito: podcast profissional bem gravado 3-6% WER, Zoom multivoz 8-12%, sala de aula com ruído 10-15%, áudio bruidoso com sotaque marcado 15-25%. Para conferir qualidade do seu próprio áudio: transcreva manualmente um trecho de 5 minutos e compare com a saída IA — diferença palavra-a-palavra dividida pelo total dá o WER local.

Posso usar Whisper de graça?

Sim, de duas formas. (1) Whisper local: open source com licença MIT (github.com/openai/whisper), gratuito e ilimitado para sempre. Instalação: Python 3.9+, `pip install openai-whisper`. Hardware mínimo para Whisper Large-v3: GPU NVIDIA com ~10GB de VRAM (RTX 3060 12GB, RTX 4070, RTX 4080). Sem GPU, roda em CPU mas 3-5× mais lento que o áudio. Variantes populares: faster-whisper (4× mais rápido), WhisperX (com diarização), MacWhisper (interface Mac), Buzz (interface Windows). Tutoriais em PT-BR: Pierre Guillou no Medium é referência da comunidade brasileira, IA Expert Academy, TabNews, MeioBit. (2) Whisper via serviço cloud com plano free: TurboScribe (3 arquivos/dia × 30 min), Sintesy (60 min/mês), VexaScribe (30 min de teste único). Para uma única transcrição pontual sem investir em hardware, planos free pontuais resolvem; para uso recorrente, ou Whisper local ou plano pago.

VexaScribe usa Whisper?

Sim. VexaScribe usa Whisper Large-v3 da OpenAI como modelo principal de transcrição. Por que escolhemos Whisper: (1) Estado-da-arte open source — qualidade comparável aos modelos proprietários dos hyperscalers (Google USM, AWS Transcribe) com transparência total da arquitetura. (2) Suporte amplo a 99 idiomas, com Tier 1 incluindo PT-BR — essencial para nosso mercado brasileiro. (3) Robusto a ruído de fundo, sotaques regionais e code-switching — treinado em 680.000 horas de áudio diverso. (4) Atualizações regulares da OpenAI mantêm o modelo competitivo. (5) Licença permite uso comercial. Nossa infraestrutura: Whisper Large-v3 otimizado em GPUs NVIDIA na AWS eu-west-2 (Londres), com pipeline de diarização (pyannote) para identificar até 10 vozes. Diferencial vs concorrentes que usam o mesmo modelo (TurboScribe, Sintesy, Happy Scribe parcial): hospedagem UE, sem treino com seu áudio, DPA disponível, suporte em português, BRL pricing.

Transcrição IA substitui transcritor humano?

Depende do caso. IA é mais rápida (5-10 min por hora de áudio vs 5-10 horas de trabalho humano), 50-300× mais barata (R$ 1,30 por hora no plano Pro VexaScribe vs R$ 180-480 por hora de transcritor humano brasileiro), e suficientemente precisa para a maioria dos casos (~92% em PT-BR vs ~99,6% de transcritor humano experiente). Humano é mais preciso em: áudio ruidoso, sotaques muito marcados, terminologia técnica especializada, dialetos pouco cobertos. E é obrigatório para: (1) verbatim com fé pública processual — perito transcritor juramentado registrado em Junta Comercial (Lei 9.279/1996, CNJ Resolução 105/2010); (2) tradução juramentada (Decreto 13.609/1943) para documentos oficiais; (3) decisões críticas onde 4-5 pontos de WER significam erro material. A maioria das equipes brasileiras usa fluxo híbrido: IA como primeira passada + revisão humana de 30 min/h — captura 95% do output humano puro com ~5% do custo.

É seguro usar IA para transcrever áudio confidencial (LGPD)?

Depende do provedor. LGPD (Lei 13.709/2018) trata voz como dado pessoal (art. 5º, II — dado biométrico). Conteúdo do áudio pode ser dado sensível (art. 11): saúde, orientação sexual, religião, dado financeiro. Para conformidade: (1) Localização dos dados — a LGPD permite transferência internacional para países com proteção equivalente ou via garantias contratuais (art. 33), e DPOs brasileiros tendem a preferir hospedagem na UE; algumas políticas internas (governo, saúde) exigem servidores no Brasil. VexaScribe armazena em AWS eu-west-2 (Londres); Happy Scribe em Barcelona; TurboScribe e Notta nos EUA. (2) Sem treino de IA com seu áudio — compromisso contratual explícito. Otter.ai treina por padrão com opt-out manual; VexaScribe não treina. (3) DPA (Data Processing Agreement) — instrumento exigido pela ANPD em uso profissional. Disponível em VexaScribe sob solicitação. (4) Exclusão controlada (art. 18 LGPD — direito ao apagamento). (5) Para casos extremos (fonte jornalística sob risco, dado de saúde altamente sensível): Whisper local em laptop sem internet é a única opção 100% privada.

Quanto tempo a IA leva para transcrever 1 hora de áudio?

Em serviço cloud com GPU otimizada (VexaScribe, TurboScribe, Sintesy): 5-10 minutos. O tempo inclui upload, processamento Whisper Large-v3, diarização, geração de timestamps e download. Variações: arquivo curto (<10 min) ≈ 1 minuto total; arquivo longo (5-10 h) ≈ 30-60 minutos. Whisper local: depende da GPU. RTX 4090 ≈ 10-15 min/h, RTX 3060 ≈ 20-30 min/h, CPU sem GPU ≈ 3-5× a duração do áudio (ou seja, 1h de áudio em ~3-5h de processamento — não prático para volume). Para comparação: transcritor humano profissional brasileiro leva 5-10 horas de trabalho por 1 hora de áudio (regra Bailey 2008 citada em metodologia qualitativa). É esse ganho de velocidade de 30-60× que torna IA transformadora para workflows de volume (pesquisador com 50 entrevistas, jornalista cobrindo CPI, escritório de advocacia com depoimentos, RH com entrevistas de saída).

ChatGPT consegue transcrever áudio em português? Resposta honesta e limites

Sim parcialmente, com limites que impedem uso profissional recorrente. ChatGPT Plus (pago, ~US$ 20/mês verificado em julho de 2026) aceita upload de arquivos de áudio via GPT-4o. Por baixo, é Whisper que transcreve e depois GPT-4o pode analisar. Três limites principais. (1) Tamanho de arquivo: máximo 25 MB por upload, o que dá cerca de 25-30 minutos em MP3 padrão (128 kbps). Uma entrevista de 1 h ultrapassa o limite — você tem que cortar o áudio antes. (2) Sem diarização nativa: ChatGPT não distingue quem falou de forma confiável — o resultado é texto corrido sem “Speaker 1 / Speaker 2”. (3) Sem exportação estruturada: não gera SRT, VTT ou timestamps exportáveis. O texto fica dentro da conversa do ChatGPT — você copia manualmente. Veredito: ChatGPT quebra galho para um arquivo curto pontual quando você quer só o texto + um resumo rápido no mesmo prompt. Para transcrição regular, arquivos longos, workflow profissional (legendas de vídeo, verbatim de entrevista, arquivo documental), uma ferramenta dedicada como VexaScribe é 5-10× mais eficiente pelo mesmo custo efetivo (R$ 11/mês vs R$ 110/mês do ChatGPT Plus).

VexaScribe vs Notta vs Sintesy vs Happy Scribe para IA de transcrição em PT-BR — comparação honesta

Comparação dos 4 serviços mais relevantes de transcrição por IA em português brasileiro (verificado em 24/07/2026). VexaScribe (US$ 2-20/mês, ~R$ 11-110): Whisper Large-v3, 93-95% precisão em PT-BR, hospedagem AWS Londres (UK-GDPR + LGPD Art. 33), sem treinamento de IA nos seus áudios, exportação TXT/DOCX/SRT/VTT/JSON. Posicionamento honesto: o mais barato hospedado UE para uso regular com foco em dados sensíveis. Notta (US$ 8,33-19/mês): Whisper Large-v3, precisão comparável (94-96% claim de marketing), hospedagem AWS Estados Unidos, tier grátis generoso (120 min/mês), integrações fortes com Zoom/Teams/Google Meet via bot ao vivo. Ideal para equipes B2B com reuniões recorrentes e orçamento maior. Sintesy (R$ 12,49-39,90/mês): solução brasileira nativa, hospedagem no Brasil, pagamento em reais via Pix, tier grátis limitado (30 min/mês), usa Whisper por baixo. Ideal para organizações com exigência regulatória específica de servidor no Brasil ou preferência forte por pagar em reais. Happy Scribe (a partir de US$ 17/mês PAYG ou plano mensal): híbrido IA + revisão humana opcional, hospedagem UE (Barcelona/Belga), precisão IA 93-95%, precisão humana revisada >99%. Ideal quando você precisa de opção de upgrade para revisão humana profissional na mesma plataforma. Regra prática: (a) dados sensíveis + orçamento apertado → VexaScribe; (b) reuniões B2B recorrentes integradas → Notta; (c) exigência de servidor no Brasil + Pix → Sintesy; (d) revisão humana on-demand → Happy Scribe.

Quais sotaques brasileiros a IA reconhece?

Whisper Large-v3 reconhece todos os principais sotaques regionais brasileiros, com precisão variável. Paulista (Grande São Paulo + interior): 94-96% — sotaque mais bem representado nos dados de treinamento. Carioca: 93-95% — segundo melhor cobertura. Sulista (gaúcho, paranaense, catarinense): 92-95% — pronúncia mais “neutra” ajuda. Mineiro: 92-94% — “mineirês” com supressão de vogais finais pode causar erros pontuais. Nordestino (baiano, pernambucano, cearense): 88-92% — sotaques mais marcados, palavras regionais reduzem precisão. Norte (paraense, amazonense): 86-90% — menor representação nos dados de treinamento. Sertanejo profundo (interior do Nordeste): 85-88% — falas muito marcadas podem requerer revisão. Português europeu (PT-PT): 90-93% — Whisper trata como mesmo idioma, vocabulário regional pode gerar erros. Para máxima precisão em sotaque marcado: use microfone de qualidade (USB cardióide ou lavalier), grave em ambiente sem ruído, e revise manualmente os primeiros 5 minutos para calibrar a qualidade do seu áudio.

Metodologia e fontes

● Whisper Large-v3: documentação oficial OpenAI (nov/2023), paper Radford et al. “Robust Speech Recognition via Large-Scale Weak Supervision” (2022).
● Benchmark WER PT-BR: Distil-Whisper Common Voice Brasil = 8,22% WER.
● Comunidade brasileira de NLP / Whisper: Pierre Guillou (Medium), IA Expert Academy, TabNews, MeioBit.
● Jornalismo: Abraji + Google “Gemini Tools Kit for Journalists” (outubro de 2025).
● Pesquisa acadêmica: Resoluções CNS 466/2012 e 510/2016 (CEP-CONEP), Plataforma Brasil, ABNT NBR 10520 (citações).
● Jurídico: CNJ Resoluções 354/2020 e 105/2010, EAOAB art. 7º XIX.
● Saúde: CFM Resolução 2.314/2022 (telemedicina).
● Acessibilidade: LBI (Lei 13.146/2015), ABNT NBR 15290.
● LGPD: Lei 13.709/2018, orientações ANPD 2024-2025.
● Cobertura editorial brasileira sobre transcrição IA: TechTudo (Globo), Serasa Experian, Olhar Digital.
● Preços e features de concorrentes verificados em junho de 2026 nos sites oficiais. Cotação USD/BRL ≈ 5,50.