Rafael Venâncio
“Brinde a nós, Brinde aos avós.”

Qual é a melhor plataforma de text-to-speech?

Enquadramento

Nos últimos seis meses, a nossa equipa intensificou significativamente o uso de plataformas de text-to-speech, marcando uma transição para a execução de trabalhos mais profissionais para os nossos clientes. Antes desse período, já tínhamos explorado estas ferramentas, mas de forma mais esporádica e menos focada. Agora, estas tecnologias tornaram-se uma parte integrante do nosso fluxo de trabalho, desempenhando um papel crucial na produção de conteúdo de áudio.
No artigo de hoje estabelecemos como missão encontrar a melhor plataforma de text-to-speech.

Mas, afinal, o que são plataformas de text-to-speech?

Não podíamos dar início à nossa missão de encontrar a melhor plataforma de text-to-speech sem primeiro percebermos o que são. Simplificando, são sistemas que transformam texto escrito em linguagem falada, utilizando inteligência artificial para simular a voz humana com uma precisão cada vez maior. Esta capacidade de converter texto em áudio de forma rápida e eficaz elimina a necessidade de fazer gravações de voz tradicionais, oferecendo uma alternativa prática e versátil para a produção de conteúdo.

Para que servem estas plataformas?

A importância destas plataformas transcende a mera conveniência; elas representam uma revolução na forma como produzimos e interagimos com conteúdo de áudio. Para os nossos clientes, isso significa maior agilidade na produção de materiais, desde audiobooks a anúncios, passando por tutoriais e muito mais, sem comprometer a qualidade. O uso de text-to-speech facilita um fluxo de trabalho mais eficiente, permitindo-nos atender às necessidades do mercado com rapidez e eficiência.

Qual é o nosso objetivo?

O principal objetivo deste estudo é simplificar o nosso processo interno de tomada de decisão e, fundamentalmente, determinar qual plataforma oferece o melhor desempenho para diferentes tipos de conteúdo textual. Ao identificar a ferramenta mais eficaz, pretendemos otimizar os nossos fluxos de trabalho e garantir conteúdos de alta qualidade aos nossos clientes.

O Estudo

A melhor plataforma de text-to-speech - O ESTUDO​

Neste estudo, adotámos uma abordagem metódica para avaliar e comparar as capacidades de várias plataformas de text-to-speech. O objetivo é proporcionar uma análise detalhada que não destaque apenas a qualidade do áudio gerado, mas também examine aspetos práticos, como a acessibilidade e custo. Com isso em mente, estruturámos o nosso estudo em torno de várias etapas-chave:

Realização de Três Testes Distintos: Inicialmente, conduziremos três tipos diferentes de testes para avaliar a performance das plataformas em cenários variados:

  • Um teste narrativo em inglês, focando em textos descritivos.
  • Um teste comercial em inglês, visando textos com apelo à ação ou publicitários.
  • Um teste genérico em português de Portugal, para avaliar a capacidade das plataformas de lidar com textos em idiomas além do inglês.

Análise Comparativa dos Limites e Tabelas de Preço

Um dos requisitos para encontrar a melhor plataforma text-to-speech, para além da qualidade do áudio, são as condições de uso oferecidas pelas plataformas, incluindo a análise dos limites impostos pelas versões gratuitas e a comparação das tabelas de preços para os planos pagos. Essa análise permitirá entender melhor como cada plataforma equilibra acessibilidade e valor.

Seleção das Plataformas

Na nossa demanda pela melhor plataforma text-to-speech, decidimos a avaliar nove plataformas distintas, escolhidas com base na disponibilidade de versões gratuitas que oferecem um nível razoável de utilização. Isso assegura que a nossa avaliação seja relevante tanto para utilizadores que procuram soluções sem custos quanto para aqueles que têm em consideração planos pagos para uso extensivo.

Método de Avaliação

Cada plataforma será avaliada numa escala de 1 a 5, permitindo notas fracionadas como 1.5 ou 3.5 para refletir com precisão a nossa avaliação. Essa escala permite-nos quantificar as nuances na qualidade do áudio, usabilidade, acessibilidade, e custo de cada serviço de forma detalhada e justa.

Teste 1: O Melhor o StoryTeller

No Data Found

No teste focado na narração, a nossa avaliação revelou diferenças significativas entre as plataformas de text-to-speech analisadas, destacando-se a Eleven Labs pela sua superioridade em qualidade de voz e som, bem como na expressão quase perfeita e naturalidade das vozes geradas. Esta plataforma alcançou a pontuação máxima de 5 pontos, distinguindo-se como a melhor opção para produções que exigem uma narração expressiva e envolvente.
Em seguida, classificámos a Google Text to Speech API, que também apresentou resultados impressionantes, com uma pontuação de 4,5. Apesar da sua alta qualidade geral, esta plataforma foi superada pela Eleven Labs principalmente na capacidade de expressão e entoação do texto, áreas em que as vozes do Eleven Labs demonstraram um desempenho superior.
Com a mesma pontuação de 4,5, o MicMonster surpreendeu positivamente. Apesar de ser uma plataforma mais simples e com algumas limitações, a qualidade do output mostrou-se comparável à da Google Text to Speech API. O diferencial do MicMonster reside na sua expressão e entoação, que foram avaliadas como melhores do que as da Google Text to Speech API, embora a qualidade de som deste último seja superior.
Por outro lado, a plataforma que não correspondeu às expectativas neste teste foi a Play.ht. Apesar das suas numerosas funcionalidades, tanto a qualidade de voz como a qualidade de som foram consideradas inferiores em relação às outras plataformas avaliadas. Este desempenho deixou a Play.ht em desvantagem, destacando-se como a opção menos recomendada para projetos que necessitam de uma narração de alta qualidade.

Teste 2: O Melhor a Fazer um Anúncio

No Data Found

No teste dedicado a anúncios comerciais, o desempenho das plataformas de text-to-speech variou significativamente, destacando a Google Text to Speech API como a escolha preeminente, com uma pontuação perfeita de 5 pontos. Este resultado deve-se principalmente à sua capacidade excecional de expressão, que se mostrou particularmente eficaz para textos que exigem mais entusiasmo e impacto. A capacidade da Google Text to Speech API de transmitir emoção e intensidade foi considerada ideal para anúncios que pretendem captar a atenção do ouvinte.
Muito perto em termos de desempenho, a Eleven Labs obteve 4,75 pontos. Apesar de oferecer uma qualidade de voz e som impressionante, perdeu ligeiramente para a Google em termos de expressão. Esta pequena diferença sugere que, embora a Eleven Labs seja altamente competente em criar vozes naturais e expressivas, para o dinamismo e a energia exigidos para os anúncios comerciais, a Google Text to Speech API mostrou-se ligeiramente superior.
O MicMonster, mantendo-se competitivo, registou 4,5 pontos. Continua a ser uma forte opção devido à sua qualidade geral, mas neste contexto, a sua qualidade de som não alcançou o nível das duas plataformas líderes, Google Text to Speech API e Eleven Labs. Ainda assim, demonstra ser uma escolha sólida para projetos com requisitos menos rigorosos em termos de qualidade sonora.
Em contrapartida, o TTS MP3 mostrou-se a opção menos viável, com uma pontuação de apenas 1,25. Esta plataforma não só cometeu erros na pronúncia de palavras – um problema não registado nas outras plataformas – como também não conseguiu entregar a expressão e intensidade necessárias para um anúncio eficaz. Este desempenho menos positivo destaca o TTS MP3 como inadequado para projetos que necessitam de alta qualidade e precisão em text-to-speech, especialmente em contextos comerciais que exigem uma forte expressão e impacto emocional.

Teste 3 : O Melhor a Falar em PT-PT

No Data Found

No teste conduzido em português, observou-se uma diminuição significativa na qualidade geral das plataformas de text-to-speech, tanto em termos de qualidade de voz quanto de expressão. Esta queda de desempenho reflete as limitações encontradas nas plataformas ao lidar com o português de Portugal, contrariamente ao constatado com o inglês. A capacidade de oferecer uma experiência de voz natural e expressiva em português de Portugal tornou-se um fator decisivo, levando à desclassificação daquelas plataformas que apenas suportam o português do Brasil. Isso é crucial para projetos direcionados ao mercado nacional português, onde a precisão linguística e a adaptabilidade cultural são fundamentais.
O Google Text to Speech API emergiu como a plataforma líder neste teste, alcançando 4 pontos.
Apesar de uma qualidade de som e de voz percebida como inferior quando comparada com os testes em inglês, destacou-se pela sua vasta seleção de vozes disponíveis em português de Portugal, o que é particularmente relevante dado o contexto do teste. A diversidade de vozes oferecidas pelo Google Text to Speech API permitiu uma maior flexibilidade e adequação ao contexto português, superando as limitações de expressão e entoação encontradas em outras plataformas.
O MicMonster, posicionando-se em segundo lugar, enfrentou dificuldades com uma qualidade de som e expressão inferiores às do Google Text to Speech API, além de oferecer um número muito mais limitado de opções de voz em português. Esta limitação impactou negativamente a sua capacidade de produzir áudio adaptado e expressivo para o mercado português.
Outras plataformas, como o VoiceLive, apesar das suas múltiplas funcionalidades, foram excluídas da consideração devido à ausência de suporte ao português de Portugal, uma funcionalidade crucial para a inclusão neste teste. A falta de opções de voz em português de Portugal e a dificuldade em encontrar essas mesmas opções, mesmo após uma procura detalhada, refletem as barreiras significativas no uso dessas plataformas para audiências e projetos focados em Portugal.
Essa análise revela a importância de um suporte linguístico abrangente nas plataformas de text-to-speech, especialmente quando destinadas a mercados específicos como o português de Portugal, onde as expectativas de qualidade e adaptabilidade cultural são altas.

Informações Gerais

A análise das características gerais de várias plataformas de text-to-speech destaca a diversidade nas opções disponíveis, bem como os diferentes fatores que podem influenciar a escolha de uma plataforma sobre outra. Estes incluem a complexidade do setup, a variedade de vozes disponíveis, a facilidade de teste das vozes, os limites de uso, e a estrutura de preços. Aqui está um resumo dos pontos-chave mencionados:

Setup

  • Simplicidade vs. Complexidade: Algumas plataformas oferecem um processo de setup muito direto, sem necessidade de criação de conta. Por outro lado, plataformas como o Google Text to Speech API e Amazon Text-to-Speech requerem um processo de registo mais elaborado, que inclui fornecer informações pessoais e dados de cartão de crédito, apesar de oferecerem versões gratuitas com quotas generosas.
  • APIs e Integração: Plataformas como a Google e aAmazon destacam-se pela sua capacidade de integração com outras APIs, o que, apesar de adicionar complexidade ao processo de setup, aumenta significativamente as possibilidades de utilização.

Número de Vozes

  • Variedade de Vozes: A quantidade de vozes disponíveis varia consideravelmente entre as plataformas. Eleven Labs destaca-se com um impressionante número de 300 vozes para inglês US, enquanto outras plataformas podem oferecer tão pouco quanto 8 ou 9 vozes.

Facilidade de Escolha da Voz

  • Teste de Vozes: Algumas plataformas permitem testar as vozes facilmente, com um simples clique. Outras dificultam um bocado o processo, escondendo a funcionalidade ou exigindo a execução de um prompt específico para testar a voz, o que pode ser limitado por “quotas de utilização”.
Plataforma Setup Número de vozes Facilidade de escolha Limites / audio Limites / temporais Preço
ttsmaker sem setup 61 muito facil 8000 20.000 / semana de graça
voicemaker sem setup 13 muito facil 250 - 5€/mês | 200.000 /mês
elevenlabs criar conta 300 facil 2500 10.000 / mês 5€/mês | 30.000 /mês
texttovoice sem setup 9 Muito dificil 500 10.000 / mês 5€/mês | 150.000 /mês
ttsmp3 sem setup 8 Muito dificil 3000 3.000 /day de graça
play.ht criar conta 14 Muito dificil 200 12.500 /mês 31€/mês | 250.000/mês
google text-to-speech mais complexo 35 Muito dificil +ou- 620 4.000.000 /mês 4€/mês | 1.000.000 /mês
amazon text-to-speech mais complexo 14 Muito dificil 3000 5.000.000 / mês 4€/mês | 1.000.000 /mês
micmonster sem setup 36 muito facil 300 - 39€/mês | ilimitado

Limites de utilização

  • Limites de Texto e Temporais: As plataformas variam quanto aos limites de texto que podem ser convertidos em voz e aos limites temporais de utilização (por exemplo, semanais ou mensais). Algumas plataformas permitem o envio de grandes quantidades de texto de uma só vez, enquanto outras impõem restrições mais rigorosas.
  • Quotas Gratuitas vs. Capacidade de Processamento: Plataformas como o Google Text to Speech API e Amazon oferecem quotas mensais generosas (milhões de caracteres por mês), refletindo as suas capacidades de processamento mais robustas.

Pricing

  • Modelos de Preço: Existem plataformas completamente gratuitas e outras com estruturas de preço baseadas em níveis, afetando o acesso a recursos como o número de caracteres mensais permitidos e a variedade de vozes.

Esta análise ilustra a importância de considerar vários fatores ao escolher uma plataforma de text-to-speech, especialmente quando falamos de projetos que exigem especificações detalhadas quanto à qualidade da voz, capacidade de personalização, e orçamento disponível.

Considerações Finais

A melhor plataforma de text-to-speech -CONSIDERAÇÕES FINAIS

TTS Maker destaca-se pela sua simplicidade e acessibilidade, oferecendo um vasto número de vozes, especialmente em inglês, sem necessidade de qualquer configuração inicial. Com limites generosos tanto no tamanho dos prompts (até 8000 caracteres) quanto na utilização mensal, e sendo completamente gratuita, apresenta-se como uma opção atrativa para quem procura produzir conteúdo extenso em áudio sem custos. Contudo, a qualidade das vozes pode não satisfazer os utilizadores mais exigentes, o que é uma desvantagem notável.

VoiceMaker permite um maior controlo sobre a produção de áudio, oferecendo mais funcionalidades que o TTS Maker, embora não apresente características únicas que o destaquem significativamente. O que oferece é mais limitado, podendo não satisfazer todas as necessidades dos utilizadores.

Eleven Labs destaca-se consistentemente pela alta qualidade das suas vozes, exceto para o português de Portugal, onde não oferece opções. A plataforma disponibiliza uma ampla gama de vozes em inglês, com mais de 300 opções, e permite a criação de vozes personalizadas, oferecendo um controlo detalhado sobre a produção de áudio. Apesar de ter limites mais restritivos na sua versão gratuita, a qualidade superior e a flexibilidade na criação e manipulação de vozes fazem dela uma das melhores escolhas, especialmente para conteúdos narrativos em inglês.

Text-to-Voice, embora testado, mostrou-se bastante limitado em termos de variedade de vozes e facilidade de uso, com um limite de apenas 500 caracteres por prompt. Essas restrições, somadas à dificuldade de encontrar vozes adequadas, tornam esta plataforma menos atraente, especialmente quando comparada com outras opções disponíveis.

TTS MP3 não se destacou positivamente nos testes realizados, apresentando uma qualidade de voz inferior. Contudo, o facto de ser grátis pode atrair utilizadores que estejam apenas a explorar a produção de conteúdo em áudio e queiram testar diferentes plataformas sem compromisso financeiro.

Play.ht, apesar de ser uma plataforma paga, não se mostrou superior em termos de qualidade de áudio nos testes realizados. O limite muito restrito de 200 caracteres por prompt e a necessidade de uma conta tornam o seu uso menos prático, especialmente para a criação de conteúdo mais extenso, apesar de oferecer algum controlo sobre as características das vozes.

Google Text to Speech API destacou-se por oferecer resultados de alta qualidade em várias categorias, incluindo anúncios e português de Portugal. Embora o setup seja mais complexo, a plataforma oferece um amplo leque de vozes e possibilidades de otimização, tornando-a uma escolha poderosa para quem procura qualidade e flexibilidade, apesar do seu limite mais reduzido de caracteres por prompt. O seu generoso limite mensal e o custo-benefício da versão paga são pontos fortes significativos.

Amazon Text-to-Speech, embora ofereça uma qualidade decente e esteja acima da média em comparação com várias outras plataformas, não consegue superar o Google Text to Speech API em termos de qualidade. O seu setup complexo e os limites de caracteres por prompt e mensais são considerações importantes, mas para quem precisa de um grande volume de caracteres, o Google Text to Speech API pode ser uma opção mais vantajosa.

MicMonster surpreendeu positivamente, oferecendo uma qualidade de voz relativamente superior a muitas outras plataformas da sua categoria. Apesar de ter um limite de 3000 caracteres por prompt, não possui limites mensais, o que o torna uma opção excelente para quem busca uma solução eficaz e sem custos para a produção de áudio em português, especialmente para utilizadores que valorizam a simplicidade e a eficácia sem necessidade de funcionalidades adicionais complexas.

Qual é a melhor plataforma de text-to-speech?

A Melhor plataforma de text-to-speech: Google text to speech API

A escolha da melhor plataforma de text-to-speech pode variar consideravelmente conforme as necessidades específicas dos utilizadores, sejam elas relacionadas à qualidade das vozes, à facilidade de uso, à flexibilidade ou até mesmo ao custo. No entanto, com base numa análise detalhada que considera vários fatores, incluindo testes e informações gerais sobre cada plataforma, o Google text to speech API emerge como a escolha superior para a maioria das aplicações gerais.
O Google text to speech API é reconhecido por sua confiabilidade e pela alta qualidade das vozes numa ampla gama de idiomas e dialetos. Embora possa não ser a plataforma mais simples de utilizar, devido à necessidade de um setup mais complexo, a qualidade dos resultados justifica esse esforço adicional. Esta plataforma oferece um balanço ótimo entre qualidade de voz, flexibilidade e capacidade de personalização, tornando-a a escolha ideal para uma vasta gama de aplicações, desde produção de conteúdo até desenvolvimento de assistentes virtuais.

A plataforma com melhor qualidade: Eleven Labs

Por outro lado, o Eleven Labs destaca-se como o favorito pessoal, principalmente quando a prioridade é a qualidade das vozes. A sua capacidade de criar vozes personalizadas, incluindo a possibilidade de imitar a própria voz do utilizador, oferece um nível de personalização e realismo que poucas plataformas conseguem igualar. Além disso, a interface do utilizador do Eleven Labs é intuitiva e facilita significativamente o workflow, tornando a produção de conteúdo em voz uma tarefa menos tediosa e mais eficiente. Especialmente para conteúdo em inglês, o Eleven Labs apresenta uma qualidade superior, que supera a maioria das outras plataformas disponíveis no mercado.

Menção Honrosa – MicMonster

Uma menção honrosa vai para o MicMonster, uma plataforma que, apesar da sua simplicidade e limitações em termos de funcionalidades, surpreende pela qualidade das vozes que oferece. O seu interface de utilizador simplificado e eficiente atende diretamente às necessidades do utilizador, permitindo o fácil acesso a vozes de alta qualidade em português, entre outros idiomas. A principal limitação do MicMonster é o número de caracteres permitidos por prompt, mas mesmo assim, ele destaca-se como uma opção notável para quem procura uma solução prática e de boa qualidade para text-to-voice.

Metodologia, Referências e Limitações

Referências

Metodologia

Para a encontrarmos a melhor plataforma de text-to-speech, adotámos uma abordagem sistemática que envolveu a seleção, teste e avaliação de nove plataformas distintas, todas com versões gratuitas disponíveis. A seleção inicial foi realizada através de uma pesquisa nas primeiras três páginas de resultados do Google, garantindo uma amostra representativa das opções disponíveis no mercado.

Os testes consistiram em três avaliações distintas, cada uma projetada para explorar diferentes capacidades das plataformas: um discurso narrativo, um discurso comercial e um discurso formal. Para assegurar a consistência dos testes, o mesmo texto foi utilizado em todas as plataformas, com adaptações mínimas para adequar a voz ao contexto do discurso (voz masculina mais grave para narrações e voz feminina mais emotiva para anúncios comerciais).

Os quatro principais critérios definidos para encontrar a melhor plataforma de text-to-speech foram:

  • Qualidade da Voz: Avaliação da clareza e naturalidade da voz sintetizada.
  • Qualidade do Som: Avaliação da pureza e ausência de distorções no áudio gerado.
  • Precisão do Texto para Voz: Verificação da ocorrência de erros de conversão do texto em áudio.
  • Intonação e Expressão: Avaliação da capacidade da voz em transmitir emoções e enfatizar partes relevantes do discurso.

Cada critério foi pontuado numa escala de 1 a 5, com possibilidade de atribuição de pontos extra, totalizando uma pontuação máxima de 10. A avaliação foi conduzida por um único avaliador para manter a consistência na atribuição das pontuações.

Limitações

As principais limitações deste estudo incluem o número restrito de plataformas avaliadas e a subjetividade inerente à metodologia de pontuação, visto que a avaliação foi realizada por apenas uma pessoa. Embora tenhamos tentado minimizar a subjetividade ao estabelecer critérios claros de avaliação, reconhecemos que perceções individuais podem influenciar os resultados.

Adicionalmente, a diversidade e complexidade dos textos e contextos em que as plataformas de text-to-speech podem ser aplicadas sugerem que uma análise mais ampla, envolvendo um maior número de plataformas e avaliadores, poderia fornecer insights mais abrangentes sobre as capacidades e limitações de cada ferramenta.

Agradecemos a todos que acompanharam esta análise e esperamos que as informações fornecidas sejam úteis para escolher a melhor plataforma de text-to-speech possível, com base nas necessidades do projeto em questão.

Chegaste até aqui? Parece que completaste a quest com sucesso!

Tens algum projeto nesta área que pretendas explorar? Estamos cá para descomplicar a tua viagem pelas redes sociais.Passa pela nossa página de contactos e partilha as tuas ideias.

Não fiques para trás no mundo do Marketing Digital

Em formato de newsletter semanal, o auto-rádio serve para que estejas sempre a par das principais notícias do marketing digital.

March 5, 2024
March 5, 2024

Qual é a melhor plataforma de text-to-speech?

Enquadramento

Nos últimos seis meses, a nossa equipa intensificou significativamente o uso de plataformas de text-to-speech, marcando uma transição para a execução de trabalhos mais profissionais para os nossos clientes. Antes desse período, já tínhamos explorado estas ferramentas, mas de forma mais esporádica e menos focada. Agora, estas tecnologias tornaram-se uma parte integrante do nosso fluxo de trabalho, desempenhando um papel crucial na produção de conteúdo de áudio.
No artigo de hoje estabelecemos como missão encontrar a melhor plataforma de text-to-speech.

Mas, afinal, o que são plataformas de text-to-speech?

Não podíamos dar início à nossa missão de encontrar a melhor plataforma de text-to-speech sem primeiro percebermos o que são. Simplificando, são sistemas que transformam texto escrito em linguagem falada, utilizando inteligência artificial para simular a voz humana com uma precisão cada vez maior. Esta capacidade de converter texto em áudio de forma rápida e eficaz elimina a necessidade de fazer gravações de voz tradicionais, oferecendo uma alternativa prática e versátil para a produção de conteúdo.

Para que servem estas plataformas?

A importância destas plataformas transcende a mera conveniência; elas representam uma revolução na forma como produzimos e interagimos com conteúdo de áudio. Para os nossos clientes, isso significa maior agilidade na produção de materiais, desde audiobooks a anúncios, passando por tutoriais e muito mais, sem comprometer a qualidade. O uso de text-to-speech facilita um fluxo de trabalho mais eficiente, permitindo-nos atender às necessidades do mercado com rapidez e eficiência.

Qual é o nosso objetivo?

O principal objetivo deste estudo é simplificar o nosso processo interno de tomada de decisão e, fundamentalmente, determinar qual plataforma oferece o melhor desempenho para diferentes tipos de conteúdo textual. Ao identificar a ferramenta mais eficaz, pretendemos otimizar os nossos fluxos de trabalho e garantir conteúdos de alta qualidade aos nossos clientes.

O Estudo

A melhor plataforma de text-to-speech - O ESTUDO​

Neste estudo, adotámos uma abordagem metódica para avaliar e comparar as capacidades de várias plataformas de text-to-speech. O objetivo é proporcionar uma análise detalhada que não destaque apenas a qualidade do áudio gerado, mas também examine aspetos práticos, como a acessibilidade e custo. Com isso em mente, estruturámos o nosso estudo em torno de várias etapas-chave:

Realização de Três Testes Distintos: Inicialmente, conduziremos três tipos diferentes de testes para avaliar a performance das plataformas em cenários variados:

  • Um teste narrativo em inglês, focando em textos descritivos.
  • Um teste comercial em inglês, visando textos com apelo à ação ou publicitários.
  • Um teste genérico em português de Portugal, para avaliar a capacidade das plataformas de lidar com textos em idiomas além do inglês.

Análise Comparativa dos Limites e Tabelas de Preço

Um dos requisitos para encontrar a melhor plataforma text-to-speech, para além da qualidade do áudio, são as condições de uso oferecidas pelas plataformas, incluindo a análise dos limites impostos pelas versões gratuitas e a comparação das tabelas de preços para os planos pagos. Essa análise permitirá entender melhor como cada plataforma equilibra acessibilidade e valor.

Seleção das Plataformas

Na nossa demanda pela melhor plataforma text-to-speech, decidimos a avaliar nove plataformas distintas, escolhidas com base na disponibilidade de versões gratuitas que oferecem um nível razoável de utilização. Isso assegura que a nossa avaliação seja relevante tanto para utilizadores que procuram soluções sem custos quanto para aqueles que têm em consideração planos pagos para uso extensivo.

Método de Avaliação

Cada plataforma será avaliada numa escala de 1 a 5, permitindo notas fracionadas como 1.5 ou 3.5 para refletir com precisão a nossa avaliação. Essa escala permite-nos quantificar as nuances na qualidade do áudio, usabilidade, acessibilidade, e custo de cada serviço de forma detalhada e justa.

Teste 1: O Melhor o StoryTeller

No Data Found

No teste focado na narração, a nossa avaliação revelou diferenças significativas entre as plataformas de text-to-speech analisadas, destacando-se a Eleven Labs pela sua superioridade em qualidade de voz e som, bem como na expressão quase perfeita e naturalidade das vozes geradas. Esta plataforma alcançou a pontuação máxima de 5 pontos, distinguindo-se como a melhor opção para produções que exigem uma narração expressiva e envolvente.
Em seguida, classificámos a Google Text to Speech API, que também apresentou resultados impressionantes, com uma pontuação de 4,5. Apesar da sua alta qualidade geral, esta plataforma foi superada pela Eleven Labs principalmente na capacidade de expressão e entoação do texto, áreas em que as vozes do Eleven Labs demonstraram um desempenho superior.
Com a mesma pontuação de 4,5, o MicMonster surpreendeu positivamente. Apesar de ser uma plataforma mais simples e com algumas limitações, a qualidade do output mostrou-se comparável à da Google Text to Speech API. O diferencial do MicMonster reside na sua expressão e entoação, que foram avaliadas como melhores do que as da Google Text to Speech API, embora a qualidade de som deste último seja superior.
Por outro lado, a plataforma que não correspondeu às expectativas neste teste foi a Play.ht. Apesar das suas numerosas funcionalidades, tanto a qualidade de voz como a qualidade de som foram consideradas inferiores em relação às outras plataformas avaliadas. Este desempenho deixou a Play.ht em desvantagem, destacando-se como a opção menos recomendada para projetos que necessitam de uma narração de alta qualidade.

Teste 2: O Melhor a Fazer um Anúncio

No Data Found

No teste dedicado a anúncios comerciais, o desempenho das plataformas de text-to-speech variou significativamente, destacando a Google Text to Speech API como a escolha preeminente, com uma pontuação perfeita de 5 pontos. Este resultado deve-se principalmente à sua capacidade excecional de expressão, que se mostrou particularmente eficaz para textos que exigem mais entusiasmo e impacto. A capacidade da Google Text to Speech API de transmitir emoção e intensidade foi considerada ideal para anúncios que pretendem captar a atenção do ouvinte.
Muito perto em termos de desempenho, a Eleven Labs obteve 4,75 pontos. Apesar de oferecer uma qualidade de voz e som impressionante, perdeu ligeiramente para a Google em termos de expressão. Esta pequena diferença sugere que, embora a Eleven Labs seja altamente competente em criar vozes naturais e expressivas, para o dinamismo e a energia exigidos para os anúncios comerciais, a Google Text to Speech API mostrou-se ligeiramente superior.
O MicMonster, mantendo-se competitivo, registou 4,5 pontos. Continua a ser uma forte opção devido à sua qualidade geral, mas neste contexto, a sua qualidade de som não alcançou o nível das duas plataformas líderes, Google Text to Speech API e Eleven Labs. Ainda assim, demonstra ser uma escolha sólida para projetos com requisitos menos rigorosos em termos de qualidade sonora.
Em contrapartida, o TTS MP3 mostrou-se a opção menos viável, com uma pontuação de apenas 1,25. Esta plataforma não só cometeu erros na pronúncia de palavras – um problema não registado nas outras plataformas – como também não conseguiu entregar a expressão e intensidade necessárias para um anúncio eficaz. Este desempenho menos positivo destaca o TTS MP3 como inadequado para projetos que necessitam de alta qualidade e precisão em text-to-speech, especialmente em contextos comerciais que exigem uma forte expressão e impacto emocional.

Teste 3 : O Melhor a Falar em PT-PT

No Data Found

No teste conduzido em português, observou-se uma diminuição significativa na qualidade geral das plataformas de text-to-speech, tanto em termos de qualidade de voz quanto de expressão. Esta queda de desempenho reflete as limitações encontradas nas plataformas ao lidar com o português de Portugal, contrariamente ao constatado com o inglês. A capacidade de oferecer uma experiência de voz natural e expressiva em português de Portugal tornou-se um fator decisivo, levando à desclassificação daquelas plataformas que apenas suportam o português do Brasil. Isso é crucial para projetos direcionados ao mercado nacional português, onde a precisão linguística e a adaptabilidade cultural são fundamentais.
O Google Text to Speech API emergiu como a plataforma líder neste teste, alcançando 4 pontos.
Apesar de uma qualidade de som e de voz percebida como inferior quando comparada com os testes em inglês, destacou-se pela sua vasta seleção de vozes disponíveis em português de Portugal, o que é particularmente relevante dado o contexto do teste. A diversidade de vozes oferecidas pelo Google Text to Speech API permitiu uma maior flexibilidade e adequação ao contexto português, superando as limitações de expressão e entoação encontradas em outras plataformas.
O MicMonster, posicionando-se em segundo lugar, enfrentou dificuldades com uma qualidade de som e expressão inferiores às do Google Text to Speech API, além de oferecer um número muito mais limitado de opções de voz em português. Esta limitação impactou negativamente a sua capacidade de produzir áudio adaptado e expressivo para o mercado português.
Outras plataformas, como o VoiceLive, apesar das suas múltiplas funcionalidades, foram excluídas da consideração devido à ausência de suporte ao português de Portugal, uma funcionalidade crucial para a inclusão neste teste. A falta de opções de voz em português de Portugal e a dificuldade em encontrar essas mesmas opções, mesmo após uma procura detalhada, refletem as barreiras significativas no uso dessas plataformas para audiências e projetos focados em Portugal.
Essa análise revela a importância de um suporte linguístico abrangente nas plataformas de text-to-speech, especialmente quando destinadas a mercados específicos como o português de Portugal, onde as expectativas de qualidade e adaptabilidade cultural são altas.

Informações Gerais

A análise das características gerais de várias plataformas de text-to-speech destaca a diversidade nas opções disponíveis, bem como os diferentes fatores que podem influenciar a escolha de uma plataforma sobre outra. Estes incluem a complexidade do setup, a variedade de vozes disponíveis, a facilidade de teste das vozes, os limites de uso, e a estrutura de preços. Aqui está um resumo dos pontos-chave mencionados:

Setup

  • Simplicidade vs. Complexidade: Algumas plataformas oferecem um processo de setup muito direto, sem necessidade de criação de conta. Por outro lado, plataformas como o Google Text to Speech API e Amazon Text-to-Speech requerem um processo de registo mais elaborado, que inclui fornecer informações pessoais e dados de cartão de crédito, apesar de oferecerem versões gratuitas com quotas generosas.
  • APIs e Integração: Plataformas como a Google e aAmazon destacam-se pela sua capacidade de integração com outras APIs, o que, apesar de adicionar complexidade ao processo de setup, aumenta significativamente as possibilidades de utilização.

Número de Vozes

  • Variedade de Vozes: A quantidade de vozes disponíveis varia consideravelmente entre as plataformas. Eleven Labs destaca-se com um impressionante número de 300 vozes para inglês US, enquanto outras plataformas podem oferecer tão pouco quanto 8 ou 9 vozes.

Facilidade de Escolha da Voz

  • Teste de Vozes: Algumas plataformas permitem testar as vozes facilmente, com um simples clique. Outras dificultam um bocado o processo, escondendo a funcionalidade ou exigindo a execução de um prompt específico para testar a voz, o que pode ser limitado por “quotas de utilização”.
Plataforma Setup Número de vozes Facilidade de escolha Limites / audio Limites / temporais Preço
ttsmaker sem setup 61 muito facil 8000 20.000 / semana de graça
voicemaker sem setup 13 muito facil 250 - 5€/mês | 200.000 /mês
elevenlabs criar conta 300 facil 2500 10.000 / mês 5€/mês | 30.000 /mês
texttovoice sem setup 9 Muito dificil 500 10.000 / mês 5€/mês | 150.000 /mês
ttsmp3 sem setup 8 Muito dificil 3000 3.000 /day de graça
play.ht criar conta 14 Muito dificil 200 12.500 /mês 31€/mês | 250.000/mês
google text-to-speech mais complexo 35 Muito dificil +ou- 620 4.000.000 /mês 4€/mês | 1.000.000 /mês
amazon text-to-speech mais complexo 14 Muito dificil 3000 5.000.000 / mês 4€/mês | 1.000.000 /mês
micmonster sem setup 36 muito facil 300 - 39€/mês | ilimitado

Limites de utilização

  • Limites de Texto e Temporais: As plataformas variam quanto aos limites de texto que podem ser convertidos em voz e aos limites temporais de utilização (por exemplo, semanais ou mensais). Algumas plataformas permitem o envio de grandes quantidades de texto de uma só vez, enquanto outras impõem restrições mais rigorosas.
  • Quotas Gratuitas vs. Capacidade de Processamento: Plataformas como o Google Text to Speech API e Amazon oferecem quotas mensais generosas (milhões de caracteres por mês), refletindo as suas capacidades de processamento mais robustas.

Pricing

  • Modelos de Preço: Existem plataformas completamente gratuitas e outras com estruturas de preço baseadas em níveis, afetando o acesso a recursos como o número de caracteres mensais permitidos e a variedade de vozes.

Esta análise ilustra a importância de considerar vários fatores ao escolher uma plataforma de text-to-speech, especialmente quando falamos de projetos que exigem especificações detalhadas quanto à qualidade da voz, capacidade de personalização, e orçamento disponível.

Considerações Finais

A melhor plataforma de text-to-speech -CONSIDERAÇÕES FINAIS

TTS Maker destaca-se pela sua simplicidade e acessibilidade, oferecendo um vasto número de vozes, especialmente em inglês, sem necessidade de qualquer configuração inicial. Com limites generosos tanto no tamanho dos prompts (até 8000 caracteres) quanto na utilização mensal, e sendo completamente gratuita, apresenta-se como uma opção atrativa para quem procura produzir conteúdo extenso em áudio sem custos. Contudo, a qualidade das vozes pode não satisfazer os utilizadores mais exigentes, o que é uma desvantagem notável.

VoiceMaker permite um maior controlo sobre a produção de áudio, oferecendo mais funcionalidades que o TTS Maker, embora não apresente características únicas que o destaquem significativamente. O que oferece é mais limitado, podendo não satisfazer todas as necessidades dos utilizadores.

Eleven Labs destaca-se consistentemente pela alta qualidade das suas vozes, exceto para o português de Portugal, onde não oferece opções. A plataforma disponibiliza uma ampla gama de vozes em inglês, com mais de 300 opções, e permite a criação de vozes personalizadas, oferecendo um controlo detalhado sobre a produção de áudio. Apesar de ter limites mais restritivos na sua versão gratuita, a qualidade superior e a flexibilidade na criação e manipulação de vozes fazem dela uma das melhores escolhas, especialmente para conteúdos narrativos em inglês.

Text-to-Voice, embora testado, mostrou-se bastante limitado em termos de variedade de vozes e facilidade de uso, com um limite de apenas 500 caracteres por prompt. Essas restrições, somadas à dificuldade de encontrar vozes adequadas, tornam esta plataforma menos atraente, especialmente quando comparada com outras opções disponíveis.

TTS MP3 não se destacou positivamente nos testes realizados, apresentando uma qualidade de voz inferior. Contudo, o facto de ser grátis pode atrair utilizadores que estejam apenas a explorar a produção de conteúdo em áudio e queiram testar diferentes plataformas sem compromisso financeiro.

Play.ht, apesar de ser uma plataforma paga, não se mostrou superior em termos de qualidade de áudio nos testes realizados. O limite muito restrito de 200 caracteres por prompt e a necessidade de uma conta tornam o seu uso menos prático, especialmente para a criação de conteúdo mais extenso, apesar de oferecer algum controlo sobre as características das vozes.

Google Text to Speech API destacou-se por oferecer resultados de alta qualidade em várias categorias, incluindo anúncios e português de Portugal. Embora o setup seja mais complexo, a plataforma oferece um amplo leque de vozes e possibilidades de otimização, tornando-a uma escolha poderosa para quem procura qualidade e flexibilidade, apesar do seu limite mais reduzido de caracteres por prompt. O seu generoso limite mensal e o custo-benefício da versão paga são pontos fortes significativos.

Amazon Text-to-Speech, embora ofereça uma qualidade decente e esteja acima da média em comparação com várias outras plataformas, não consegue superar o Google Text to Speech API em termos de qualidade. O seu setup complexo e os limites de caracteres por prompt e mensais são considerações importantes, mas para quem precisa de um grande volume de caracteres, o Google Text to Speech API pode ser uma opção mais vantajosa.

MicMonster surpreendeu positivamente, oferecendo uma qualidade de voz relativamente superior a muitas outras plataformas da sua categoria. Apesar de ter um limite de 3000 caracteres por prompt, não possui limites mensais, o que o torna uma opção excelente para quem busca uma solução eficaz e sem custos para a produção de áudio em português, especialmente para utilizadores que valorizam a simplicidade e a eficácia sem necessidade de funcionalidades adicionais complexas.

Qual é a melhor plataforma de text-to-speech?

A Melhor plataforma de text-to-speech: Google text to speech API

A escolha da melhor plataforma de text-to-speech pode variar consideravelmente conforme as necessidades específicas dos utilizadores, sejam elas relacionadas à qualidade das vozes, à facilidade de uso, à flexibilidade ou até mesmo ao custo. No entanto, com base numa análise detalhada que considera vários fatores, incluindo testes e informações gerais sobre cada plataforma, o Google text to speech API emerge como a escolha superior para a maioria das aplicações gerais.
O Google text to speech API é reconhecido por sua confiabilidade e pela alta qualidade das vozes numa ampla gama de idiomas e dialetos. Embora possa não ser a plataforma mais simples de utilizar, devido à necessidade de um setup mais complexo, a qualidade dos resultados justifica esse esforço adicional. Esta plataforma oferece um balanço ótimo entre qualidade de voz, flexibilidade e capacidade de personalização, tornando-a a escolha ideal para uma vasta gama de aplicações, desde produção de conteúdo até desenvolvimento de assistentes virtuais.

A plataforma com melhor qualidade: Eleven Labs

Por outro lado, o Eleven Labs destaca-se como o favorito pessoal, principalmente quando a prioridade é a qualidade das vozes. A sua capacidade de criar vozes personalizadas, incluindo a possibilidade de imitar a própria voz do utilizador, oferece um nível de personalização e realismo que poucas plataformas conseguem igualar. Além disso, a interface do utilizador do Eleven Labs é intuitiva e facilita significativamente o workflow, tornando a produção de conteúdo em voz uma tarefa menos tediosa e mais eficiente. Especialmente para conteúdo em inglês, o Eleven Labs apresenta uma qualidade superior, que supera a maioria das outras plataformas disponíveis no mercado.

Menção Honrosa – MicMonster

Uma menção honrosa vai para o MicMonster, uma plataforma que, apesar da sua simplicidade e limitações em termos de funcionalidades, surpreende pela qualidade das vozes que oferece. O seu interface de utilizador simplificado e eficiente atende diretamente às necessidades do utilizador, permitindo o fácil acesso a vozes de alta qualidade em português, entre outros idiomas. A principal limitação do MicMonster é o número de caracteres permitidos por prompt, mas mesmo assim, ele destaca-se como uma opção notável para quem procura uma solução prática e de boa qualidade para text-to-voice.

Metodologia, Referências e Limitações

Referências

Metodologia

Para a encontrarmos a melhor plataforma de text-to-speech, adotámos uma abordagem sistemática que envolveu a seleção, teste e avaliação de nove plataformas distintas, todas com versões gratuitas disponíveis. A seleção inicial foi realizada através de uma pesquisa nas primeiras três páginas de resultados do Google, garantindo uma amostra representativa das opções disponíveis no mercado.

Os testes consistiram em três avaliações distintas, cada uma projetada para explorar diferentes capacidades das plataformas: um discurso narrativo, um discurso comercial e um discurso formal. Para assegurar a consistência dos testes, o mesmo texto foi utilizado em todas as plataformas, com adaptações mínimas para adequar a voz ao contexto do discurso (voz masculina mais grave para narrações e voz feminina mais emotiva para anúncios comerciais).

Os quatro principais critérios definidos para encontrar a melhor plataforma de text-to-speech foram:

  • Qualidade da Voz: Avaliação da clareza e naturalidade da voz sintetizada.
  • Qualidade do Som: Avaliação da pureza e ausência de distorções no áudio gerado.
  • Precisão do Texto para Voz: Verificação da ocorrência de erros de conversão do texto em áudio.
  • Intonação e Expressão: Avaliação da capacidade da voz em transmitir emoções e enfatizar partes relevantes do discurso.

Cada critério foi pontuado numa escala de 1 a 5, com possibilidade de atribuição de pontos extra, totalizando uma pontuação máxima de 10. A avaliação foi conduzida por um único avaliador para manter a consistência na atribuição das pontuações.

Limitações

As principais limitações deste estudo incluem o número restrito de plataformas avaliadas e a subjetividade inerente à metodologia de pontuação, visto que a avaliação foi realizada por apenas uma pessoa. Embora tenhamos tentado minimizar a subjetividade ao estabelecer critérios claros de avaliação, reconhecemos que perceções individuais podem influenciar os resultados.

Adicionalmente, a diversidade e complexidade dos textos e contextos em que as plataformas de text-to-speech podem ser aplicadas sugerem que uma análise mais ampla, envolvendo um maior número de plataformas e avaliadores, poderia fornecer insights mais abrangentes sobre as capacidades e limitações de cada ferramenta.

Agradecemos a todos que acompanharam esta análise e esperamos que as informações fornecidas sejam úteis para escolher a melhor plataforma de text-to-speech possível, com base nas necessidades do projeto em questão.

Chegaste até aqui? Parece que completaste a quest com sucesso!

Tens algum projeto nesta área que pretendas explorar? Estamos cá para descomplicar a tua viagem pelas redes sociais.Passa pela nossa página de contactos e partilha as tuas ideias.

Não fiques para trás no mundo do Marketing Digital

Em formato de newsletter semanal, o auto-rádio serve para que estejas sempre a par das principais notícias do marketing digital.

Rafael Venâncio
“Brinde a nós, Brinde aos avós.”