Datasets de Text-to-Speech em Português: 16 Opções para Começar

Sabia que, mesmo com mais de 260 milhões de falantes nativos1, o português ainda carece de modelos de Text-to-Speech (TTS)? Apesar de ser a sexta língua mais falada no mundo, encontrar modelos que atendam bem à nossa língua é um desafio. Dos 10 principais modelos listados no TTS Arena na data deste post, apenas 5 suportam o português, sendo 3 comerciais (vindos da Play.HT e ElevenLabs) e 2 abertos (XTTS v2 da Coqui e o recente FishSpeech v1.5.).

Encontrar datasets em nossa língua mãe não é tarefa fácil. Pensando nisso, este post apresenta 16 datasets em português que podem ser o ponto de partida para a criação de modelos de TTS, complementando o trabalho do Fala Brasil2, do Renato Leal3 e do Igor Quintanilha4.

Sem mais delongas, aqui está a lista dos datasets.

Datasets TTS Português

Quais são os datasets de áudio em português?

CETUC

  • Licença: cc-by-nc-nd 4.0

O Centro de Estudos em Telecomunicações (CETUC) cedeu ao Laboratório de Processamento de Sinais (LaPS) da Universidade Federal do Pará (UFPA) esse dataset que possui aproxidamente 143 horas de duração. O Fala Brasil indica que o dataset fora cedido exclusivamente para fins de pesquisa.

É possível encontrá-lo na página de Igor Quintanilha baixando o arquivo via terminal (abaixo exemplo utilizando curl), bem como no HugginFace (Racoci/alcaim).

curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/alcaim.tar.gz

CML-TTS

  • Licença: cc-by 4.0

O CML-Multi-Lingual-TTS (CML-TTS) é um dataset multilingual desenvolvido pelo Centro de Excelência em Inteligência Artificial (CEIA) da Universidade Federal de Goiás (UFG) que contém, entre outras línguas, dados em português. O dataset está disponível no OpenSLR (SLR146) e no HuggingFace (ylacombe/cml-tts).

Common Voice Corpus 19.0

  • Licença: CC-0

O Common Voice Corpus 19.0 foi lançado em setembro de 2024. Com essa última atualização, o dataset possui 178h de áudio validadas em português.

Constituição 16k

  • Licença: não especificada
  • Duração: 9h

Disponibilizado pelo Fala Brasil, o corpus de voz da Constituição Federal possui áudios de um único locutor do sexo masculino realizando a leitura da nossa constituição.

Código de Defesa do Consumidor

  • Licença: não especificada

Também disponibilizado pelo Fala Brasil, esse dataset possui áudios e transcrições da leitura do Código de Defesa do Consumidor.

Fake Voices

  • Licença: MIT

O Fake Voices contém áudios sintetizados com o XTTS da Coqui, gerado utilizando o corpus da CETUC. O dataset que foi originalmente desenvolvido para uso em identificação de vozes sintetizadas está disponível no HuggingFace (unfake/fake_voices).

CORAA ASR v1.1

  • Licença: cc by-nc-nd 4.0

O CORAA (Corpus de Áudios Anotados) é desenvolvido pelo projeto TaRSila (Tarefa de Anotação para Reconhecimento e Síntese de Fala), que faz parte do C4AI (Center for Artificial Intelligence) da Universidade de São Paulo. O CORAA ASR v1.1 é a compilação dos seguintes datasets:

  • ALIP
  • C-ORAL Brazil
  • NURC-Recif
  • SP-2010
  • TEDx talks

O dataset está disponível nos links constantes em seu repositório e no HuggingFace (Racoci/CORAA-v1.1).

CORAA NURC-SP

  • Licença: cc by-nc-nd 4.0

Esse corpus é composto por gravações de 328 inquéritos na década de 70 e 80, com transcrições realizadas pelo WhisperX e diarização via pyannote-audio. O dataset está disponível na página do TaRSila.

LaPS Mail 16k

  • Licença: não informada

O dataset LaPS Mail 16k é disponibilizado pelo Fala Brasil, sendo composto por sentenças que representam um conjunto de comandos necessários para controle de uma aplicação de e-mail.

LaPS BenchMark

  • Licença: não informada
  • Duração: 54 minutos

O LaPS BenchMark é utilizado pelo grupo Fala Brasil, possuindo 35 falantes distintos (10 mulheres. É possível acessá-lo na página de Igor Quintanilha baixando o arquivo via terminal (abaixo exemplo utilizando curl).

curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-val.tar.gz


curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-test.tar.gz

MuPE-Diversidades – Versão 0

  • Licença: cc by-nc-nd 4.0

O MuPE-Diversidades apresenta amostras de áudio em Português Brasileiro de diferentes estados do país. A versão 0 do dataset está disponível no repositório do GitHub do projeto.

Multilingual LibriSpeech (MLM)

  • Licença: cc by 4.0
  • Duração: 168 de português

Disponível no OpenSLR (SLR94) e no HuggingFace (facebook/multilingual_librispeech), o MultiLingual LibriSpeech é um dataset derivado do projeto LibriVox.

Sidney

  • Licença: não especificada

Dataset disponível na página de Igor Quintanilha, sendo possível baixá-lo via terminal (exemplo em curl). Embora a licença não seja explicitada, é indicado na página que o dataset fora cedido pelo Dr. Sidney dos Santos para fins de pesquisa.

curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/sid.tar.gz

Tatoeba

  • Licença: varia conforme o áudio

Tatoeba é uma coleção de frases e traduções, em que os usuários podem gravar áudios e submeter na plataforma, especificando a licença desse. Os áudios e frases em português estão disponíveis na página do projeto.

Voxforge

  • Licença: GPL

Voxforge é um projeto para coletar transcrições de fala, sendo os arquivos de áudio submetidos liberados sob licença GPL. O corpus pode ser acessado mediante página do projeto, ou ainda a partir de link da página de Igor Quintanilha.

Voxtube

  • Licença: cc-by-nc-sa-4.0

O Voxtube é um dataset multilingual coletado a partir de vídeos de Youtube, conforme descrito no trabalho de Yakovlev e outros autores (2023) submetido na Interspeech 20235. O dataset está disponível no HuggingFace (voice-is-cool/voxtube).

Faltou algum dataset?

Se você conhece outros datasets em português, compartilhe nos comentários ou envie uma mensagem para adicionarmos à lista.

  1. https://www.icls.edu/blog/most-spoken-languages-in-the-world ↩︎
  2. https://github.com/falabrasil/speech-datasets ↩︎
  3. https://medium.com/@renatoleal/datasets-de-%C3%A1udio-em-portugu%C3%AAs-b25316ec316a
    ↩︎
  4. https://igormq.github.io/datasets/ ↩︎
  5. https://www.isca-archive.org/interspeech_2023/yakovlev23_interspeech.html ↩︎

Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *