Sabia que, mesmo com mais de 260 milhões de falantes nativos¹, o português ainda carece de modelos de Text-to-Speech (TTS)? Apesar de ser a sexta língua mais falada no mundo, encontrar modelos que atendam bem à nossa língua é um desafio. Dos 10 principais modelos listados no TTS Arena na data deste post, apenas 5 suportam o português, sendo 3 comerciais (vindos da Play.HT e ElevenLabs) e 2 abertos (XTTS v2 da Coqui e o recente FishSpeech v1.5.).

Encontrar datasets em nossa língua mãe não é tarefa fácil. Pensando nisso, este post apresenta 16 datasets em português que podem ser o ponto de partida para a criação de modelos de TTS, complementando o trabalho do Fala Brasil², do Renato Leal³ e do Igor Quintanilha⁴.

Sem mais delongas, aqui está a lista dos datasets.

Datasets TTS Português

Dataset	Onde encontrar	Licença
CETUC	http://www02.smt.ufrj.br/~igor.quintanilha/alcaim.tar.gz	cc-by-nc-nd 4.0
CML-TTS	https://www.openslr.org/146/	CC BY 4.0
Common. Voice Corpus 19.0	https://commonvoice.mozilla.org/en/datasets	CC-0
Constituição 16k	https://gitlab.com/fb-audio-corpora/constituicao16k	–
Código de Defesa do Consumidor 16k	https://gitlab.com/fb-audio-corpora/codigodefesaconsumidor16k/-/archive/master/codigodefesaconsumidor16k-master.tar.gz	–
Fake Voices	https://huggingface.co/datasets/unfake/fake_voices	MIT
CORAA ASR – v1.1	https://github.com/nilc-nlp/CORAA	CC BY-NC-ND 4.0
LaPS Mail 16k	https://gitlab.com/fb-audio-corpora/lapsmail16k	–
LaPSBM	http://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-val.tar.gz, http://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-test.tar.gz	–
MuPe-Diversidades	https://github.com/nilc-nlp/MuPe-Diversidades/tree/main	CC BY-NC-ND 4.0
Multilingual LibriSpeech (MLS)	https://www.openslr.org/94/	CC BY 4.0
CORAA NURC-SP	http://tarsila.icmc.usp.br:8080/nurc/corpusaudio/	CC BY-NC-ND 4.0
Sidney	https://www02.smt.ufrj.br/~igor.quintanilha/sid.tar.gz	–
Tatoeba	https://tatoeba.org/pt-br/downloads	–
Voxtube	https://huggingface.co/datasets/voice-is-cool/voxtube	CC BY-NC-SA 4.0
Voxforge	https://www02.smt.ufrj.br/~igor.quintanilha/voxforge-ptbr.tar.gz	GPL

Quais são os datasets de áudio em português?

CETUC

Licença: cc-by-nc-nd 4.0

O Centro de Estudos em Telecomunicações (CETUC) cedeu ao Laboratório de Processamento de Sinais (LaPS) da Universidade Federal do Pará (UFPA) esse dataset que possui aproxidamente 143 horas de duração. O Fala Brasil indica que o dataset fora cedido exclusivamente para fins de pesquisa.

É possível encontrá-lo na página de Igor Quintanilha baixando o arquivo via terminal (abaixo exemplo utilizando curl), bem como no HugginFace (Racoci/alcaim).

curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/alcaim.tar.gz

CML-TTS

Licença: cc-by 4.0

O CML-Multi-Lingual-TTS (CML-TTS) é um dataset multilingual desenvolvido pelo Centro de Excelência em Inteligência Artificial (CEIA) da Universidade Federal de Goiás (UFG) que contém, entre outras línguas, dados em português. O dataset está disponível no OpenSLR (SLR146) e no HuggingFace (ylacombe/cml-tts).

Common Voice Corpus 19.0

Licença: CC-0

O Common Voice Corpus 19.0 foi lançado em setembro de 2024. Com essa última atualização, o dataset possui 178h de áudio validadas em português.

Constituição 16k

Licença: não especificada
Duração: 9h

Disponibilizado pelo Fala Brasil, o corpus de voz da Constituição Federal possui áudios de um único locutor do sexo masculino realizando a leitura da nossa constituição.

Código de Defesa do Consumidor

Licença: não especificada

Também disponibilizado pelo Fala Brasil, esse dataset possui áudios e transcrições da leitura do Código de Defesa do Consumidor.

Fake Voices

Licença: MIT

O Fake Voices contém áudios sintetizados com o XTTS da Coqui, gerado utilizando o corpus da CETUC. O dataset que foi originalmente desenvolvido para uso em identificação de vozes sintetizadas está disponível no HuggingFace (unfake/fake_voices).

CORAA ASR v1.1

Licença: cc by-nc-nd 4.0

O CORAA (Corpus de Áudios Anotados) é desenvolvido pelo projeto TaRSila (Tarefa de Anotação para Reconhecimento e Síntese de Fala), que faz parte do C4AI (Center for Artificial Intelligence) da Universidade de São Paulo. O CORAA ASR v1.1 é a compilação dos seguintes datasets:

ALIP
C-ORAL Brazil
NURC-Recif
SP-2010
TEDx talks

O dataset está disponível nos links constantes em seu repositório e no HuggingFace (Racoci/CORAA-v1.1).

CORAA NURC-SP

Licença: cc by-nc-nd 4.0

Esse corpus é composto por gravações de 328 inquéritos na década de 70 e 80, com transcrições realizadas pelo WhisperX e diarização via pyannote-audio. O dataset está disponível na página do TaRSila.

LaPS Mail 16k

Licença: não informada

O dataset LaPS Mail 16k é disponibilizado pelo Fala Brasil, sendo composto por sentenças que representam um conjunto de comandos necessários para controle de uma aplicação de e-mail.

LaPS BenchMark

Licença: não informada
Duração: 54 minutos

O LaPS BenchMark é utilizado pelo grupo Fala Brasil, possuindo 35 falantes distintos (10 mulheres. É possível acessá-lo na página de Igor Quintanilha baixando o arquivo via terminal (abaixo exemplo utilizando curl).

curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-val.tar.gz


curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-test.tar.gz

MuPE-Diversidades – Versão 0

Licença: cc by-nc-nd 4.0

O MuPE-Diversidades apresenta amostras de áudio em Português Brasileiro de diferentes estados do país. A versão 0 do dataset está disponível no repositório do GitHub do projeto.

Multilingual LibriSpeech (MLM)

Licença: cc by 4.0
Duração: 168 de português

Disponível no OpenSLR (SLR94) e no HuggingFace (facebook/multilingual_librispeech), o MultiLingual LibriSpeech é um dataset derivado do projeto LibriVox.

Sidney

Licença: não especificada

Dataset disponível na página de Igor Quintanilha, sendo possível baixá-lo via terminal (exemplo em curl). Embora a licença não seja explicitada, é indicado na página que o dataset fora cedido pelo Dr. Sidney dos Santos para fins de pesquisa.

curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/sid.tar.gz

Tatoeba

Licença: varia conforme o áudio

Tatoeba é uma coleção de frases e traduções, em que os usuários podem gravar áudios e submeter na plataforma, especificando a licença desse. Os áudios e frases em português estão disponíveis na página do projeto.

Voxforge

Licença: GPL

Voxforge é um projeto para coletar transcrições de fala, sendo os arquivos de áudio submetidos liberados sob licença GPL. O corpus pode ser acessado mediante página do projeto, ou ainda a partir de link da página de Igor Quintanilha.

Voxtube

Licença: cc-by-nc-sa-4.0

O Voxtube é um dataset multilingual coletado a partir de vídeos de Youtube, conforme descrito no trabalho de Yakovlev e outros autores (2023) submetido na Interspeech 2023⁵. O dataset está disponível no HuggingFace (voice-is-cool/voxtube).

Faltou algum dataset?

Se você conhece outros datasets em português, compartilhe nos comentários ou envie uma mensagem para adicionarmos à lista.

https://www.icls.edu/blog/most-spoken-languages-in-the-world ↩︎
https://github.com/falabrasil/speech-datasets ↩︎
https://medium.com/@renatoleal/datasets-de-%C3%A1udio-em-portugu%C3%AAs-b25316ec316a
↩︎
https://igormq.github.io/datasets/ ↩︎
https://www.isca-archive.org/interspeech_2023/yakovlev23_interspeech.html ↩︎

Datasets de Text-to-Speech em Português: 16 Opções para Começar