Sabia que, mesmo com mais de 260 milhões de falantes nativos1, o português ainda carece de modelos de Text-to-Speech (TTS)? Apesar de ser a sexta língua mais falada no mundo, encontrar modelos que atendam bem à nossa língua é um desafio. Dos 10 principais modelos listados no TTS Arena na data deste post, apenas 5 suportam o português, sendo 3 comerciais (vindos da Play.HT e ElevenLabs) e 2 abertos (XTTS v2 da Coqui e o recente FishSpeech v1.5.).
Encontrar datasets em nossa língua mãe não é tarefa fácil. Pensando nisso, este post apresenta 16 datasets em português que podem ser o ponto de partida para a criação de modelos de TTS, complementando o trabalho do Fala Brasil2, do Renato Leal3 e do Igor Quintanilha4.
Sem mais delongas, aqui está a lista dos datasets.
Datasets TTS Português
Quais são os datasets de áudio em português?
CETUC
- Licença: cc-by-nc-nd 4.0
O Centro de Estudos em Telecomunicações (CETUC) cedeu ao Laboratório de Processamento de Sinais (LaPS) da Universidade Federal do Pará (UFPA) esse dataset que possui aproxidamente 143 horas de duração. O Fala Brasil indica que o dataset fora cedido exclusivamente para fins de pesquisa.
É possível encontrá-lo na página de Igor Quintanilha baixando o arquivo via terminal (abaixo exemplo utilizando curl), bem como no HugginFace (Racoci/alcaim).
curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/alcaim.tar.gz
CML-TTS
- Licença: cc-by 4.0
O CML-Multi-Lingual-TTS (CML-TTS) é um dataset multilingual desenvolvido pelo Centro de Excelência em Inteligência Artificial (CEIA) da Universidade Federal de Goiás (UFG) que contém, entre outras línguas, dados em português. O dataset está disponível no OpenSLR (SLR146) e no HuggingFace (ylacombe/cml-tts).
Common Voice Corpus 19.0
- Licença: CC-0
O Common Voice Corpus 19.0 foi lançado em setembro de 2024. Com essa última atualização, o dataset possui 178h de áudio validadas em português.
Constituição 16k
- Licença: não especificada
- Duração: 9h
Disponibilizado pelo Fala Brasil, o corpus de voz da Constituição Federal possui áudios de um único locutor do sexo masculino realizando a leitura da nossa constituição.
Código de Defesa do Consumidor
- Licença: não especificada
Também disponibilizado pelo Fala Brasil, esse dataset possui áudios e transcrições da leitura do Código de Defesa do Consumidor.
Fake Voices
- Licença: MIT
O Fake Voices contém áudios sintetizados com o XTTS da Coqui, gerado utilizando o corpus da CETUC. O dataset que foi originalmente desenvolvido para uso em identificação de vozes sintetizadas está disponível no HuggingFace (unfake/fake_voices).
CORAA ASR v1.1
- Licença: cc by-nc-nd 4.0
O CORAA (Corpus de Áudios Anotados) é desenvolvido pelo projeto TaRSila (Tarefa de Anotação para Reconhecimento e Síntese de Fala), que faz parte do C4AI (Center for Artificial Intelligence) da Universidade de São Paulo. O CORAA ASR v1.1 é a compilação dos seguintes datasets:
- ALIP
- C-ORAL Brazil
- NURC-Recif
- SP-2010
- TEDx talks
O dataset está disponível nos links constantes em seu repositório e no HuggingFace (Racoci/CORAA-v1.1).
CORAA NURC-SP
- Licença: cc by-nc-nd 4.0
Esse corpus é composto por gravações de 328 inquéritos na década de 70 e 80, com transcrições realizadas pelo WhisperX e diarização via pyannote-audio. O dataset está disponível na página do TaRSila.
LaPS Mail 16k
- Licença: não informada
O dataset LaPS Mail 16k é disponibilizado pelo Fala Brasil, sendo composto por sentenças que representam um conjunto de comandos necessários para controle de uma aplicação de e-mail.
LaPS BenchMark
- Licença: não informada
- Duração: 54 minutos
O LaPS BenchMark é utilizado pelo grupo Fala Brasil, possuindo 35 falantes distintos (10 mulheres. É possível acessá-lo na página de Igor Quintanilha baixando o arquivo via terminal (abaixo exemplo utilizando curl).
curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-val.tar.gz
curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-test.tar.gz
MuPE-Diversidades – Versão 0
- Licença: cc by-nc-nd 4.0
O MuPE-Diversidades apresenta amostras de áudio em Português Brasileiro de diferentes estados do país. A versão 0 do dataset está disponível no repositório do GitHub do projeto.
Multilingual LibriSpeech (MLM)
- Licença: cc by 4.0
- Duração: 168 de português
Disponível no OpenSLR (SLR94) e no HuggingFace (facebook/multilingual_librispeech), o MultiLingual LibriSpeech é um dataset derivado do projeto LibriVox.
Sidney
- Licença: não especificada
Dataset disponível na página de Igor Quintanilha, sendo possível baixá-lo via terminal (exemplo em curl). Embora a licença não seja explicitada, é indicado na página que o dataset fora cedido pelo Dr. Sidney dos Santos para fins de pesquisa.
curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/sid.tar.gz
Tatoeba
- Licença: varia conforme o áudio
Tatoeba é uma coleção de frases e traduções, em que os usuários podem gravar áudios e submeter na plataforma, especificando a licença desse. Os áudios e frases em português estão disponíveis na página do projeto.
Voxforge
- Licença: GPL
Voxforge é um projeto para coletar transcrições de fala, sendo os arquivos de áudio submetidos liberados sob licença GPL. O corpus pode ser acessado mediante página do projeto, ou ainda a partir de link da página de Igor Quintanilha.
Voxtube
- Licença: cc-by-nc-sa-4.0
O Voxtube é um dataset multilingual coletado a partir de vídeos de Youtube, conforme descrito no trabalho de Yakovlev e outros autores (2023) submetido na Interspeech 20235. O dataset está disponível no HuggingFace (voice-is-cool/voxtube).
Faltou algum dataset?
Se você conhece outros datasets em português, compartilhe nos comentários ou envie uma mensagem para adicionarmos à lista.
- https://www.icls.edu/blog/most-spoken-languages-in-the-world ↩︎
- https://github.com/falabrasil/speech-datasets ↩︎
- https://medium.com/@renatoleal/datasets-de-%C3%A1udio-em-portugu%C3%AAs-b25316ec316a
↩︎ - https://igormq.github.io/datasets/ ↩︎
- https://www.isca-archive.org/interspeech_2023/yakovlev23_interspeech.html ↩︎
Deixe um comentário