Blog

  • Datasets de Text-to-Speech em Português: 16 Opções para Começar

    Sabia que, mesmo com mais de 260 milhões de falantes nativos1, o português ainda carece de modelos de Text-to-Speech (TTS)? Apesar de ser a sexta língua mais falada no mundo, encontrar modelos que atendam bem à nossa língua é um desafio. Dos 10 principais modelos listados no TTS Arena na data deste post, apenas 5 suportam o português, sendo 3 comerciais (vindos da Play.HT e ElevenLabs) e 2 abertos (XTTS v2 da Coqui e o recente FishSpeech v1.5.).

    Encontrar datasets em nossa língua mãe não é tarefa fácil. Pensando nisso, este post apresenta 16 datasets em português que podem ser o ponto de partida para a criação de modelos de TTS, complementando o trabalho do Fala Brasil2, do Renato Leal3 e do Igor Quintanilha4.

    Sem mais delongas, aqui está a lista dos datasets.

    Datasets TTS Português

    Quais são os datasets de áudio em português?

    CETUC

    • Licença: cc-by-nc-nd 4.0

    O Centro de Estudos em Telecomunicações (CETUC) cedeu ao Laboratório de Processamento de Sinais (LaPS) da Universidade Federal do Pará (UFPA) esse dataset que possui aproxidamente 143 horas de duração. O Fala Brasil indica que o dataset fora cedido exclusivamente para fins de pesquisa.

    É possível encontrá-lo na página de Igor Quintanilha baixando o arquivo via terminal (abaixo exemplo utilizando curl), bem como no HugginFace (Racoci/alcaim).

    curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/alcaim.tar.gz

    CML-TTS

    • Licença: cc-by 4.0

    O CML-Multi-Lingual-TTS (CML-TTS) é um dataset multilingual desenvolvido pelo Centro de Excelência em Inteligência Artificial (CEIA) da Universidade Federal de Goiás (UFG) que contém, entre outras línguas, dados em português. O dataset está disponível no OpenSLR (SLR146) e no HuggingFace (ylacombe/cml-tts).

    Common Voice Corpus 19.0

    • Licença: CC-0

    O Common Voice Corpus 19.0 foi lançado em setembro de 2024. Com essa última atualização, o dataset possui 178h de áudio validadas em português.

    Constituição 16k

    • Licença: não especificada
    • Duração: 9h

    Disponibilizado pelo Fala Brasil, o corpus de voz da Constituição Federal possui áudios de um único locutor do sexo masculino realizando a leitura da nossa constituição.

    Código de Defesa do Consumidor

    • Licença: não especificada

    Também disponibilizado pelo Fala Brasil, esse dataset possui áudios e transcrições da leitura do Código de Defesa do Consumidor.

    Fake Voices

    • Licença: MIT

    O Fake Voices contém áudios sintetizados com o XTTS da Coqui, gerado utilizando o corpus da CETUC. O dataset que foi originalmente desenvolvido para uso em identificação de vozes sintetizadas está disponível no HuggingFace (unfake/fake_voices).

    CORAA ASR v1.1

    • Licença: cc by-nc-nd 4.0

    O CORAA (Corpus de Áudios Anotados) é desenvolvido pelo projeto TaRSila (Tarefa de Anotação para Reconhecimento e Síntese de Fala), que faz parte do C4AI (Center for Artificial Intelligence) da Universidade de São Paulo. O CORAA ASR v1.1 é a compilação dos seguintes datasets:

    • ALIP
    • C-ORAL Brazil
    • NURC-Recif
    • SP-2010
    • TEDx talks

    O dataset está disponível nos links constantes em seu repositório e no HuggingFace (Racoci/CORAA-v1.1).

    CORAA NURC-SP

    • Licença: cc by-nc-nd 4.0

    Esse corpus é composto por gravações de 328 inquéritos na década de 70 e 80, com transcrições realizadas pelo WhisperX e diarização via pyannote-audio. O dataset está disponível na página do TaRSila.

    LaPS Mail 16k

    • Licença: não informada

    O dataset LaPS Mail 16k é disponibilizado pelo Fala Brasil, sendo composto por sentenças que representam um conjunto de comandos necessários para controle de uma aplicação de e-mail.

    LaPS BenchMark

    • Licença: não informada
    • Duração: 54 minutos

    O LaPS BenchMark é utilizado pelo grupo Fala Brasil, possuindo 35 falantes distintos (10 mulheres. É possível acessá-lo na página de Igor Quintanilha baixando o arquivo via terminal (abaixo exemplo utilizando curl).

    curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-val.tar.gz
    
    
    curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/lapsbm-test.tar.gz

    MuPE-Diversidades – Versão 0

    • Licença: cc by-nc-nd 4.0

    O MuPE-Diversidades apresenta amostras de áudio em Português Brasileiro de diferentes estados do país. A versão 0 do dataset está disponível no repositório do GitHub do projeto.

    Multilingual LibriSpeech (MLM)

    • Licença: cc by 4.0
    • Duração: 168 de português

    Disponível no OpenSLR (SLR94) e no HuggingFace (facebook/multilingual_librispeech), o MultiLingual LibriSpeech é um dataset derivado do projeto LibriVox.

    Sidney

    • Licença: não especificada

    Dataset disponível na página de Igor Quintanilha, sendo possível baixá-lo via terminal (exemplo em curl). Embora a licença não seja explicitada, é indicado na página que o dataset fora cedido pelo Dr. Sidney dos Santos para fins de pesquisa.

    curl -o {dest_file} https://www02.smt.ufrj.br/~igor.quintanilha/sid.tar.gz

    Tatoeba

    • Licença: varia conforme o áudio

    Tatoeba é uma coleção de frases e traduções, em que os usuários podem gravar áudios e submeter na plataforma, especificando a licença desse. Os áudios e frases em português estão disponíveis na página do projeto.

    Voxforge

    • Licença: GPL

    Voxforge é um projeto para coletar transcrições de fala, sendo os arquivos de áudio submetidos liberados sob licença GPL. O corpus pode ser acessado mediante página do projeto, ou ainda a partir de link da página de Igor Quintanilha.

    Voxtube

    • Licença: cc-by-nc-sa-4.0

    O Voxtube é um dataset multilingual coletado a partir de vídeos de Youtube, conforme descrito no trabalho de Yakovlev e outros autores (2023) submetido na Interspeech 20235. O dataset está disponível no HuggingFace (voice-is-cool/voxtube).

    Faltou algum dataset?

    Se você conhece outros datasets em português, compartilhe nos comentários ou envie uma mensagem para adicionarmos à lista.

    1. https://www.icls.edu/blog/most-spoken-languages-in-the-world ↩︎
    2. https://github.com/falabrasil/speech-datasets ↩︎
    3. https://medium.com/@renatoleal/datasets-de-%C3%A1udio-em-portugu%C3%AAs-b25316ec316a
      ↩︎
    4. https://igormq.github.io/datasets/ ↩︎
    5. https://www.isca-archive.org/interspeech_2023/yakovlev23_interspeech.html ↩︎