en

Please fill in your name

Mobile phone format error

Por favor, insira o telefone

Por favor, insira o nome da sua empresa

Por favor, insira o e-mail da sua empresa

Por favor, insira a solicitação de dados

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

A solicitação de dados não pode conter menos de 5 palavras nem conter apenas números

Conjuntos de Dados de Treino de Alta Qualidade

Melhore o desempenho dos seus modelos de IA com os nossos conjuntos de dados de treino prontos a usar e com qualidade garantida.

Idioma

Todos

Tipos de Dados

Todos

4 Pessoas - Corpus de Síntese de Timbre Médio com Alta Expressividade em Chinês (Narração)

4 Pessoas - Corpus de Síntese de Timbre Médio com Alta Expressividade em Chinês (Narração), gravado por atores de voz profissionais. Dado um livro, os locutores o lêem com um estilo de narração altamente expressiva.
Alta expressividade Narração TTS Chinês

5 Pessoas - Corpus de Síntese de Timbre Médio com Estilos e Emoções Várias

5 Pessoas - Corpus de Síntese de Timbre Médio com Estilos e Emoções Várias, gravado por atores de voz profissionais. Os estilos incluem: chefe feminina eficiente, príncipe magnânimo, empregada ágil e avó benevolente. As emoções abrangem: esprezo, raiva, alegria, preocupação, surpresa, respiração ofegante de medo, resmungo (desprezo), compaixão, riso, atividade mental, sério, nojo, dúvida e neutro.
Corpus de Síntese TTS Mandarim Chinês Multiestilo Multiemocional

Conjunto de Dados da Competição de Diálogo Multilíngue Interspeech 2025-MLC- SLM

O contexto do Conjunto de Dados da Competição de Diálogo Multilíngue Interspeech 2025-MLC-SLM tem origem na organização da Competição de Diálogo Multilíngue MLC-SLM pela Datatang em 2025. O conjunto de dados provém da recolha de quinze conjuntos de dados de diálogos por Datatang. Caracterizado por alta precisão de dados e forte usabilidade, foi projetado especificamente para superar gargalos técnicos no reconhecimento de fala multilíngue e compreensão de contexto longo. O conjunto de dados captura de forma autêntica cenários interativos complexos, como sobreposição de falantes e interrupções espontâneas, fornecendo recursos ricos para pesquisas e aplicações relacionadas com reconhecimento de voz, ajudando os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a proteção da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Conjunto de Dados de Áudio de Workshop Conjunto de Dados MLC-SLM Dados de Reconhecimento de Fala ASR

3000 Horas - Dados de Voz de Diálogos Naturais em Mandarim em Modo Full-Duplex

Dados de Voz de Diálogos Naturais Mandarim em Modo de Comunicação Full-Duplex, gravados com base em diálogos sobre temas comuns. Anotado com atributos como  o conteúdo textual, marcas de tempo das frases, género e identidade do locutor, com alta precisão, este conjunto de dados oferece recursos abrangentes para pesquisas e aplicações relacionadas com reconhecimento de voz, ajudando os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a proteção da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Duplex Completo Diálogo Mandarim

119 Horas - Dados de Voz em Grego: Leitura (Telemóvel)

Dados de Voz em Grego: Leitura (Telemóvel), recolhidos através de monólogos baseados em scripts fornecidos. Foram 95 locutores da Grécia, e as gravações foram feitas em um ambiente silencioso sem reverberação. O conteúdo gravado é amplo, com aproximadamente 1000 frases por cada locutor. Os textos são revisados manualmente para garantir alta precisão. Oferece recursos abrangentes para pesquisas e aplicações relacionadas com reconhecimento de voz, validado por várias empresas de IA: ajuda os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a proteção da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Conjunto de Dados de Monólogo Roteirizado em Grego Conjunto de Dados de Fala em Grego Conjunto de Dados de Áudio em Grego Dados de Fala em Grego Dados de Síntese de Fala em Grego

280 Horas - Dados de Voz em Norueguês: Leitura (Telemóvel)

Dados de Voz em Norueguês: Leitura (Telemóvel), recolhidos através de monólogos baseados em scripts fornecidos. Foram 157 locutores da Noruega, e as gravações foram feitas em um ambiente silencioso sem reverberação. O conteúdo gravado é amplo, com aproximadamente 1000 frases por cada locutor. Os textos são revisados manualmente para garantir alta precisão. Oferece recursos abrangentes para pesquisas e aplicações relacionadas com reconhecimento de voz, validado por várias empresas de IA: ajuda os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a proteção da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Conjunto de Dados de Monólogo Roteirizado em Norueguês Conjunto de Dados de Fala em Norueguês Dados de Síntese de Fala em Norueguês Corpus de NLP em Norueguês Dados de Fala em Norueguês Conjunto de Dados de Áudio em Norueguês

600 Horas - Dados de Voz Coloquial em Grego

Dados de Voz Coloquial em Grego,  abrangem domínios genéricos como mídias independentes, diálogos e transmissões ao vivo, refletindo cenários reais de interação.  Anotado com o conteúdo textual, género e identidade do locutor e outros atributos, este conjunto de dados foi gravado por nativos romenos de diferentes regiões e culturas, garantindo alta precisão e usabilidade. Oferece recursos abrangentes para pesquisas e aplicações relacionadas com reconhecimento de voz, ajudando os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a proteção da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Conjunto de Dados de Fala Grega Dados de Treinamento ASR em Grego Corpus de Conversação Grega Fala Monológica Grega Conjunto de Dados de Reconhecimento de Fala Grega Dados de Fala para Texto Grego Conjunto de Dados de Voz Grega Conjunto de Dados de Transcrição Grega

600 Horas - Dados de Voz Coloquial em Norueguês

Dados de Voz Coloquial em Norueguês, abrangem domínios genéricos como mídias independentes, diálogos e transmissões ao vivo, refletindo cenários reais de interação.  Anotado com o conteúdo textual, género e identidade do locutor e outros atributos, este conjunto de dados foi gravado por múltiplos noruegueses de diferentes regiões e culturas, garantindo alta precisão e usabilidade. Oferece recursos abrangentes para pesquisas e aplicações relacionadas com reconhecimento de voz, ajudando os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a proteção da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Conjunto de Dados de Fala em Norueguês Dados de Treinamento ASR em Norueguês Corpus de Conversação em Norueguês Fala Monológica em Norueguês Conjunto de Dados de Reconhecimento de Fala em Norueguês Dados de Fala para Texto em Norueguês Conjunto de Dados de Voz em Norueguês Dados de Fala Multilíngues Conjunto de Dados de Transcrição em Norueguês

Dados textuais da plataforma de perguntas e respostas japonesa OKWAVE

Dados de texto da plataforma japonesa de perguntas e respostas OKWAVE, incluindo perguntas, respostas, categorias, data de publicação, autores e outros campos. Os dados estão em atualização contínua; até o final de abril de 2025, havia 8,4 milhões de perguntas com 2,3 bilhões de caracteres, 27 milhões de respostas com 7,6 bilhões de caracteres, 15,5 milhões de agradecimentos (expressões de gratidão dos perguntadores aos respondentes) com 1,7 bilhão de caracteres, e 2,1 milhões de esclarecimentos adicionais com 360 milhões de caracteres. Esses dados podem ser usados para treinamento de modelos gerais de grande porte.
Perguntas e Respostas Texto Japonês

500 Horas - Dados de Voz em Tamil: Leitura (Telemóvel)

Dados de Voz em Tamil: Leitura (Telemóvel), recolhidos através de monólogos baseados em scripts fornecidos com conteúdo rico. Anotado com o conteúdo textual e outros atributos, o conjunto de dados foi recolhido por 479 nativos, com precisão alta. Oferece recursos abrangentes para pesquisas e aplicações relacionadas com reconhecimento de voz, validado por várias empresas de IA: ajuda os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a proteção da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Conjunto de Dados de Fala em Tamil Conjunto de Dados de Áudio em Tamil Conjunto de Dados de Língua Tamil Conjunto de Dados de Monólogo em Tamil Corpus de Voz em Tamil Dados ASR em Tamil Fala Roteirizada em Tamil Conjunto de Dados de Tamil para Telemóvel Conjunto de Dados de Reconhecimento de Fala em Tamil Dados de Fala Multilíngue

500 Horas - Dados de Voz em Lao: Leitura (Telemóvel)

Dados de Voz em Lao: Leitura (Telemóvel), recolhidos através de monólogos baseados em scripts fornecidos com conteúdo rico. Anotado com atributos como o conteúdo textual, este conjunto de dados foi gravado por 418 nativos, com precisão alta. Oferece recursos abrangentes para pesquisas e aplicações relacionadas com reconhecimento de voz, ajudando os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a proteção da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Conjunto de Dados de Fala em Lao Conjunto de Dados de Fala Monológica em Lao Conjunto de Dados de Fala Roteirizada em Lao Conjunto de Dados de Fala em Lao para Telemóvel Conjunto de Dados de Voz em Lao para TTS Conjunto de Dados de Áudio em Lao Conjunto de Dados de Voz em Lao para ASR

Corpus de Síntese Chinês de Interjeições Emocionais e Diálogos Livres

Corpus de Síntese Chinês de Interjeições Emocionais e Diálogos Livres, gravado por vários dubladores nativos chineses. Abrange frases ricas em interjeições que se alinham com padrões de expressão cotidianos, juntamente com dados de diálogos livres sobre tópicos específicos. Dentro de cada segmento de diálogo, o áudio de cada locutor é armazenado independentemente em faixas separadas. E os foneticistas profissionais anotaram o conteúdo textual e outras informações relevantes, atendendo plenamente aos requisitos precisos para pesquisa e desenvolvimento de síntese de voz.
Dados de Fala Emocional em Chinês Corpus de Fala Conversacional Chinesa Conjunto de Dados de Conversação Natural em Chinês Conjunto de Dados de Prosódia Chinesa
. . .
loading

loading

31de685f-82f8-465e-b48b-3134a805e42d