{"id":996,"datatype":"1","titleimg":"https://pt.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"168","type2str":null,"dataname":"155 Horas - Dados de Vídeo de Sincronização Labial: Multimodal","datazy":[{"title":"Formato","desc":"Formato","content":"Vídeo com formato mp4, 1.280*710; áudio com formato wav, 16kHz, 16bit, monoaural"},{"title":"Ambiente de Gravação","desc":"Ambiente de Gravação","content":"Cenário executado em sala interior silenciosa com janelas ensolaradas, simulando ambiente diurno de condução exterior, com relação sinal-ruído (SNR) de 15-20 dB."},{"title":"Cenário de Gravação","desc":"Cenário de Gravação","content":"Cenários categorizados conforme intensidade luminosa: cenários principais e subcenários"},{"title":"Conteúdo Gravado","desc":"Conteúdo Gravado","content":"Comandos curtos; frases orais"},{"title":"Gravador","desc":"Gravador","content":"249 chineses, sendo 125 homens e 124 mulheres"},{"title":"Equipamento de Gravação","desc":"Equipamento de Gravação","content":"Câmaras de vídeo, microfones de alta fidelidade, placas de som."},{"title":"Ângulo de Gravação","desc":"Ângulo de Gravação","content":"Gravação simultânea de vídeos com áudio em 6 ângulos: frontal, perfil unilateral, vista de cima, vista de baixo, perfil de cima, perfil de baixo, áudios (sem vídeo) em 2 distâncias: próxima e distal."},{"title":"Língua","desc":"Língua","content":"Mandarim"},{"title":"Cenário de Aplicação","desc":"Cenário de Aplicação","content":"reconhecimento labial"},{"title":"Taxa de Precisão","desc":"Taxa de Precisão","content":"A Taxa de Precisão das Frases: 95%"}],"datatag":"Lip Language,Multimodal,Mandarin,Reading,Mobile Phone,Video camera","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D","intro":"","size":0,"progress":100,"type":"mp4"}],"officialSummary":"249 pessoas participaram da gravação de voz e vídeos de linguagem labial correspondentes, com gravação sincronizada em múltiplos equipamentos. A alinhamento preciso é realizado por meio de sinal de pulso, garantindo alta precisão. O conjunto de dados pode ser utilizado para a pesquisa de algoritmos de aprendizagem multimodal na área de voz e imagem. Validado por várias empresas de IA, este conjunto de dado pode ajudar os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a integridade da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.","dataexampl":null,"datakeyword":["Linguagem Labial"," Multimodal"," Mandarim"," Leitura"," Telemóvel"," Câmara de Vídeo"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"155 Hours – Lip Sync Multimodal Video Data","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D","intro":"","size":0,"progress":100,"type":"mp4"}]}

pt

Please fill in your name

Mobile phone format error

Por favor, insira o telefone

Por favor, insira o nome da sua empresa

Por favor, insira o e-mail da sua empresa

Por favor, insira a solicitação de dados

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

A solicitação de dados não pode conter menos de 5 palavras nem conter apenas números

Início > Todos os Datasets por Categoria > Datasets para ASR > 155 Horas - Dados de Vídeo de Sincronização Labial: Multimodal

155 Horas - Dados de Vídeo de Sincronização Labial: Multimodal

Linguagem Labial

Multimodal

Mandarim

Leitura

Telemóvel

Câmara de Vídeo

249 pessoas participaram da gravação de voz e vídeos de linguagem labial correspondentes, com gravação sincronizada em múltiplos equipamentos. A alinhamento preciso é realizado por meio de sinal de pulso, garantindo alta precisão. O conjunto de dados pode ser utilizado para a pesquisa de algoritmos de aprendizagem multimodal na área de voz e imagem. Validado por várias empresas de IA, este conjunto de dado pode ajudar os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a integridade da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.

Conjuntos de Dados Pagos

Este é um conjunto de dado pagos destinando a uso comercial, fins de investigação e otras finalidades. Conjunto de dados licenciado e pronto ajuda a acelerar projetos d IA.

Especificações

Características

Formato

Vídeo com formato mp4, 1.280*710; áudio com formato wav, 16kHz, 16bit, monoaural

Ambiente de Gravação

Cenário executado em sala interior silenciosa com janelas ensolaradas, simulando ambiente diurno de condução exterior, com relação sinal-ruído (SNR) de 15-20 dB.

Cenário de Gravação

Cenários categorizados conforme intensidade luminosa: cenários principais e subcenários

Conteúdo Gravado

Comandos curtos; frases orais

Gravador

249 chineses, sendo 125 homens e 124 mulheres

Equipamento de Gravação

Câmaras de vídeo, microfones de alta fidelidade, placas de som.

Ângulo de Gravação

Gravação simultânea de vídeos com áudio em 6 ângulos: frontal, perfil unilateral, vista de cima, vista de baixo, perfil de cima, perfil de baixo, áudios (sem vídeo) em 2 distâncias: próxima e distal.

Língua

Mandarim

Cenário de Aplicação

reconhecimento labial

Taxa de Precisão

A Taxa de Precisão das Frases: 95%

Amostra

Amostra

Conjuntos de Dados Recomendados

Conjuntos de Dados Recomendados

531 Horas - Dados de Ruído em Cenário Veicular (Microfone e Telemóvel)

Dados de Ruído em Cenário Veicular (Microfone e Telemóvel), recolhidos em em cenários veiculares reais de rodovias, abrangem vários modelos de veículos, tipos de estrada, velocidades e condições de janelas abertas/fechadas, com gravações realizadas em 6 pontos de captura para registar o ruído em diferentes posições do interior do veículo. Estes dados atendem precisamente às necessidades de modelagem de ruído veicular.

Recolha dos Dados de Ruído Veicular com Microfone e Telemóvel; Recolha de Dados de Ruído Veicular Ruído Veicular Dados de Ruído Veicular

Informe-nos das Suas Necessidades Específicas

Nível de maturidade do projeto

Fase inicial de exploração (sem especificações concretas)

Objetivos definidos, necessidade de orientação profissional

Fase de desenvolvimento ou otimização

Especialistas em dados e rotulagem com especificações claras

Nome Completo *

Telefone de Contacto*

Nome da Empresa *

E-mail Corporativo *

Requisitos de dados *

Ao submeter, declaro aceitação do Acordo de Licença de Dados

Subscreva a Nossa Newsletter

Seja o primeiro a receber os últimos lançamentos de produtos, soluções de dados e novidades empresariais da Nexdata.

Datasets Pré-Processados: Todos os Datasets por Categoria; Datasets para LLM; Datasets para Visão Computacional; Datasets para ASR; Datasets para TTS; Datasets para OCR; Dicionário de Pronúncia; Datasets para NLU

Serviços de Dados: Dados de 3D PCD; Dados de Vista de Rua; Dados para OCR; Dados para Comportamento; Dados para Identidade; Dados para ASR; Dados para Síntese de Fala; Dados Multimodais

Setores: Embodied AI; IA Generativa; Veículos Autónomos; RA e RV; IA Conversacional; Casa Inteligente; Retalho; Cuidados de Saúde Inteligentes

Empresa: Sobre Nós; Notícias; Parceiros; Qualidade & Segurança; Eventos
Ligações Úteis: OPENMPD; DataPlus; Datarade

Plataforma: Plataforma
Competição: Competição
Recursos: Datasets Patrocinados

Aprimore a Sua IA com Dados de Alta Qualidade

+1(626)594-5598

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

Mapa do Site Termos e Condições

Utilizamos cookies para melhorar a sua experiência de navegação, apresentar anúncios ou conteúdos personalizados e analisar o tráfego do nosso website. Ao clicar em “Aceitar Todos”, concorda com a utilização de cookies.

c42c539a-b343-4b11-b9aa-0531a34fb3d6

b99b90e2-a7a4-4853-a18d-3df6faf1cce9