[{"@type":"PropertyValue","name":"Formato","value":"Vídeo com formato mp4, 1.280*710; áudio com formato wav, 16kHz, 16bit, monoaural"},{"@type":"PropertyValue","name":"Ambiente de Gravação","value":"Cenário executado em sala interior silenciosa com janelas ensolaradas, simulando ambiente diurno de condução exterior, com relação sinal-ruído (SNR) de 15-20 dB."},{"@type":"PropertyValue","name":"Cenário de Gravação","value":"Cenários categorizados conforme intensidade luminosa: cenários principais e subcenários"},{"@type":"PropertyValue","name":"Conteúdo Gravado","value":"Comandos curtos; frases orais"},{"@type":"PropertyValue","name":"Gravador","value":"249 chineses, sendo 125 homens e 124 mulheres"},{"@type":"PropertyValue","name":"Equipamento de Gravação","value":"Câmaras de vídeo, microfones de alta fidelidade, placas de som."},{"@type":"PropertyValue","name":"Ângulo de Gravação","value":"Gravação simultânea de vídeos com áudio em 6 ângulos: frontal, perfil unilateral, vista de cima, vista de baixo, perfil de cima, perfil de baixo, áudios (sem vídeo) em 2 distâncias: próxima e distal."},{"@type":"PropertyValue","name":"Língua","value":"Mandarim"},{"@type":"PropertyValue","name":"Cenário de Aplicação","value":"reconhecimento labial"},{"@type":"PropertyValue","name":"Taxa de Precisão","value":"A Taxa de Precisão das Frases: 95%"}]
{"id":996,"datatype":"1","titleimg":"https://pt.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"168","type2str":null,"dataname":"155 Horas - Dados de Vídeo de Sincronização Labial: Multimodal","datazy":[{"title":"Formato","desc":"Formato","content":"Vídeo com formato mp4, 1.280*710; áudio com formato wav, 16kHz, 16bit, monoaural"},{"title":"Ambiente de Gravação","desc":"Ambiente de Gravação","content":"Cenário executado em sala interior silenciosa com janelas ensolaradas, simulando ambiente diurno de condução exterior, com relação sinal-ruído (SNR) de 15-20 dB."},{"title":"Cenário de Gravação","desc":"Cenário de Gravação","content":"Cenários categorizados conforme intensidade luminosa: cenários principais e subcenários"},{"title":"Conteúdo Gravado","desc":"Conteúdo Gravado","content":"Comandos curtos; frases orais"},{"title":"Gravador","desc":"Gravador","content":"249 chineses, sendo 125 homens e 124 mulheres"},{"title":"Equipamento de Gravação","desc":"Equipamento de Gravação","content":"Câmaras de vídeo, microfones de alta fidelidade, placas de som."},{"title":"Ângulo de Gravação","desc":"Ângulo de Gravação","content":"Gravação simultânea de vídeos com áudio em 6 ângulos: frontal, perfil unilateral, vista de cima, vista de baixo, perfil de cima, perfil de baixo, áudios (sem vídeo) em 2 distâncias: próxima e distal."},{"title":"Língua","desc":"Língua","content":"Mandarim"},{"title":"Cenário de Aplicação","desc":"Cenário de Aplicação","content":"reconhecimento labial"},{"title":"Taxa de Precisão","desc":"Taxa de Precisão","content":"A Taxa de Precisão das Frases: 95%"}],"datatag":"Lip Language,Multimodal,Mandarin,Reading,Mobile Phone,Video camera","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D","intro":"","size":0,"progress":100,"type":"mp4"}],"officialSummary":"249 pessoas participaram da gravação de voz e vídeos de linguagem labial correspondentes, com gravação sincronizada em múltiplos equipamentos. A alinhamento preciso é realizado por meio de sinal de pulso, garantindo alta precisão. O conjunto de dados pode ser utilizado para a pesquisa de algoritmos de aprendizagem multimodal na área de voz e imagem. Validado por várias empresas de IA, este conjunto de dado pode ajudar os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a integridade da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.","dataexampl":null,"datakeyword":["Linguagem Labial"," Multimodal"," Mandarim"," Leitura"," Telemóvel"," Câmara de Vídeo"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"155 Hours – Lip Sync Multimodal Video Data","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D","intro":"","size":0,"progress":100,"type":"mp4"}]}
https://pt.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp
[{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D"}]
155 Horas - Dados de Vídeo de Sincronização Labial: Multimodal
Linguagem Labial
Multimodal
Mandarim
Leitura
Telemóvel
Câmara de Vídeo
249 pessoas participaram da gravação de voz e vídeos de linguagem labial correspondentes, com gravação sincronizada em múltiplos equipamentos. A alinhamento preciso é realizado por meio de sinal de pulso, garantindo alta precisão. O conjunto de dados pode ser utilizado para a pesquisa de algoritmos de aprendizagem multimodal na área de voz e imagem. Validado por várias empresas de IA, este conjunto de dado pode ajudar os modelos a desempenharem-se excelentemente face à diversidade do mundo real. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a integridade da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.
Este é um conjunto de dado pagos destinando a uso comercial, fins de investigação e otras finalidades. Conjunto de dados licenciado e pronto ajuda a acelerar projetos d IA.
![Especificações]()
Características
Formato
Vídeo com formato mp4, 1.280*710; áudio com formato wav, 16kHz, 16bit, monoaural
Ambiente de Gravação
Cenário executado em sala interior silenciosa com janelas ensolaradas, simulando ambiente diurno de condução exterior, com relação sinal-ruído (SNR) de 15-20 dB.
Cenário de Gravação
Cenários categorizados conforme intensidade luminosa: cenários principais e subcenários
Conteúdo Gravado
Comandos curtos; frases orais
Gravador
249 chineses, sendo 125 homens e 124 mulheres
Equipamento de Gravação
Câmaras de vídeo, microfones de alta fidelidade, placas de som.
Ângulo de Gravação
Gravação simultânea de vídeos com áudio em 6 ângulos: frontal, perfil unilateral, vista de cima, vista de baixo, perfil de cima, perfil de baixo, áudios (sem vídeo) em 2 distâncias: próxima e distal.
Cenário de Aplicação
reconhecimento labial
Taxa de Precisão
A Taxa de Precisão das Frases: 95%
![Amostra]()
Amostra
![Conjuntos de Dados Recomendados]()
Conjuntos de Dados Recomendados
Informe-nos das Suas Necessidades Específicas
24e2a490-18a6-4b7a-b99c-2622dcfffdae