[{"@type":"PropertyValue","name":"Escala dos Dados","value":"202 pessoas, cada uma com 13 clipes de áudio e vídeo em ângulos diferentes + 1 documento .txt"},{"@type":"PropertyValue","name":"Distribuição de Pessoas","value":"Distribuição étnica: asiáticos (Indonésia); Distribuição de gênero: 89 homens, 113 mulheres; Faixa etária: 165 entre 18-30, 32 entre 31-45, 5 entre 46-60"},{"@type":"PropertyValue","name":"Ambiente de Recolha","value":"Cenários internos com luz natural e com luz fluorescente"},{"@type":"PropertyValue","name":"Diversidade de Dados","value":"Abrange diversos cenários, idades e ângulos de filmagem"},{"@type":"PropertyValue","name":"Equipamento de Recolha","value":"Celular, resolução de vídeo: 1,920×1,080"},{"@type":"PropertyValue","name":"Ângulo de Recolha","value":"Coleta de dados de áudio e vídeo em 13 ângulos: rosto frontal, 3 ângulos do lado esquerdo, 3 do direito, vista de cima, de baixo, vista inclinada da esquerda e direita (superior/inferior)"},{"@type":"PropertyValue","name":"Conteúdo Gravado","value":"Área geral, conteúdo ilimitado"},{"@type":"PropertyValue","name":"Língua","value":"Mandarim padrão, cada vídeo tem mais de 20 segundos"},{"@type":"PropertyValue","name":"Formato dos Dados","value":"Formato de vídeo: .mp4; áudio com no mínimo 16KHz, 16 bits; taxa de quadros entre 25 e 30 fps"},{"@type":"PropertyValue","name":"Taxa de Precisão","value":"Precisão por caractere superior a 95%"}]
{"id":1298,"datatype":"1","titleimg":"https://pt.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"149","type2str":null,"dataname":"Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas","datazy":[{"title":"Escala dos Dados","desc":"Escala dos Dados","content":"202 pessoas, cada uma com 13 clipes de áudio e vídeo em ângulos diferentes + 1 documento .txt"},{"title":"Distribuição de Pessoas","desc":"Distribuição de Pessoas","content":"Distribuição étnica: asiáticos (Indonésia); Distribuição de gênero: 89 homens, 113 mulheres; Faixa etária: 165 entre 18-30, 32 entre 31-45, 5 entre 46-60"},{"title":"Ambiente de Recolha","desc":"Ambiente de Recolha","content":"Cenários internos com luz natural e com luz fluorescente"},{"title":"Diversidade de Dados","desc":"Diversidade de Dados","content":"Abrange diversos cenários, idades e ângulos de filmagem"},{"title":"Equipamento de Recolha","desc":"Equipamento de Recolha","content":"Celular, resolução de vídeo: 1,920×1,080"},{"title":"Ângulo de Recolha","desc":"Ângulo de Recolha","content":"Coleta de dados de áudio e vídeo em 13 ângulos: rosto frontal, 3 ângulos do lado esquerdo, 3 do direito, vista de cima, de baixo, vista inclinada da esquerda e direita (superior/inferior)"},{"title":"Conteúdo Gravado","desc":"Conteúdo Gravado","content":"Área geral, conteúdo ilimitado"},{"title":"Língua","desc":"Língua","content":"Mandarim padrão, cada vídeo tem mais de 20 segundos"},{"title":"Formato dos Dados","desc":"Formato dos Dados","content":"Formato de vídeo: .mp4; áudio com no mínimo 16KHz, 16 bits; taxa de quadros entre 25 e 30 fps"},{"title":"Taxa de Precisão","desc":"Taxa de Precisão","content":"Precisão por caractere superior a 95%"}],"datatag":"Lip multimodal,Mandarin Chinese,Multiple scenes,Different ages,Different shooting angles","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/002_male_29.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/002_male_29.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=ALASNNOKRu%2FsdItuxWu7btO8Gqs%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/001_female_30.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/001_female_30.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=mZRLnTYk5W0s3jRzP7Um81hhRvw%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/156_male_42.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/156_male_42.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2wVvKW6e6XgkYOi9kPqptswFKGs%3D","intro":"","size":0,"progress":100,"type":"jpg"}],"officialSummary":"Dados de vídeo multimodal de leitura labial com múltiplos ângulos envolvendo 202 pessoas. As cenas de coleta incluem ambientes internos com luz natural e ambientes internos com iluminação fluorescente. Os vídeos foram gravados com celular. A diversidade da coleta abrange diferentes cenários, faixas etárias e 13 ângulos de filmagem. A linguagem usada é o mandarim padrão. Os conteúdos gravados são de domínio geral, sem restrição de tema. Os dados podem ser usados em pesquisas de algoritmos de aprendizado multimodal na área de voz e imagem.","dataexampl":null,"datakeyword":["Múltiplos Ângulos"," Multimodalidade Labial"," Cenas Internas com Luz Natural"," Cenas Internas com Iluminação Fluorescente"," 13 Ângulos de Filmagem"," Mandarim Chinês"," Campo Geral"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"202 People - Multi-angle Lip Multimodal Video Data","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/090_female_38.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/090_female_38.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=c6Jkb362VMrtxemlPNPSW%2FkEH%2Fk%3D","intro":"","size":0,"progress":100,"type":"jpg"}]}
Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas
Múltiplos Ângulos
Multimodalidade Labial
Cenas Internas com Luz Natural
Cenas Internas com Iluminação Fluorescente
13 Ângulos de Filmagem
Mandarim Chinês
Campo Geral
Dados de vídeo multimodal de leitura labial com múltiplos ângulos envolvendo 202 pessoas. As cenas de coleta incluem ambientes internos com luz natural e ambientes internos com iluminação fluorescente. Os vídeos foram gravados com celular. A diversidade da coleta abrange diferentes cenários, faixas etárias e 13 ângulos de filmagem. A linguagem usada é o mandarim padrão. Os conteúdos gravados são de domínio geral, sem restrição de tema. Os dados podem ser usados em pesquisas de algoritmos de aprendizado multimodal na área de voz e imagem.
Este é um conjunto de dado pagos destinando a uso comercial, fins de investigação e otras finalidades. Conjunto de dados licenciado e pronto ajuda a acelerar projetos d IA.
Características
Escala dos Dados
202 pessoas, cada uma com 13 clipes de áudio e vídeo em ângulos diferentes + 1 documento .txt
Distribuição de Pessoas
Distribuição étnica: asiáticos (Indonésia); Distribuição de gênero: 89 homens, 113 mulheres; Faixa etária: 165 entre 18-30, 32 entre 31-45, 5 entre 46-60
Ambiente de Recolha
Cenários internos com luz natural e com luz fluorescente
Diversidade de Dados
Abrange diversos cenários, idades e ângulos de filmagem
Equipamento de Recolha
Celular, resolução de vídeo: 1,920×1,080
Ângulo de Recolha
Coleta de dados de áudio e vídeo em 13 ângulos: rosto frontal, 3 ângulos do lado esquerdo, 3 do direito, vista de cima, de baixo, vista inclinada da esquerda e direita (superior/inferior)
Conteúdo Gravado
Área geral, conteúdo ilimitado
Língua
Mandarim padrão, cada vídeo tem mais de 20 segundos
Formato dos Dados
Formato de vídeo: .mp4; áudio com no mínimo 16KHz, 16 bits; taxa de quadros entre 25 e 30 fps