{"id":1298,"datatype":"1","titleimg":"https://pt.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"149","type2str":null,"dataname":"Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas","datazy":[{"title":"Escala dos Dados","desc":"Escala dos Dados","content":"202 pessoas, cada uma com 13 clipes de áudio e vídeo em ângulos diferentes + 1 documento .txt"},{"title":"Distribuição de Pessoas","desc":"Distribuição de Pessoas","content":"Distribuição étnica: asiáticos (Indonésia); Distribuição de gênero: 89 homens, 113 mulheres; Faixa etária: 165 entre 18-30, 32 entre 31-45, 5 entre 46-60"},{"title":"Ambiente de Recolha","desc":"Ambiente de Recolha","content":"Cenários internos com luz natural e com luz fluorescente"},{"title":"Diversidade de Dados","desc":"Diversidade de Dados","content":"Abrange diversos cenários, idades e ângulos de filmagem"},{"title":"Equipamento de Recolha","desc":"Equipamento de Recolha","content":"Celular, resolução de vídeo: 1,920×1,080"},{"title":"Ângulo de Recolha","desc":"Ângulo de Recolha","content":"Coleta de dados de áudio e vídeo em 13 ângulos: rosto frontal, 3 ângulos do lado esquerdo, 3 do direito, vista de cima, de baixo, vista inclinada da esquerda e direita (superior/inferior)"},{"title":"Conteúdo Gravado","desc":"Conteúdo Gravado","content":"Área geral, conteúdo ilimitado"},{"title":"Língua","desc":"Língua","content":"Mandarim padrão, cada vídeo tem mais de 20 segundos"},{"title":"Formato dos Dados","desc":"Formato dos Dados","content":"Formato de vídeo: .mp4; áudio com no mínimo 16KHz, 16 bits; taxa de quadros entre 25 e 30 fps"},{"title":"Taxa de Precisão","desc":"Taxa de Precisão","content":"Precisão por caractere superior a 95%"}],"datatag":"Lip multimodal,Mandarin Chinese,Multiple scenes,Different ages,Different shooting angles","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/002_male_29.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/002_male_29.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=ALASNNOKRu%2FsdItuxWu7btO8Gqs%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/001_female_30.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/001_female_30.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=mZRLnTYk5W0s3jRzP7Um81hhRvw%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/156_male_42.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/156_male_42.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2wVvKW6e6XgkYOi9kPqptswFKGs%3D","intro":"","size":0,"progress":100,"type":"jpg"}],"officialSummary":"Dados de vídeo multimodal de leitura labial com múltiplos ângulos envolvendo 202 pessoas. As cenas de coleta incluem ambientes internos com luz natural e ambientes internos com iluminação fluorescente. Os vídeos foram gravados com celular. A diversidade da coleta abrange diferentes cenários, faixas etárias e 13 ângulos de filmagem. A linguagem usada é o mandarim padrão. Os conteúdos gravados são de domínio geral, sem restrição de tema. Os dados podem ser usados em pesquisas de algoritmos de aprendizado multimodal na área de voz e imagem.","dataexampl":null,"datakeyword":["Múltiplos Ângulos","Multimodalidade Labial","Cenas Internas com Luz Natural","Cenas Internas com Iluminação Fluorescente","13 Ângulos de Filmagem","Mandarim Chinês","Campo Geral"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"202 People - Multi-angle Lip Multimodal Video Data","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/090_female_38.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/090_female_38.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=c6Jkb362VMrtxemlPNPSW%2FkEH%2Fk%3D","intro":"","size":0,"progress":100,"type":"jpg"}]}

pt

Please fill in your name

Mobile phone format error

Por favor, insira o telefone

Por favor, insira o nome da sua empresa

Por favor, insira o e-mail da sua empresa

Por favor, insira a solicitação de dados

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

A solicitação de dados não pode conter menos de 5 palavras nem conter apenas números

Início > Todos os Datasets por Categoria > Datasets para ASR > Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas

Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas

Múltiplos Ângulos

Multimodalidade Labial

Cenas Internas com Luz Natural

Cenas Internas com Iluminação Fluorescente

13 Ângulos de Filmagem

Mandarim Chinês

Campo Geral

Dados de vídeo multimodal de leitura labial com múltiplos ângulos envolvendo 202 pessoas. As cenas de coleta incluem ambientes internos com luz natural e ambientes internos com iluminação fluorescente. Os vídeos foram gravados com celular. A diversidade da coleta abrange diferentes cenários, faixas etárias e 13 ângulos de filmagem. A linguagem usada é o mandarim padrão. Os conteúdos gravados são de domínio geral, sem restrição de tema. Os dados podem ser usados em pesquisas de algoritmos de aprendizado multimodal na área de voz e imagem.

Conjuntos de Dados Pagos

Este é um conjunto de dado pagos destinando a uso comercial, fins de investigação e otras finalidades. Conjunto de dados licenciado e pronto ajuda a acelerar projetos d IA.

Especificações

Características

Escala dos Dados

202 pessoas, cada uma com 13 clipes de áudio e vídeo em ângulos diferentes + 1 documento .txt

Distribuição de Pessoas

Distribuição étnica: asiáticos (Indonésia); Distribuição de gênero: 89 homens, 113 mulheres; Faixa etária: 165 entre 18-30, 32 entre 31-45, 5 entre 46-60

Ambiente de Recolha

Cenários internos com luz natural e com luz fluorescente

Diversidade de Dados

Abrange diversos cenários, idades e ângulos de filmagem

Equipamento de Recolha

Celular, resolução de vídeo: 1,920×1,080

Ângulo de Recolha

Coleta de dados de áudio e vídeo em 13 ângulos: rosto frontal, 3 ângulos do lado esquerdo, 3 do direito, vista de cima, de baixo, vista inclinada da esquerda e direita (superior/inferior)

Conteúdo Gravado

Área geral, conteúdo ilimitado

Língua

Mandarim padrão, cada vídeo tem mais de 20 segundos

Formato dos Dados

Formato de vídeo: .mp4; áudio com no mínimo 16KHz, 16 bits; taxa de quadros entre 25 e 30 fps

Taxa de Precisão

Precisão por caractere superior a 95%

Amostra

Amostra

Conjuntos de Dados Recomendados

Conjuntos de Dados Recomendados

568 pessoas com anotações de detecção de rosto, 106 pontos faciais e recorte de corpo em cenas de reunião

Dados anotados com caixas delimitadoras de rosto, 106 pontos-chave faciais e recorte de corpo humano, coletados em ambientes de reuniões com 568 pessoas. As etnias incluem asiáticos, brancos, negros e pessoas de pele morena; a maioria são adultos jovens. Os cenários de coleta incluem escritórios, cafeterias, bibliotecas e quartos. Cada participante possui entre 61 a 64 imagens anotadas. Este conjunto é ideal para tarefas como detecção facial, identificação de pontos faciais e recorte de corpo humano.

Cenas de Conferência Detecção Facial 106 Pontos Faciais Segmentação de Corpo Humano

30,696 conjuntos de imagens de retrato com edição antes e depois

30,696 pares de imagens de retratos de estúdio antes e depois da edição. As imagens foram coletadas em ambientes internos e externos, principalmente em países como Argélia, Egito, Hungria, Polônia e Japão. Os tipos de imagem incluem ensaios fotográficos e fotos de casamento. As imagens foram anotadas com detalhes das edições feitas, podendo ser usadas para tarefas como retoque automático de retratos, recorte com Photoshop e segmentação de pessoas.

Dados de Retrato Fotos de Comparação de Retoque

88,880 pessoas com múltiplas fotos por pessoa, representando diversas etnias

Dados de rostos multirraciais com múltiplas imagens por pessoa – 88,880 indivíduos. Cada pessoa tem no mínimo 5 fotos. As raças incluem asiática, negra, branca e parda. Faixas etárias vão de bebês a idosos, com predominância de adultos jovens. Os ambientes de coleta incluem cenas internas e externas. Há diversidade em idade, cenários, poses e expressões faciais. Útil para tarefas de reconhecimento facial. Todos os dados estão em conformidade com GDPR, CCPA e PIPL.

Multi-raça Multi-posições Rosto

4, 484 registros de reconhecimento facial por infravermelho de diversas etnias

Este conjunto de dados contém imagens faciais infravermelhas de 4.484 indivíduos de diferentes etnias, coletadas em ambientes internos e externos. Os participantes incluem homens e mulheres das etnias amarela, negra, branca e parda, com idades variando de jovens a idosos, com foco em adultos. O equipamento utilizado foi o DV-DH4,044S305AD. Os dados apresentam diversidade de idade, poses faciais e cenários, sendo adequados para pesquisas e aplicações em reconhecimento facial por infravermelho. Todos os dados seguem estritamente as normas de privacidade GDPR, CCPA e PIPL.

Multi-raça Face infravermelha Câmera binocular Múltiplos períodos de idade Múltiplas posturas faciais Múltiplas cenas

500.605 Imagens - Dado Faciais Individuais

500.605 Imagens - Dado Faciais Individuais. Cada pessoa é representada por uma imagem facial. A distribuição étnica abrange asiáticos, negros, brancos e pardos, com faixas etárias desde bebés até idosos, na maioria adultos jovens e de meia-idade. Recolhidos em cenários interiores e exteriores. os dados engloba múltiplas faixas etárias, cenários, posturas faciais e expressões. Este conjunto aplica-se a tarefas como reconhecimento facial. Cumprimos rigorosamente as leis de proteção de dados e as normas de privacidade, garantindo a integridade da privacidade dos utilizadores e os seus direitos legais durante todo o processo de recolha, armazenamento e utilização dos dados. Todos os dados estão em conformidade com o RGPD, CCPA e PIPL.

Milhão de IDs Rostos Estrangeiros Imagem Única

Dados de reconhecimento facial de 10,109 pessoas de múltiplas etnias — múltiplas fotos por pessoa

Dados de reconhecimento facial de 10,109 pessoas de diversas etnias. Foram coletadas múltiplas fotos do dia a dia para cada indivíduo, com anotações sobre gênero, etnia e outros atributos. Útil para aplicações em IA, validado por várias empresas da área. Todo o processo de coleta, armazenamento e uso respeita rigorosamente regulamentações como GDPR, CCPA e PIPL.

Detecção facial Rosto em múltiplas poses Pose da cabeça Pose facial

Dados de detecção de vivacidade 2D de 208 vietnamitas

Dados de detecção de vivacidade 2D de 208 vietnamitas Os cenários de coleta incluem ambientes internos e externos. Os dados abrangem homens e mulheres, com idades de jovens a idosos, principalmente adultos jovens e de meia-idade. Todos são de origem vietnamita. Os dados incluem múltiplas expressões faciais, posturas, amostras adversas, diferentes condições de iluminação e ambientes. Aplicável a tarefas como pagamentos por reconhecimento facial, verificação remota de identidade e desbloqueio facial em celulares.

Dados de Face Viva e Anti-Fraude Rosto Múltiplas Etnias Múltiplas Posturas Múltiplas Expressões Múltiplos Cenários Múltiplas Amostras Anti-fraude Múltiplas Faixas Etárias

4,290 imagens coletadas com corpos humanos parcialmente ocultos

4,290 imagens com corpos humanos parcialmente ocultos Cada imagem contém de 2 a 5 pessoas. A faixa etária vai de crianças a idosos, com predominância de adultos jovens e de meia-idade; todas as pessoas são de origem asiática. Os cenários incluem ambientes internos e externos. A diversidade abrange diferentes contextos, faixas etárias, tipos de obstrução e posturas corporais. Pode ser usado para tarefas como detecção e segmentação de pessoas parcialmente ocultas.

Corpo humano com obstrução cenas internas Cenas externas múltiplos cenários Diversos grupos etários Múltiplas obstruções entre corpos humanos Múltiplas posturas corporais Detecção e segmentação de corpos humanos obstruídos

Informe-nos das Suas Necessidades Específicas

Nível de maturidade do projeto

Fase inicial de exploração (sem especificações concretas)

Objetivos definidos, necessidade de orientação profissional

Fase de desenvolvimento ou otimização

Especialistas em dados e rotulagem com especificações claras

Nome Completo *

Telefone de Contacto*

Nome da Empresa *

E-mail Corporativo *

Requisitos de dados *

Ao submeter, declaro aceitação do Acordo de Licença de Dados

Subscreva a Nossa Newsletter

Seja o primeiro a receber os últimos lançamentos de produtos, soluções de dados e novidades empresariais da Nexdata.

Datasets Pré-Processados: Todos os Datasets por Categoria; Datasets para LLM; Datasets para Visão Computacional; Datasets para ASR; Datasets para TTS; Datasets para OCR; Dicionário de Pronúncia; Datasets para NLU

Serviços de Dados: Dados de 3D PCD; Dados de Vista de Rua; Dados para OCR; Dados para Comportamento; Dados para Identidade; Dados para ASR; Dados para Síntese de Fala; Dados Multimodais

Setores: Embodied AI; IA Generativa; Veículos Autónomos; RA e RV; IA Conversacional; Casa Inteligente; Retalho; Cuidados de Saúde Inteligentes

Empresa: Sobre Nós; Notícias; Parceiros; Qualidade & Segurança; Eventos
Ligações Úteis: OPENMPD; DataPlus; Datarade

Plataforma: Plataforma
Competição: Competição
Recursos: Datasets Patrocinados

Aprimore a Sua IA com Dados de Alta Qualidade

+1(626)594-5598

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

Mapa do Site Termos e Condições

Utilizamos cookies para melhorar a sua experiência de navegação, apresentar anúncios ou conteúdos personalizados e analisar o tráfego do nosso website. Ao clicar em “Aceitar Todos”, concorda com a utilização de cookies.

4243cc63-19da-4f6f-87c1-50d9beb22157

15248ca2-3c05-4d6f-aae6-f993ae2b1732