en

Please fill in your name

Mobile phone format error

Por favor, insira o telefone

Por favor, insira o nome da sua empresa

Por favor, insira o e-mail da sua empresa

Por favor, insira a solicitação de dados

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

A solicitação de dados não pode conter menos de 5 palavras nem conter apenas números

Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas

Múltiplos Ângulos
Multimodalidade Labial
Cenas Internas com Luz Natural
Cenas Internas com Iluminação Fluorescente
13 Ângulos de Filmagem
Mandarim Chinês
Campo Geral

Dados de vídeo multimodal de leitura labial com múltiplos ângulos envolvendo 202 pessoas. As cenas de coleta incluem ambientes internos com luz natural e ambientes internos com iluminação fluorescente. Os vídeos foram gravados com celular. A diversidade da coleta abrange diferentes cenários, faixas etárias e 13 ângulos de filmagem. A linguagem usada é o mandarim padrão. Os conteúdos gravados são de domínio geral, sem restrição de tema. Os dados podem ser usados em pesquisas de algoritmos de aprendizado multimodal na área de voz e imagem.

Conjuntos de Dados Pagos
Este é um conjunto de dado pagos destinando a uso comercial, fins de investigação e otras finalidades. Conjunto de dados licenciado e pronto ajuda a acelerar projetos d IA.
EspecificaçõesCaracterísticas
Escala dos Dados
202 pessoas, cada uma com 13 clipes de áudio e vídeo em ângulos diferentes + 1 documento .txt
Distribuição de Pessoas
Distribuição étnica: asiáticos (Indonésia); Distribuição de gênero: 89 homens, 113 mulheres; Faixa etária: 165 entre 18-30, 32 entre 31-45, 5 entre 46-60
Ambiente de Recolha
Cenários internos com luz natural e com luz fluorescente
Diversidade de Dados
Abrange diversos cenários, idades e ângulos de filmagem
Equipamento de Recolha
Celular, resolução de vídeo: 1,920×1,080
Ângulo de Recolha
Coleta de dados de áudio e vídeo em 13 ângulos: rosto frontal, 3 ângulos do lado esquerdo, 3 do direito, vista de cima, de baixo, vista inclinada da esquerda e direita (superior/inferior)
Conteúdo Gravado
Área geral, conteúdo ilimitado
Língua
Mandarim padrão, cada vídeo tem mais de 20 segundos
Formato dos Dados
Formato de vídeo: .mp4; áudio com no mínimo 16KHz, 16 bits; taxa de quadros entre 25 e 30 fps
Taxa de Precisão
Precisão por caractere superior a 95%
Amostra Amostra
  • Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas
  • Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas
  • Dados de vídeo multimodais de leitura labial com múltiplos ângulos de 202 pessoas
Conjuntos de Dados RecomendadosConjuntos de Dados Recomendados
Informe-nos das Suas Necessidades Específicas

Ao submeter, declaro aceitação do Acordo de Licença de Dados

4228bc23-cd98-44eb-b850-942849020269

6dd33f56-320e-491c-8d9d-dc47566a02f9