Please fill in your name

Mobile phone format error

Por favor, insira o telefone

Por favor, insira o nome da sua empresa

Por favor, insira o e-mail da sua empresa

Por favor, insira a solicitação de dados

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

A solicitação de dados não pode conter menos de 5 palavras nem conter apenas números

Dados Abertos para a Investigação Académica

A Nexdata lança o "Programa de Suporte à Investigação com Dados de IA", dirigido a instituições não comerciais de todo o mundo. O programa oferece acesso a conjuntos de dados de alto valor em áreas fundamentais como visão computacional e reconhecimento de voz, apoiando projetos de pesquisa inovadores

Visão Computacional Visão Computacional
Reconhecimento de Fala Reconhecimento de Fala
Nome de Conjunto de Dados Tipos de Dados Volume de Dados Conteúdo Recolhido
Legendas de 1.000 Imagens de OCR em Cenários Naturais Imagem 1.000 Imagens Recolhe metadados de legenda para imagens de cenários diversificados, tais como paisagens, ruas, exposições e interiores. Cada imagem integra uma descrição em inglês, tendo cada uma entre 3 a 5 frases.
Legendas de 1.000 Imagens com OCR em Cenários Reais Imagem 1.000 Imagens É composto por legendas contendo texto OCR em 14 idiomas, provenientes de imagens de cenários do mundo real, tais como paradas de ônibus, cartazes e sinalização. Cada imagem integra uma descrição em inglês, tendo cada uma entre 3 a 5 frases.
Legendas de 1.000 Imagens de Rosto Humano Imagem 1.000 Imagens Regista metadados de legenda para imagens de rostos, com variações em ângulos e expressões faciais. Sendo cada uma delas descrita em inglês por um conjunto de 3 a 5 frases.
Legendas de 1.000 Imagens de Gestos Imagem 1.000 Imagens Conjunto de dados composto por legenda de imagens de gestos captados sob diferentes ângulos e pertencentes a várias categorias gestuais.Cada imagem é acompanhada por uma descrição em inglês, composta por 3 a 5 frases.
Legenda de 1.000 Imagens de Imperfeições Cutâneas no Rosto Humano Imagem 1.000 Imagens Conjunto de dados de imperfeições cutâneas faciais, incluindo acne, marcas de acne, manchas escuras, rugas e olheiras.
Legenda de 1.000 Vídeos de Movimentos do Corpo Humano Vídeo 1.000 vídeos Conjunto de dados composto por legendas de vídeos de movimentos do corpo humano em contextos com e se câmaras de videovigilância (CCTV). Os movimentos incluem caminhar, beber, bocejar, fazer exercício, etc. Cada vídeo é acompanhado por uma legenda em inglês.
Reconhecimento de Sete Expressões Faciais em 1.000 Pessoas de Diferentes Etnias Imagem 1.000 pessoas Conjunto de dados com imagens faciais representando sete expressões distintas: neutra, feliz, surpresa, tristeza, raiva, nojo e medo.
Microexpressões Faciais (FACS) em 1.000 Vídeos de Pessoas de Diferentes Etnias Vídeo 1.000 vídeos Conjunto de dados com 57 microexpressões faciais, incluindo elevação interna das sobrancelhas (AU1), elevação externa das sobrancelhas (AU2), elevação da pálpebra superior (AU5), etc.
50 pessoas – Conjunto de Dados DMS Vídeo 500 pessoas Conjunto de dados para sistemas de monitorização do condutor (DMS) inclui comportamentos perigosos, sinais de fadiga e padrões de movimento visual. Esse conjunto apresenta uma diversidade significativa, incluindo várias faixas etárias dos participantes, diferentes períodos do dia, distintos tipos de veículos e múltiplas posições de câmara.
50 Pessoas – Conjunto de Dados 2D para Deteção de Fraudes Faciais Imagem e Vídeo 500 pessoas Conjunto de dados 2D para deteção de fraudes faciais. Os dados reais incluem vídeos de expressões faciais, imagens faciais e vídeos de leitura labial. Os dados de falsificação incluem vídeos simulados de expressões faciais, vídeos falsos de leitura labial e imagens faciais falsificadas.
Conjunto de Dados de Reconhecimento de Gestos Imagem 1.000 Imagens Conjunto de dados de reconhecimento de gestos possui dezoito categorias distintas. As categorias incluem gesto como “número 1”, “OK”, “AMOR”, etc. Para a anotação do conjunto de dados, foram utilizados vinte e um pontos de referência (landmarks) da mão, bem como múltiplas etiquetas de gestos por imagem.
Conjunto de Dados de OCR em Cenas Naturais Imagem 3.000 Imagens Conjunto de Dados de OCR em cenas naturais possui textos em línguas asiáticas (como japonês e coreano) e europeias (como francês e alemão). Para a anotação, foram utilizadas caixas delimitadoras quadriláteras a nível de linha, acompanhadas da transcrição correspondente dos textos.
Conjunto de Dados de OCR de Escrita à Mão Imagem 500 imagens Conjunto de dados de OCR de escrita à mão em inglês e japonês. Para a anotação, foram utilizadas caixas delimitadoras quadriláteras a nível de linha, acompanhadas da transcrição dos textos.
50 Pessoas – Conjunto de Dados para Deteção de Fraudes Faciais Imagem 500 pessoas Conjunto de Dados para Deteção de Fraudes Faciais. Os dados de rostos reais incluem imagens faciais autênticas, enquanto os dados para deteção contêm imagens faciais falsas. Cada imagem está associada a uma imagem de profundidade, um ficheiro com valores de profundidade e um ficheiro com os parâmetros da câmara.
Conjunto de Dados de Imagens Faciais Multirraciais e em Múltiplas Poses Imagem 1.000 pessoas Conjunto de dados de reconhecimento facial com diversidade racial. Cada indivíduo possui vinte e nove imagens faciais: catorze em ambientes interiores em múltiplas poses, catorze em ambientes exteriores com múltiplas poses e uma imagem de identificação. As anotações incluem informações sobre raça, género, idade e pose facial.
Nome de Conjunto de Dados Dispositivo de Gravação Volume de Dados Características
Corpus de Síntese de Fala em Inglês – 4 Países, 2 Hora Microphone 2 horas de áudio (4 locutores) Locutores: 4 falantes nativos (EUA, Reino Unido, Austrália, Nova Zelândia)
Formato de Áudio: WAV não comprimido
Parâmetros Técnicos: 48 kHz, 24 bits, mono
Ambiente de Gravação: Estúdio profissional acusticamente tratado
20 Horas – Leitura e Fala Conversacional em Português via Telemóvel Smartphones 20 horas de áudio Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono
Condições de Gravação: Ruído ambiente reduzido (interior), sem reverberação
Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone
Origem: Portugal
Língua: Português
Características da Anotação: Transcrição ortográfica textual;
Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Alemão via Telemóvel Smartphones 20 horas de áudio Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono
Condições de Gravação: Ruído ambiente reduzido (interior), sem eco
Tipo de Conteúdo: Leitura e diálogos conversacionais
Dispositivos de Gravação: Smartphones Android e iPhone
Origem: Alemanha
Língua: Alemão
Características da Anotação: Transcrição textual completa
Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Italiano via Telemóvel Smartphones 20 horas de áudio Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono
Condições de Gravação: Ruído ambiente reduzido (interior), sem eco
Tipo de Conteúdo: Leitura e diálogos conversacionais
Dispositivos de Gravação: Smartphones Android e iPhone
Origem: Itália
Língua: Italiano
Características da Anotação: Transcrição textual completa
Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Espanhol via Telemóvel Smartphones 20 horas de áudio Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono
Condições de Gravação: Ruído ambiente reduzido (interior), sem eco
Tipo de Conteúdo: Leitura e diálogos conversacionais
Dispositivos de Gravação: Smartphones Android e iPhone
Origem: Espanha
Língua: Espanhol
Características da Anotação: Transcrição textual completa
Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Português Europeu via Telemóvel Smartphones 20 horas de áudio Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono
Condições de Gravação: Ruído ambiente reduzido (interior), sem eco
Tipo de Conteúdo: Leitura e diálogos conversacionais
Dispositivos de Gravação: Smartphones Android e iPhone
Origem: Portugal
Língua: Português
Características da Anotação: Transcrição textual completa
Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Japonês via Telemóvel Smartphones 20 horas de áudio Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono
Condições de Gravação: Ruído ambiente reduzido (interior), sem eco
Tipo de Conteúdo: Leitura e diálogos conversacionais
Dispositivos de Gravação: Smartphones Android e iPhone
Origem: Japão
Língua: Japonês
Características da Anotação: Transcrição textual completa
Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Coreano via Telemóvel Smartphones 20 horas de áudio Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono
Condições de Gravação: Ruído ambiente reduzido (interior), sem eco
Tipo de Conteúdo: Leitura e diálogos conversacionais
Dispositivos de Gravação: Smartphones Android e iPhone
Origem: Coreia do Sul
Língua: Coreano
Características da Anotação: Transcrição textual completa
Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
10 Horas – Leitura e Fala Conversacional em Pashto via Telemóvel Telemóvel 10 horas de áudio Formato de Áudio: PCM com codificação A-law/μ-law, 8 kHz, 8 bits, mono
Tipo de Conteúdo: Diálogos baseados em tópicos predefinidos
Condições de Gravação: Ruído ambiente reduzido (interior)
Dispositivos de Gravação: Smartphones
Origem: Afeganistão
Língua: Pashto (código ps-AF)
Participantes: 224 locutores no total (92% do sexo masculino, 8% feminino)
Características da Anotação: Transcrição textual, marca temporal, ID de locutor, género
Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥95%
Competição Interspeech de Reconhecimento de Inglês com Variedades Acentuadas Smartphones 200 horas de áudio 528 locutores Formato de Áudio: WAV mono, 16 kHz, 16 bits
Tipo de Conteúdo: Comunicação quotidiana, incluindo cenários práticos como interações humano-máquina
Ambiente de Gravação: Ambientes interiores silenciosos, com gravação via telemóvel
Duração: 20 horas por acentos (8 variedades no total)
Variedades de Acento: Russo, Coreano, Americano, Português, Japonês, Indiano, Britânico ( 8 variedades no total)
Número de participantes: 40 e 110 locutores por variedade
Nota: Solicite os conjuntos de dados de forma adequada ao seu domínio de investigação. O número máximo de pedidos para datasets de Visão por Computador é de seis conjuntos.
Note: Please apply for datasets reasonably according to the research field. The maximum number of applications for speech recognition datasets is 4 sets.

Processo de Candidatura e Instruções

Selecionar Conjunto de Dados Patrocinado

Selecionar Conjunto de Dados Patrocinado

Submeter o formulário

Submeter o formulário

Aguardar o feedback

Aguardar o feedback

Receber Conjunto de Dados

Receber Conjunto de Dados

Candidatar-se a Dados Patrocinados

Ao submeter, declaro aceitação do Acordo de Licença de Dados

Instituição Parceira

A Nexdata reserva-se o direito de interpretação das atividades relacionadas com dados de código aberto.

3015c545-3670-4a12-a89c-621402cdb15b

3df3807e-17bc-4454-80c8-a821bad8a659