Conjuntos de Dados Abertos para Investigação Académica

Visão Computacional

Reconhecimento de Fala

Nome de Conjunto de Dados	Tipos de Dados	Volume de Dados	Conteúdo Recolhido
Legendas de 1.000 Imagens de OCR em Cenários Naturais	Imagem	1.000 Imagens	Recolhe metadados de legenda para imagens de cenários diversificados, tais como paisagens, ruas, exposições e interiores. Cada imagem integra uma descrição em inglês, tendo cada uma entre 3 a 5 frases.
Legendas de 1.000 Imagens com OCR em Cenários Reais	Imagem	1.000 Imagens	É composto por legendas contendo texto OCR em 14 idiomas, provenientes de imagens de cenários do mundo real, tais como paradas de ônibus, cartazes e sinalização. Cada imagem integra uma descrição em inglês, tendo cada uma entre 3 a 5 frases.
Legendas de 1.000 Imagens de Rosto Humano	Imagem	1.000 Imagens	Regista metadados de legenda para imagens de rostos, com variações em ângulos e expressões faciais. Sendo cada uma delas descrita em inglês por um conjunto de 3 a 5 frases.
Legendas de 1.000 Imagens de Gestos	Imagem	1.000 Imagens	Conjunto de dados composto por legenda de imagens de gestos captados sob diferentes ângulos e pertencentes a várias categorias gestuais.Cada imagem é acompanhada por uma descrição em inglês, composta por 3 a 5 frases.
Legenda de 1.000 Imagens de Imperfeições Cutâneas no Rosto Humano	Imagem	1.000 Imagens	Conjunto de dados de imperfeições cutâneas faciais, incluindo acne, marcas de acne, manchas escuras, rugas e olheiras.
Legenda de 1.000 Vídeos de Movimentos do Corpo Humano	Vídeo	1.000 vídeos	Conjunto de dados composto por legendas de vídeos de movimentos do corpo humano em contextos com e se câmaras de videovigilância (CCTV). Os movimentos incluem caminhar, beber, bocejar, fazer exercício, etc. Cada vídeo é acompanhado por uma legenda em inglês.
Reconhecimento de Sete Expressões Faciais em 1.000 Pessoas de Diferentes Etnias	Imagem	1.000 pessoas	Conjunto de dados com imagens faciais representando sete expressões distintas: neutra, feliz, surpresa, tristeza, raiva, nojo e medo.
Microexpressões Faciais (FACS) em 1.000 Vídeos de Pessoas de Diferentes Etnias	Vídeo	1.000 vídeos	Conjunto de dados com 57 microexpressões faciais, incluindo elevação interna das sobrancelhas (AU1), elevação externa das sobrancelhas (AU2), elevação da pálpebra superior (AU5), etc.
50 pessoas – Conjunto de Dados DMS	Vídeo	500 pessoas	Conjunto de dados para sistemas de monitorização do condutor (DMS) inclui comportamentos perigosos, sinais de fadiga e padrões de movimento visual. Esse conjunto apresenta uma diversidade significativa, incluindo várias faixas etárias dos participantes, diferentes períodos do dia, distintos tipos de veículos e múltiplas posições de câmara.
50 Pessoas – Conjunto de Dados 2D para Deteção de Fraudes Faciais	Imagem e Vídeo	500 pessoas	Conjunto de dados 2D para deteção de fraudes faciais. Os dados reais incluem vídeos de expressões faciais, imagens faciais e vídeos de leitura labial. Os dados de falsificação incluem vídeos simulados de expressões faciais, vídeos falsos de leitura labial e imagens faciais falsificadas.
Conjunto de Dados de Reconhecimento de Gestos	Imagem	1.000 Imagens	Conjunto de dados de reconhecimento de gestos possui dezoito categorias distintas. As categorias incluem gesto como “número 1”, “OK”, “AMOR”, etc. Para a anotação do conjunto de dados, foram utilizados vinte e um pontos de referência (landmarks) da mão, bem como múltiplas etiquetas de gestos por imagem.
Conjunto de Dados de OCR em Cenas Naturais	Imagem	3.000 Imagens	Conjunto de Dados de OCR em cenas naturais possui textos em línguas asiáticas (como japonês e coreano) e europeias (como francês e alemão). Para a anotação, foram utilizadas caixas delimitadoras quadriláteras a nível de linha, acompanhadas da transcrição correspondente dos textos.
Conjunto de Dados de OCR de Escrita à Mão	Imagem	500 imagens	Conjunto de dados de OCR de escrita à mão em inglês e japonês. Para a anotação, foram utilizadas caixas delimitadoras quadriláteras a nível de linha, acompanhadas da transcrição dos textos.
50 Pessoas – Conjunto de Dados para Deteção de Fraudes Faciais	Imagem	500 pessoas	Conjunto de Dados para Deteção de Fraudes Faciais. Os dados de rostos reais incluem imagens faciais autênticas, enquanto os dados para deteção contêm imagens faciais falsas. Cada imagem está associada a uma imagem de profundidade, um ficheiro com valores de profundidade e um ficheiro com os parâmetros da câmara.
Conjunto de Dados de Imagens Faciais Multirraciais e em Múltiplas Poses	Imagem	1.000 pessoas	Conjunto de dados de reconhecimento facial com diversidade racial. Cada indivíduo possui vinte e nove imagens faciais: catorze em ambientes interiores em múltiplas poses, catorze em ambientes exteriores com múltiplas poses e uma imagem de identificação. As anotações incluem informações sobre raça, género, idade e pose facial.

Nome de Conjunto de Dados	Dispositivo de Gravação	Volume de Dados	Características
Corpus de Síntese de Fala em Inglês – 4 Países, 2 Hora	Microphone	2 horas de áudio (4 locutores)	Locutores: 4 falantes nativos (EUA, Reino Unido, Austrália, Nova Zelândia) Formato de Áudio: WAV não comprimido Parâmetros Técnicos: 48 kHz, 24 bits, mono Ambiente de Gravação: Estúdio profissional acusticamente tratado
20 Horas – Leitura e Fala Conversacional em Português via Telemóvel	Smartphones	20 horas de áudio	Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem reverberação Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Portugal Língua: Português Características da Anotação: Transcrição ortográfica textual; Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Alemão via Telemóvel	Smartphones	20 horas de áudio	Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Alemanha Língua: Alemão Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Italiano via Telemóvel	Smartphones	20 horas de áudio	Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Itália Língua: Italiano Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Espanhol via Telemóvel	Smartphones	20 horas de áudio	Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Espanha Língua: Espanhol Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Português Europeu via Telemóvel	Smartphones	20 horas de áudio	Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Portugal Língua: Português Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Japonês via Telemóvel	Smartphones	20 horas de áudio	Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Japão Língua: Japonês Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
20 Horas – Leitura e Fala Conversacional em Coreano via Telemóvel	Smartphones	20 horas de áudio	Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Coreia do Sul Língua: Coreano Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97%
10 Horas – Leitura e Fala Conversacional em Pashto via Telemóvel	Telemóvel	10 horas de áudio	Formato de Áudio: PCM com codificação A-law/μ-law, 8 kHz, 8 bits, mono Tipo de Conteúdo: Diálogos baseados em tópicos predefinidos Condições de Gravação: Ruído ambiente reduzido (interior) Dispositivos de Gravação: Smartphones Origem: Afeganistão Língua: Pashto (código ps-AF) Participantes: 224 locutores no total (92% do sexo masculino, 8% feminino) Características da Anotação: Transcrição textual, marca temporal, ID de locutor, género Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥95%
Competição Interspeech de Reconhecimento de Inglês com Variedades Acentuadas	Smartphones	200 horas de áudio 528 locutores	Formato de Áudio: WAV mono, 16 kHz, 16 bits Tipo de Conteúdo: Comunicação quotidiana, incluindo cenários práticos como interações humano-máquina Ambiente de Gravação: Ambientes interiores silenciosos, com gravação via telemóvel Duração: 20 horas por acentos (8 variedades no total) Variedades de Acento: Russo, Coreano, Americano, Português, Japonês, Indiano, Britânico ( 8 variedades no total) Número de participantes: 40 e 110 locutores por variedade

Nota: Solicite os conjuntos de dados de forma adequada ao seu domínio de investigação. O número máximo de pedidos para datasets de Visão por Computador é de seis conjuntos.

Note: Please apply for datasets reasonably according to the research field. The maximum number of applications for speech recognition datasets is 4 sets.

Dados Abertos para a Investigação Académica

Processo de Candidatura e Instruções

Candidatar-se a Dados Patrocinados

Instituição Parceira