| Nome de Conjunto de Dados | Tipos de Dados | Volume de Dados | Conteúdo Recolhido |
| Legendas de 1.000 Imagens de OCR em Cenários Naturais | Imagem | 1.000 Imagens | Recolhe metadados de legenda para imagens de cenários diversificados, tais como paisagens, ruas, exposições e interiores. Cada imagem integra uma descrição em inglês, tendo cada uma entre 3 a 5 frases. |
| Legendas de 1.000 Imagens com OCR em Cenários Reais | Imagem | 1.000 Imagens | É composto por legendas contendo texto OCR em 14 idiomas, provenientes de imagens de cenários do mundo real, tais como paradas de ônibus, cartazes e sinalização. Cada imagem integra uma descrição em inglês, tendo cada uma entre 3 a 5 frases. |
| Legendas de 1.000 Imagens de Rosto Humano | Imagem | 1.000 Imagens | Regista metadados de legenda para imagens de rostos, com variações em ângulos e expressões faciais. Sendo cada uma delas descrita em inglês por um conjunto de 3 a 5 frases. |
| Legendas de 1.000 Imagens de Gestos | Imagem | 1.000 Imagens | Conjunto de dados composto por legenda de imagens de gestos captados sob diferentes ângulos e pertencentes a várias categorias gestuais.Cada imagem é acompanhada por uma descrição em inglês, composta por 3 a 5 frases. |
| Legenda de 1.000 Imagens de Imperfeições Cutâneas no Rosto Humano | Imagem | 1.000 Imagens | Conjunto de dados de imperfeições cutâneas faciais, incluindo acne, marcas de acne, manchas escuras, rugas e olheiras. |
| Legenda de 1.000 Vídeos de Movimentos do Corpo Humano | Vídeo | 1.000 vídeos | Conjunto de dados composto por legendas de vídeos de movimentos do corpo humano em contextos com e se câmaras de videovigilância (CCTV). Os movimentos incluem caminhar, beber, bocejar, fazer exercício, etc. Cada vídeo é acompanhado por uma legenda em inglês. |
| Reconhecimento de Sete Expressões Faciais em 1.000 Pessoas de Diferentes Etnias | Imagem | 1.000 pessoas | Conjunto de dados com imagens faciais representando sete expressões distintas: neutra, feliz, surpresa, tristeza, raiva, nojo e medo. |
| Microexpressões Faciais (FACS) em 1.000 Vídeos de Pessoas de Diferentes Etnias | Vídeo | 1.000 vídeos | Conjunto de dados com 57 microexpressões faciais, incluindo elevação interna das sobrancelhas (AU1), elevação externa das sobrancelhas (AU2), elevação da pálpebra superior (AU5), etc. |
| 50 pessoas – Conjunto de Dados DMS | Vídeo | 500 pessoas | Conjunto de dados para sistemas de monitorização do condutor (DMS) inclui comportamentos perigosos, sinais de fadiga e padrões de movimento visual. Esse conjunto apresenta uma diversidade significativa, incluindo várias faixas etárias dos participantes, diferentes períodos do dia, distintos tipos de veículos e múltiplas posições de câmara. |
| 50 Pessoas – Conjunto de Dados 2D para Deteção de Fraudes Faciais | Imagem e Vídeo | 500 pessoas | Conjunto de dados 2D para deteção de fraudes faciais. Os dados reais incluem vídeos de expressões faciais, imagens faciais e vídeos de leitura labial. Os dados de falsificação incluem vídeos simulados de expressões faciais, vídeos falsos de leitura labial e imagens faciais falsificadas. |
| Conjunto de Dados de Reconhecimento de Gestos | Imagem | 1.000 Imagens | Conjunto de dados de reconhecimento de gestos possui dezoito categorias distintas. As categorias incluem gesto como “número 1”, “OK”, “AMOR”, etc. Para a anotação do conjunto de dados, foram utilizados vinte e um pontos de referência (landmarks) da mão, bem como múltiplas etiquetas de gestos por imagem. |
| Conjunto de Dados de OCR em Cenas Naturais | Imagem | 3.000 Imagens | Conjunto de Dados de OCR em cenas naturais possui textos em línguas asiáticas (como japonês e coreano) e europeias (como francês e alemão). Para a anotação, foram utilizadas caixas delimitadoras quadriláteras a nível de linha, acompanhadas da transcrição correspondente dos textos. |
| Conjunto de Dados de OCR de Escrita à Mão | Imagem | 500 imagens | Conjunto de dados de OCR de escrita à mão em inglês e japonês. Para a anotação, foram utilizadas caixas delimitadoras quadriláteras a nível de linha, acompanhadas da transcrição dos textos. |
| 50 Pessoas – Conjunto de Dados para Deteção de Fraudes Faciais | Imagem | 500 pessoas | Conjunto de Dados para Deteção de Fraudes Faciais. Os dados de rostos reais incluem imagens faciais autênticas, enquanto os dados para deteção contêm imagens faciais falsas. Cada imagem está associada a uma imagem de profundidade, um ficheiro com valores de profundidade e um ficheiro com os parâmetros da câmara. |
| Conjunto de Dados de Imagens Faciais Multirraciais e em Múltiplas Poses | Imagem | 1.000 pessoas | Conjunto de dados de reconhecimento facial com diversidade racial. Cada indivíduo possui vinte e nove imagens faciais: catorze em ambientes interiores em múltiplas poses, catorze em ambientes exteriores com múltiplas poses e uma imagem de identificação. As anotações incluem informações sobre raça, género, idade e pose facial. |
| Nome de Conjunto de Dados | Dispositivo de Gravação | Volume de Dados | Características |
| Corpus de Síntese de Fala em Inglês – 4 Países, 2 Hora | Microphone | 2 horas de áudio (4 locutores) | Locutores: 4 falantes nativos (EUA, Reino Unido, Austrália, Nova Zelândia) Formato de Áudio: WAV não comprimido Parâmetros Técnicos: 48 kHz, 24 bits, mono Ambiente de Gravação: Estúdio profissional acusticamente tratado |
| 20 Horas – Leitura e Fala Conversacional em Português via Telemóvel | Smartphones | 20 horas de áudio | Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem reverberação Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Portugal Língua: Português Características da Anotação: Transcrição ortográfica textual; Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97% |
| 20 Horas – Leitura e Fala Conversacional em Alemão via Telemóvel | Smartphones | 20 horas de áudio | Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Alemanha Língua: Alemão Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97% |
| 20 Horas – Leitura e Fala Conversacional em Italiano via Telemóvel | Smartphones | 20 horas de áudio | Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Itália Língua: Italiano Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97% |
| 20 Horas – Leitura e Fala Conversacional em Espanhol via Telemóvel | Smartphones | 20 horas de áudio | Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Espanha Língua: Espanhol Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97% |
| 20 Horas – Leitura e Fala Conversacional em Português Europeu via Telemóvel | Smartphones | 20 horas de áudio | Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Portugal Língua: Português Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97% |
| 20 Horas – Leitura e Fala Conversacional em Japonês via Telemóvel | Smartphones | 20 horas de áudio | Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Japão Língua: Japonês Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97% |
| 20 Horas – Leitura e Fala Conversacional em Coreano via Telemóvel | Smartphones | 20 horas de áudio | Formato de Áudio: WAV não comprimido, 16 kHz, 16 bits, mono Condições de Gravação: Ruído ambiente reduzido (interior), sem eco Tipo de Conteúdo: Leitura e diálogos conversacionais Dispositivos de Gravação: Smartphones Android e iPhone Origem: Coreia do Sul Língua: Coreano Características da Anotação: Transcrição textual completa Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥97% |
| 10 Horas – Leitura e Fala Conversacional em Pashto via Telemóvel | Telemóvel | 10 horas de áudio | Formato de Áudio: PCM com codificação A-law/μ-law, 8 kHz, 8 bits, mono Tipo de Conteúdo: Diálogos baseados em tópicos predefinidos Condições de Gravação: Ruído ambiente reduzido (interior) Dispositivos de Gravação: Smartphones Origem: Afeganistão Língua: Pashto (código ps-AF) Participantes: 224 locutores no total (92% do sexo masculino, 8% feminino) Características da Anotação: Transcrição textual, marca temporal, ID de locutor, género Precisão de Anotação: Taxa de Precisão de Palavras (WAR) ≥95% |
| Competição Interspeech de Reconhecimento de Inglês com Variedades Acentuadas | Smartphones | 200 horas de áudio 528 locutores | Formato de Áudio: WAV mono, 16 kHz, 16 bits Tipo de Conteúdo: Comunicação quotidiana, incluindo cenários práticos como interações humano-máquina Ambiente de Gravação: Ambientes interiores silenciosos, com gravação via telemóvel Duração: 20 horas por acentos (8 variedades no total) Variedades de Acento: Russo, Coreano, Americano, Português, Japonês, Indiano, Britânico ( 8 variedades no total) Número de participantes: 40 e 110 locutores por variedade |
Nota: Solicite os conjuntos de dados de forma adequada ao seu domínio de investigação. O número máximo de pedidos para datasets de Visão por Computador é de seis conjuntos.
Note: Please apply for datasets reasonably according to the research field. The maximum number of applications for speech recognition datasets is 4 sets.