3.506 Imagens - Dados de Anotação e Transcrição de OCR em Híndi

500,000 imagens de OCR de cenas naturais e documentos de múltiplos países

500,000 imagens OCR de idiomas diversos (chinês tradicional, japonês, coreano, indonésio, malaio, tailandês, vietnamita, polonês etc.), capturadas em cenários naturais com vários ângulos. Indicadas para tarefas de OCR multilíngue.

Cenas Naturais Documentos OCR

30,000 imagens de OCR em cenas naturais de idiomas minoritários do Sudeste Asiático

30,000 imagens OCR de idiomas menores do Sudeste Asiático (cambodja, lao, birmanês), em ambientes naturais e ângulos variados. Indicadas para OCR de idiomas minoritários.

OCR Idiomas do Sudeste Asiático Cenas Naturais

5,000 imagens de OCR em cenas naturais em turco

5,000 imagens OCR em turco, com texto de cenas naturais e múltiplos ângulos. As anotações fazem marcação de linhas em polígonos e transcrição. Indicadas para OCR de idiomas naturais.

OCR Turco Cenas Naturais

8,604 imagens de OCR de árabe em cenas naturais

8,604 imagens de OCR de árabe em cenas naturais, incluindo diversos tipos de ambientes e diferentes ângulos de captação. As anotações incluem quadros retangulares e transcrição por linha de texto, além de quadros poligonais e transcrição. Este conjunto pode ser utilizado para tarefas de OCR em língua árabe.

Dados de OCR em Árabe Conversão de Conteúdo por OCR Dados de OCR Conjunto de Dados de OCR Anotação de OCR Coleta de OCR Processamento de Dados de OCR Dados de Conversão por OCR

104.320 imagens de dados OCR de cenas naturais em coreano e hindi.

104,320 imagens de dados OCR (Reconhecimento Óptico de Caracteres) em cenas naturais de coreano e hindi. Os cenários de coleta incluem embalagens de produtos, cartazes, bilhetes, avisos, cardápios, placas de edifícios, entre outros. A Diversidade dos Dados abrange múltiplos cenários, diferentes ângulos de captura e variadas condições de iluminação. A distribuição dos idiomas inclui coreano, hindi e inglês (em pequena quantidade). Quanto à anotação, os dados são marcados com caixas poligonais (ou caixas quadriláteras ou retangulares) a nível de linha, transcrição do conteúdo da linha e atributos do texto (tipo de idioma); também são feitas marcações poligonais a nível de coluna, transcrição do conteúdo da coluna e atributos do texto (tipo de idioma). Este conjunto de dados OCR de cenas naturais em coreano e hindi pode ser usado para tarefas de OCR em cenas naturais nessas línguas.

Coreano Hindi Dados OCR Cena natural Dados de transliteração OCR

57,645 imagens de OCR de texto na vertical em cenários diversos

São 57,645 imagens de texto disposto na vertical em diferentes cenários. Os cenários de coleta incluem ruas, fachadas, letreiros, outdoors, cartazes, decorações, tipografias artísticas, capas de revistas, entre outros. A distribuição de idiomas é, na sua maioria, em chinês, com uma pequena quantidade em inglês. Na anotação, foram utilizadas caixas retangulares por coluna (caixas poligonais, caixas em formato de paralelogramo) e transcrição do conteúdo por coluna; para textos não verticais, há caixas retangulares (caixas poligonais, caixas em formato de paralelogramo) e transcrição do conteúdo não vertical. Este conjunto de dados pode ser usado para várias tarefas de OCR em cenários de texto na vertical.

Dados de OCR de cenas com texto vertical Dados de imagem OCR Dados de OCR Conjunto de dados de OCR Anotação OCR Recolha de OCR Processamento de dados OCR Reescrita de dados OCR

105.941 Imagens - Dados de OCR de Cenários Naturais em 12 Línguas

105.941 Imagens - Dados de OCR de Cenários Naturais em 12 Línguas abrangem 12 línguas incluindo 6 asiáticos e 6 europeus, recolhidos em vários cenários naturais e capturados de diveros ângulos. Com anotação por caixas delimitadores quadriláteras para textos a nível de linha e transcrição de conteúdo a nível de linha, este conjunto de dados aplica-se a tarefas como reconhecimento de OCR em múltiplas línguas.

Japonês Coreano Indonésio Malaio Vietnamita Tailandês Francês Alemão Italiano Português Russo Espanhol OCR cenários naturais múltiplos ângulos fotográficos anotação de caixas delimitadores quadriláteras para textos a nível de linha e transcrição para textos

4.995 Imagens - Dados de Anotação e Transcrição de OCR em Vietnamita

4.995 Imagens - Dados de Anotação e Transcrição de OCR em Vietnamita contêm 258 de cenários naturais, 2.553 imagens textuais de internet e 2.184 imagens de texto. Na anotação, este conjunto de dados está anotado por caixas delimitadores quadriláteras a nível de linha, transcrição de conteúdo a nível de linha, caixas delimitadores quadriláteras a nível de coluna vertical e transcrição de conteúdo a nível de coluna vertical. Este conjunto aplica-se a tarefas como reconhecimento de Vietnamita em múltiplos cenários e tradução por captura de imagem em Vietnamita.

Vietnamita OCR Imagens de Texto Imagens de Internet Cenários Naturais Múltiplos Ângulos Diferentes Condições de Iluminação Anotação de Caixa Delimitadora Quadrilátera Transcrição a Nível de Linha para Textos Transcrição a Nível de Coluna para Textos

3.506 Imagens - Dados de Anotação e Transcrição de OCR em Híndi

Hindi

OCR

Imagens de Texto

Imagens de Internet

Cenários Naturais

Múltiplos Ângulos

Diferentes Condições de Iluminação

Anotação de Caixa Delimitadora Quadrilátera

Transcrição a Nível de Linha para Textos

Transcrição a Nível de Coluna para Textos

Nível de maturidade do projeto

3.506 Imagens - Dados de Anotação e Transcrição de OCR em Híndi

Hindi OCR Imagens de Texto Imagens de Internet Cenários Naturais Múltiplos Ângulos Diferentes Condições de Iluminação Anotação de Caixa Delimitadora Quadrilátera Transcrição a Nível de Linha para Textos Transcrição a Nível de Coluna para Textos

Nível de maturidade do projeto

Hindi

OCR

Imagens de Texto

Imagens de Internet

Cenários Naturais

Múltiplos Ângulos

Diferentes Condições de Iluminação

Anotação de Caixa Delimitadora Quadrilátera

Transcrição a Nível de Linha para Textos

Transcrição a Nível de Coluna para Textos