Please fill in your name

Mobile phone format error

Por favor, insira o telefone

Por favor, insira o nome da sua empresa

Por favor, insira o e-mail da sua empresa

Por favor, insira a solicitação de dados

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

A solicitação de dados não pode conter menos de 5 palavras nem conter apenas números

Início > Todos os Datasets por Categoria > Datasets para LLM > Dados de texto para segurança de conteúdo em modelos de linguagem grande

Dados de texto para segurança de conteúdo em modelos de linguagem grande

Dados de texto sobre considerações de segurança de conteúdo em grandes modelos de linguagem

LLM

Modelo de linguagem de grande escala

Modelo Grande

Dados do ChatGPT

Dados de segurança de conteúdo para grandes modelos de linguagem, com cerca de 570.000 conjuntos de textos. Este conjunto pode ser utilizado para o treinamento de LLMs (modelos de linguagem de grande escala), como o ChatGPT.

Este é um conjunto de dado pagos destinando a uso comercial, fins de investigação e otras finalidades. Conjunto de dados licenciado e pronto ajuda a acelerar projetos d IA.

Características

Conteúdo dos Dados

Dados de instruções de segurança de conteúdo para grandes modelos

Escala dos Dados

Aproximadamente 570,000 pares de perguntas e respostas; cobrindo 31 categorias da Administração do Ciberespaço da China + outras categorias adicionais

Tipo dos Dados

Total de 41 categorias

Método de Recolha

Elaborado por anotadores profissionais

Formato de Armazenamento

Excel

Língua

Chinês

Amostra

Conjuntos de Dados Recomendados

50,000 conjuntos de dados de edição de imagem

50,000 conjuntos de dados de edição de imagem. Tipos de edição: remover, adicionar, modificar ou substituir objetos (pessoas, animais, produtos, plantas, paisagens). As anotações incluem recorte do alvo e a ação realizada. Indicadas para síntese de imagem e geração de cenários virtuais.

Edição de Imagem

480 mil pares de textos corrigidos em alemão, espanhol, francês, italiano e outros idiomas

Conjunto de dados de correção de texto em quatro principais idiomas europeus Foco em francês, alemão, espanhol e italiano. Contém 480,000 pares de textos originais e corrigidos. Cada entrada é apresentada em formato JSON, com os campos input (texto original) e output (texto corrigido). Pode ser usado para tarefas de processamento de linguagem natural, tradução automática e ensino de línguas.

Alemão Francês Espanhol Italiano Revisão

100 mil pares de textos com instruções complexas para ajuste fino SFT em chinês em domínio geral

100,000 pares de prompts complexos em chinês, com tamanho entre 50 e 400 caracteres. Cada prompt contém pelo menos três restrições, sendo usados para treinar a capacidade de seguimento de instruções em grandes modelos. As categorias incluem: Geração: redação de artigos, roteiros de entrevista, criação de textos publicitários, revisão de manuscritos, redação em inglês e chinês, aprendizagem gramatical, relatórios de pesquisa, planos de estudo, poesia, descrições culinárias, anúncios, scripts de vendas, escrita e revisão de documentos oficiais, perguntas e respostas sobre políticas públicas; Reescrita: reformulação de frases, correção de texto, combinação de sentenças, simplificação de conteúdo; Resumo: resumo de conteúdo; Extração: extração de elementos de eventos, opiniões, palavras-chave, posições, entidades. Todos os prompts foram escritos manualmente, com ampla variedade.

LLM Instruções SFT

Informe-nos das Suas Necessidades Específicas

Nível de maturidade do projeto

Fase inicial de exploração (sem especificações concretas)

Objetivos definidos, necessidade de orientação profissional

Fase de desenvolvimento ou otimização

Especialistas em dados e rotulagem com especificações claras

Nome Completo *

Telefone de Contacto*

Nome da Empresa *

E-mail Corporativo *

Requisitos de dados *

Ao submeter, declaro aceitação do Acordo de Licença de Dados

Submeter

Subscreva a Nossa Newsletter

Seja o primeiro a receber os últimos lançamentos de produtos, soluções de dados e novidades empresariais da Nexdata.

Datasets Pré-Processados: Todos os Datasets por Categoria; Datasets para LLM; Datasets para Visão Computacional; Datasets para ASR; Datasets para TTS; Datasets para OCR; Dicionário de Pronúncia; Datasets para NLU

Serviços de Dados: Dados de 3D PCD; Dados de Vista de Rua; Dados para OCR; Dados para Comportamento; Dados para Identidade; Dados para ASR; Dados para Síntese de Fala; Dados Multimodais

Setores: Embodied AI; IA Generativa; Veículos Autónomos; RA e RV; IA Conversacional; Casa Inteligente; Retalho; Cuidados de Saúde Inteligentes

Empresa: Sobre Nós; Notícias; Parceiros; Qualidade & Segurança; Eventos
Ligações Úteis: OPENMPD; DataPlus; Datarade

Plataforma: Plataforma
Competição: Competição
Recursos: Datasets Patrocinados

Aprimore a Sua IA com Dados de Alta Qualidade

+1(626)594-5598

[email protected]

Mapa do Site Termos e Condições

Utilizamos cookies para melhorar a sua experiência de navegação, apresentar anúncios ou conteúdos personalizados e analisar o tráfego do nosso website. Ao clicar em “Aceitar Todos”, concorda com a utilização de cookies.

6c70c545-836f-4197-8627-36a3d8680a2f

2b07fb9b-3f97-4cb7-9487-a35c689c6438

Dados de texto para segurança de conteúdo em modelos de linguagem grande

Dados de texto sobre considerações de segurança de conteúdo em grandes modelos de linguagem LLM Modelo de linguagem de grande escala Modelo Grande Dados do ChatGPT

Dados de segurança de conteúdo para grandes modelos de linguagem, com cerca de 570.000 conjuntos de textos. Este conjunto pode ser utilizado para o treinamento de LLMs (modelos de linguagem de grande escala), como o ChatGPT.

Nível de maturidade do projeto

Dados de texto sobre considerações de segurança de conteúdo em grandes modelos de linguagem

LLM

Modelo de linguagem de grande escala

Modelo Grande

Dados do ChatGPT