[{"@type":"PropertyValue","name":"Língua","value":"Indonésio, Malaio, Tailandês, Vietnamita"},{"@type":"PropertyValue","name":"Volume de Dados","value":"Indonésio 14.447,771 entradas, Malaio 1,239.420 entradas, Tailandês 6,467,564 entradas, Vietnamita 8,942,813 entradas, totalizando mais de 31 milhões de entradas"},{"@type":"PropertyValue","name":"Campos","value":"URL, título, data de publicação, conteúdo do artigo, categoria"},{"@type":"PropertyValue","name":"Formato","value":"Jsonl"}]
{"id":1625,"datatype":"1","titleimg":"https://pt.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"226","type1str":null,"type2":"227","type2str":null,"dataname":"31 milhões de textos de notícias em idiomas do Sudeste Asiático","datazy":[{"title":"Língua","desc":"Língua","content":"Indonésio, Malaio, Tailandês, Vietnamita"},{"title":"Volume de Dados","desc":"Volume de Dados","content":"Indonésio 14.447,771 entradas, Malaio 1,239.420 entradas, Tailandês 6,467,564 entradas, Vietnamita 8,942,813 entradas, totalizando mais de 31 milhões de entradas"},{"title":"Campos","desc":"Campos","content":"URL, título, data de publicação, conteúdo do artigo, categoria"},{"title":"Formato","desc":"Formato","content":"Jsonl"}],"datatag":"Minor languages,Southeast Asia,NEWS,Journalism","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"马来语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E9%A9%AC%E6%9D%A5%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=5rkbhwPKFeZUofOfpzcAP1%2B7Vas%3D","intro":"","size":44215,"progress":100,"type":"jpg"},{"name":"泰语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E6%B3%B0%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=1DspN1HLIWVpn%2FYfI6JAu0ZMbl0%3D","intro":"","size":103642,"progress":100,"type":"jpg"},{"name":"印尼语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E5%8D%B0%E5%B0%BC%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=VgoGApYUn6%2BChZRcnvN08SYI8cU%3D","intro":"","size":115113,"progress":100,"type":"jpg"}],"officialSummary":"Este conjunto de dados contém notícias multilíngues do Sudeste Asiático, abrangendo indonésio, malaio, tailandês e vietnamita. São mais de 31 milhões de registros, armazenados em formato JSONL, com cada linha sendo um registro independente para facilitar leitura e processamento. As fontes são diversas e cobrem temas amplos, refletindo com fidelidade as dinâmicas sociais, culturais e econômicas da região. O conjunto pode ajudar grandes modelos a aprimorar capacidades multilíngues e culturais, com aplicação em contextos do Sudeste Asiático e pesquisas interlinguísticas.","dataexampl":null,"datakeyword":["Línguas Minoritárias"," Sudeste Asiático"," Notícias"," Jornalismo"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"llm","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"31 million Southeast Asian language news text dataset","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"越南语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E8%B6%8A%E5%8D%97%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=HZvCPn1N1QW%2BocWDBvsxQJcoJzc%3D","intro":"","size":108698,"progress":100,"type":"jpg"}]}
31 milhões de textos de notícias em idiomas do Sudeste Asiático
Línguas Minoritárias
Sudeste Asiático
Notícias
Jornalismo
Este conjunto de dados contém notícias multilíngues do Sudeste Asiático, abrangendo indonésio, malaio, tailandês e vietnamita. São mais de 31 milhões de registros, armazenados em formato JSONL, com cada linha sendo um registro independente para facilitar leitura e processamento. As fontes são diversas e cobrem temas amplos, refletindo com fidelidade as dinâmicas sociais, culturais e econômicas da região. O conjunto pode ajudar grandes modelos a aprimorar capacidades multilíngues e culturais, com aplicação em contextos do Sudeste Asiático e pesquisas interlinguísticas.
Este é um conjunto de dado pagos destinando a uso comercial, fins de investigação e otras finalidades. Conjunto de dados licenciado e pronto ajuda a acelerar projetos d IA.
Características
Língua
Indonésio, Malaio, Tailandês, Vietnamita
Volume de Dados
Indonésio 14.447,771 entradas, Malaio 1,239.420 entradas, Tailandês 6,467,564 entradas, Vietnamita 8,942,813 entradas, totalizando mais de 31 milhões de entradas
Campos
URL, título, data de publicação, conteúdo do artigo, categoria