[{"@type":"PropertyValue","name":"Formato","value":"16kHz, 16bit, mono, WAV"},{"@type":"PropertyValue","name":"Categorias de Conteúdo","value":"Conteúdo abrange variedades, entrevistas, diálogos, avaliações e outras áreas"},{"@type":"PropertyValue","name":"Características de Anotação","value":"Extração de sentenças válidas para anotação; resultado inclui horário de início e fim da sentença válida, identificação do falante e conteúdo textual"},{"@type":"PropertyValue","name":"Língua","value":"Português brasileiro"},{"@type":"PropertyValue","name":"Código de Região Linguística","value":"pt-BR"},{"@type":"PropertyValue","name":"País","value":"Brasil"},{"@type":"PropertyValue","name":"Cenário de Aplicação","value":"Reconhecimento de voz, geração de legendas, revisão de conteúdo"},{"@type":"PropertyValue","name":"Taxa de Precisão","value":"Precisão de palavras: 98%"}]
{"id":1334,"datatype":"1","titleimg":"https://pt.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"166","type2str":null,"dataname":"500 horas de dados de voz em português do Brasil — linguagem oral","datazy":[{"title":"Formato","desc":"Formato","content":"16kHz, 16bit, mono, WAV"},{"title":"Categorias de Conteúdo","desc":"Categorias de Conteúdo","content":"Conteúdo abrange variedades, entrevistas, diálogos, avaliações e outras áreas"},{"title":"Características de Anotação","desc":"Características de Anotação","content":"Extração de sentenças válidas para anotação; resultado inclui horário de início e fim da sentença válida, identificação do falante e conteúdo textual"},{"title":"Língua","desc":"Língua","content":"Português brasileiro"},{"title":"Código de Região Linguística","desc":"Código de Região Linguística","content":"pt-BR"},{"title":"País","desc":"País","content":"Brasil"},{"title":"Cenário de Aplicação","desc":"Cenário de Aplicação","content":"Reconhecimento de voz, geração de legendas, revisão de conteúdo"},{"title":"Taxa de Precisão","desc":"Taxa de Precisão","content":"Precisão de palavras: 98%"}],"datatag":"Portuguese,Casual Conversation,Monologue,Asr","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_12.wav","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_12.wav?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=mo76AesbDl2gicd7OyaN%2F7tGXjk%3D","intro":"Pelo Instituto Clay americano que convidou, é, várias sumidades matemáticas,","size":0,"progress":100,"type":"mp3"},{"name":"/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_20.wav","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_20.wav?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=F5S3RB7tT%2B1NW6fwwUFpXF2UhGc%3D","intro":"Aée o, há uma confusão na imprensa, há um culto à celebridade que Perelman rejeita.","size":0,"progress":100,"type":"mp3"},{"name":"/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_28.wav","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_28.wav?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=ed1fGL9ivoS94tU%2FxTs7wkFXBz8%3D","intro":"nos arredores de uma humilde cidade no interior do Paraná.","size":0,"progress":100,"type":"mp3"},{"name":"/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_24.wav","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_24.wav?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=IW3J7tCLsUVDRUgjEu4D4M%2BwPDM%3D","intro":"Eu acompanhei todo esse processo com grande perplexidade,","size":0,"progress":100,"type":"mp3"},{"name":"/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_4.wav","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230831004_demo1711101640948/100096_4.wav?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=IbAAWPfhRNeQqhs8GrcHP2unU7Y%3D","intro":"E quem aqui, tendo ganhado o prêmio da Mega-Sena, se recusaria a receber o dinheiro? Levante a mão.","size":0,"progress":100,"type":"mp3"}],"officialSummary":"Dados de voz em português do Brasil — linguagem oral. O conteúdo cobre áreas como mídia independente, conversas e transmissões ao vivo, refletindo situações reais de interação. O conjunto foi anotado com texto, identidade do locutor, gênero, entre outros atributos. Altamente preciso e de fácil uso, serve como recurso rico para pesquisas e aplicações em reconhecimento de fala. Validado por múltiplas empresas de IA, ajuda modelos a lidar melhor com a diversidade do mundo real. Todo o processo de coleta, armazenamento e uso dos dados segue as leis de proteção de dados e privacidade, conforme GDPR, CCPA e PIPL.","dataexampl":null,"datakeyword":["Português brasileiro"," Fala espontânea"," Anotação de texto"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"1013 Hours - Brazilian Portuguese Spontaneous Speech Data","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}
500 horas de dados de voz em português do Brasil — linguagem oral
Português brasileiro
Fala espontânea
Anotação de texto
Dados de voz em português do Brasil — linguagem oral. O conteúdo cobre áreas como mídia independente, conversas e transmissões ao vivo, refletindo situações reais de interação. O conjunto foi anotado com texto, identidade do locutor, gênero, entre outros atributos. Altamente preciso e de fácil uso, serve como recurso rico para pesquisas e aplicações em reconhecimento de fala. Validado por múltiplas empresas de IA, ajuda modelos a lidar melhor com a diversidade do mundo real. Todo o processo de coleta, armazenamento e uso dos dados segue as leis de proteção de dados e privacidade, conforme GDPR, CCPA e PIPL.
Este é um conjunto de dado pagos destinando a uso comercial, fins de investigação e otras finalidades. Conjunto de dados licenciado e pronto ajuda a acelerar projetos d IA.
Características
Formato
16kHz, 16bit, mono, WAV
Categorias de Conteúdo
Conteúdo abrange variedades, entrevistas, diálogos, avaliações e outras áreas
Características de Anotação
Extração de sentenças válidas para anotação; resultado inclui horário de início e fim da sentença válida, identificação do falante e conteúdo textual
Língua
Português brasileiro
Código de Região Linguística
pt-BR
País
Brasil
Cenário de Aplicação
Reconhecimento de voz, geração de legendas, revisão de conteúdo
Taxa de Precisão
Precisão de palavras: 98%
Amostra
Audio
Pelo Instituto Clay americano que convidou, é, várias sumidades matemáticas,
Audio
Aée o, há uma confusão na imprensa, há um culto à celebridade que Perelman rejeita.
Audio
nos arredores de uma humilde cidade no interior do Paraná.
Audio
Eu acompanhei todo esse processo com grande perplexidade,
Audio
E quem aqui, tendo ganhado o prêmio da Mega-Sena, se recusaria a receber o dinheiro? Levante a mão.