en

Please fill in your name

Mobile phone format error

Por favor, insira o telefone

Por favor, insira o nome da sua empresa

Por favor, insira o e-mail da sua empresa

Por favor, insira a solicitação de dados

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

A solicitação de dados não pode conter menos de 5 palavras nem conter apenas números

Programa do Workshop MLC-SLM

Data e Local: 22 de agosto, Dock 14 – Centro de Convenções Rotterdam Ahoy

Horário Atividade
8:30-9:00
Retirada de crachás
9:00-10:00
Palestra principal 1: Shinji Watanabe Escalando o Reconhecimento de Fala Multilíngue: De Poucas para Milhares de Línguas
10:00-10:30
Pausa para Café
10:30-11:00
Resumo do Desafio + Cerimônia de Premiação
11:00-12:00
Sessão Oral:
1.Submissão da Seewo ao MLC-SLM: Lições Aprendidas com Modelos de Linguagem de Raciocínio de Fala, Palestrante: Bo Li
2.Sistema Multilíngue de Reconhecimento de Fala da Transsion para o Desafio MLC-SLM 2025, Palestrante: Xiaoxiao Li
3.Triple X: Um Sistema de Reconhecimento de Fala Multilíngue Baseado em LLM para o Desafio INTERSPEECH2025 MLC-SLM, Palestrante: Miaomiao Gao
4.O Sistema TEA-ASLP para Reconhecimento de Fala Conversacional Multilíngue e Diarização de Fala no Desafio MLC-SLM 2025, Palestrante: Hongfei Xue
12:00-13:00
Intervalo para Almoço
13:00-14:00
Palestra principal 2: Hung-yi Lee Avanços em Modelos de Linguagem Falada
14:00-14:30
Sessão Oral:
1.ILT: Treinamento Iterativo de LoRA através de Foco–Feedback–Correção para Reconhecimento de Fala Multilíngue, Palestrante: Qingliang Meng
2.Sistema BUT para o Desafio MLC-SLM, Palestrante: Alexander Polok
14:30-15:00
Pausa para Café
15:00-15:30
Palestra Convidada 1: Ming Li Diarização Neural Sequência-a-Sequência em Cenários Online e Multimodais
15:30-16:00
Palestra Convidada 2: Shuai Wang Um Único Embedding Não Serve para Todos: Repensando a Modelagem de Falantes para Diferentes Aplicações de Fala
16:00-16:30
Palestra Convidada 3: Pan Pan Além da Escassez de Dados: Engenhando Pipelines de Dados com Foco em Qualidade em Diferentes Estágios de Treinamento
16:30-17:30
Sessão de Pôsteres
Canais de Inscrição no Workshop:Inscrição Oficial via Interspeech: (Selecione Workshop sobre Modelos de Linguagem de Fala Conversacional Multilíngue)Clique no link
Canal de Inscrição Presencial: Clique no link
Taxa de Inscrição: €50 Os participantes inscritos terão direito a pausas para café e um almoço no dia do workshop.
Observação: Para participantes que se inscreverem pelo canal presencial, o pagamento deverá ser feito em dinheiro no local.
Palestra Principal 1
Shinji Watanabe, Professor Associado, Universidade Carnegie Mellon
Escalando o Reconhecimento de Fala Multilíngue: De Poucas para Milhares de Línguas
Shinji Watanabe é Professor Associado na Universidade Carnegie Mellon, em Pittsburgh, Pensilvânia (EUA). Ele obteve os títulos de Bacharel, Mestre e Doutor em Engenharia pela Universidade de Waseda, em Tóquio, Japão. Atuou como pesquisador no NTT Communication Science Laboratories, em Kyoto, Japão, de 2001 a 2011; foi pesquisador visitante no Georgia Institute of Technology, em Atlanta, EUA, em 2009; e pesquisador principal sênior no Mitsubishi Electric Research Laboratories (MERL), em Cambridge, Massachusetts, EUA, de 2012 a 2017. Antes de ingressar na Carnegie Mellon University, foi Professor Associado de Pesquisa na Universidade Johns Hopkins, em Baltimore, EUA, de 2017 a 2020. Seus interesses de pesquisa incluem reconhecimento automático de fala, aprimoramento de fala, compreensão de linguagem falada e aprendizado de máquina aplicado ao processamento de fala e linguagem. Ele publicou mais de 500 artigos em revistas e conferências revisadas por pares e recebeu diversos prêmios, incluindo o Prêmio de Melhor Artigo da ISCA Interspeech em 2024. É Editor Sênior de Área do IEEE Transactions on Audio, Speech and Language Processing e membro de vários comitês técnicos, como o APSIPA Speech, Language, and Audio Technical Committee (SLA), o IEEE Signal Processing Society Speech and Language Technical Committee (SLTC) e o Machine Learning for Signal Processing Technical Committee (MLSP). É Fellow do IEEE e da ISCA.
Palestra Principal 2
Hung-yi Lee, Professor, Universidade Nacional de Taiwan
Avanços em Modelos de Linguagem Falada
Hung-yi Lee é Professor do Departamento de Engenharia Elétrica da Universidade Nacional de Taiwan (NTU), com nomeação conjunta no Departamento de Ciência da Computação e Engenharia da Informação da mesma universidade. Sua pesquisa recente concentra-se no desenvolvimento de tecnologias que reduzam a necessidade de dados anotados para o processamento de fala (incluindo conversão de voz e reconhecimento de fala) e processamento de linguagem natural (incluindo sumarização abstrativa e perguntas e respostas). Ele recebeu diversos prêmios, entre eles: Salesforce Research Deep Learning Grant (2019), AWS ML Research Award (2020), Prêmio de Jovem Engenheiro Destaque do Instituto Chinês de Engenharia Elétrica (2018), Prêmio de Inovação Jovem Pesquisador da Fundação para o Avanço da Excelência Acadêmica (2019), Prêmio Memorial Ta-You Wu do Ministério da Ciência e Tecnologia de Taiwan (2019) e o 59º Prêmio das Dez Personalidades Jovens de Destaque de Taiwan na área de Pesquisa e Desenvolvimento em Ciência e Tecnologia. Ele também é conhecido por seu canal no YouTube sobre tecnologia de aprendizado profundo, apresentado em mandarim, com mais de 300.000 inscritos.
Palestra Convidada 1
Ming Li, Professor, Universidade Duke Kunshan
Diarização Neural Sequência-a-Sequência em Cenários Online e Multimodais
Ming Li obteve seu Ph.D. em Engenharia Elétrica pela Universidade do Sul da Califórnia (USC) em 2013. Atualmente, é Professor de Engenharia Elétrica e de Computação na Divisão de Ciências Naturais e Aplicadas e Pesquisador Principal no Centro de Pesquisa em Inovação Digital da Universidade Duke Kunshan. Também é Professor Adjunto na Escola de Ciência da Computação da Universidade de Wuhan. Seus interesses de pesquisa abrangem as áreas de áudio, fala e processamento de linguagem, bem como análise e interpretação de sinais comportamentais multimodais. Publicou mais de 200 artigos científicos e atuou como membro dos comitês técnicos de fala e linguagem do IEEE e da APSIPA. Foi area chair em diversas edições do Interspeech (2016, 2018, 2020, 2024, 2025), SLT 2022 e ASRU 2025, além de co-presidente do programa técnico no Odyssey 2022 e ASRU 2023. É membro do conselho editorial das revistas IEEE Transactions on Audio, Speech and Language Processing, Computer Speech and Language e APSIPA Transactions on Signal and Information Processing.Trabalhos coautoriais com seus colegas receberam primeiros prêmios em múltiplos desafios internacionais, incluindo Interspeech Computational Paralinguistic Challenges (2011, 2012, 2019), ASRU 2019 MGB-5 ADI Challenge, Interspeech 2020 e 2021 Fearless Steps Challenges, VoxSRC 2021–2023, ICASSP 2022 M2MeT Challenge, IJCAI 2023 ADD Challenge, ICME 2024 ChatCLR Challenge e Interspeech 2024 AVSE Challenge.Como coautor, recebeu o Prêmio de Melhor Artigo no DCOSS 2009 e ISCSLP 2014, além de estar entre os finalistas do Melhor Artigo do Interspeech 2024. Recebeu o Prêmio IBM Faculty Award (2016), o Prêmio de Melhor Artigo de 5 Anos da Revista Computer Speech and Language da ISCA (2018) e o Prêmio Jovem Pesquisador em Realizações Científicas de Destaque da Educação Superior Chinesa (2020). É membro sênior do IEEE.
Palestra Convidada 2
Shuai Wang, Professor Associado, Universidade de Nanjing
Um Único Embedding Não Serve para Todos: Repensando a Modelagem de Falantes para Diferentes Aplicações de Fala
Shuai Wang é Professor Associado (tenure-track) na Universidade de Nanjing e membro adjunto do corpo docente da Universidade Chinesa de Hong Kong, Shenzhen (CUHK-SZ). Ele obteve seu Ph.D. pela Universidade Shanghai Jiao Tong em 2020 e o Bacharelado em Ciências pela Universidade Politécnica do Noroeste (Northwestern Polytechnical University) em 2014. O Dr. Wang publicou mais de 60 artigos sobre modelagem de falantes e recebeu vários reconhecimentos, incluindo o IEEE Ramaswamy Grant no ICASSP 2018, além do primeiro lugar nos desafios VoxSRC 2019 e DIHARD 2019. É o criador dos projetos de código aberto WeSpeaker e WeSep, amplamente adotados tanto pela academia quanto pela indústria.
Palestra Convidada 3
Pan Pan, Diretora de Negócios de IA, Nexdata
Além da Escassez de Dados: Engenharia de Pipelines de Dados com Foco em Qualidade em Diferentes Estágios de Treinamento
Pan Pan é uma líder visionária e arquiteta operacional na Nexdata, com mais de uma década de experiência em dados para inteligência artificial. Ela lidera equipes de elite responsáveis por entregar soluções completas para LLM, GenAI e modelos tradicionais de IA. Ao longo de sua carreira, Pan executou com sucesso mais de 1000 projetos, integrando coleta de dados multisensoriais em escala global, anotação automatizada por IA e uma plataforma unificada que otimiza todo o pipeline de dados de treinamento, priorizando qualidade e eficiência em cada etapa do processo.

Reprises das Palestras do Workshop MLC-SLM

Palestras em Destaque

Perdeu as sessões ao vivo? Agora você pode acompanhar as palestras inspiradoras do Workshop do Desafio MLC-SLM. Os links para reprise estão disponíveis abaixo.

  • Shinji Watanabe (Universidade Carnegie Mellon)

    Topic: Escalando o Reconhecimento de Fala Multilíngue: De Algumas para Milhares de Línguas

    [Assistir à Reprise]

  • Hung-yi Lee (Universidade Nacional de Taiwan)

    Topic: Ensinando Modelos de Linguagem de Grande Escala (LLM) a Ouvir e Falar

    [Assistir à Reprise]

  • Ming Li  (Universidade Duke Kunshan)

    Topic: Diarização Neural Sequência-a-Sequência em Cenários Online e Multimodais

    [Assistir à Reprise]

  • Shuai Wang (Universidade de Nanjing)

    Topic: Um Único Embedding Não Serve para Todos: Repensando a Modelagem de Falantes para Diferentes

    [Assistir à Reprise]

  • Pan Pan (Diretora de Negócios de IA, Nexdata)

    Topic: Além da Escassez de Dados: Engenharia de Pipelines de Dados com Foco em Qualidade em Diferentes Estágios de Treinamento

    [Assistir à Reprise]

Mantenha-se Atualizado

Siga-nos no LinkedIn e no YouTube para conferir as últimas reprises e destaques.

[Seguir no LinkedIn]

[Inscrever-se no YouTube]

Observações

Para consultas de mídia ou solicitações de autorização, entre em contato: [email protected]

Motivação

Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em diversas tarefas de processamento de linguagem, atuando como poderosos modelos fundamentais para compreensão e geração de texto. Recentemente, tem havido um interesse crescente na aplicação dos LLMs em tarefas de processamento de fala e áudio, incluindo Reconhecimento Automático de Fala (ASR), Geração de Legendas de Áudio (Audio Captioning) e áreas emergentes como Modelos de Diálogo Falado.

No entanto, o desenvolvimento de modelos de diálogo falado baseados em LLM robustos depende fortemente de dados reais de fala conversacional, que capturam a complexidade da comunicação humana — incluindo pausas naturais, interrupções, sobreposição de falas e estilos conversacionais diversos. A escassez desse tipo de dado, especialmente em contextos multilíngues, representa um desafio significativo para o avanço da área.

A importância da fala conversacional do mundo real vai além do progresso tecnológico: ela é essencial para a construção de sistemas de IA capazes de compreender e responder de forma natural em ambientes multilíngues, dinâmicos e ricos em contexto. Isso é especialmente crucial para os sistemas de interação humano-IA de próxima geração, nos quais o diálogo falado serve como principal modo de comunicação.

Dessa forma, este desafio e workshop têm como objetivo reduzir essa lacuna por meio da realização do desafio de construção de Modelos de Linguagem de Fala Conversacional Multilíngue (MLC-SLM) e da disponibilização de um conjunto de dados reais de fala conversacional multilíngue.

Configuração das Tarefas e Avaliação

O desafio consiste em duas tarefas, ambas voltadas para o desenvolvimento de Modelos de Linguagem de Fala (SLMs):

Tarefa I: Reconhecimento de Fala Conversacional Multilíngue

Objetivo: Desenvolver um modelo de ASR multilíngue baseado em LLM.

Os participantes receberão segmentação de fala e rótulos de locutores (speaker labels) previamente definidos para cada conversa (oracle segmentation).

O foco dessa tarefa é otimizar a precisão do reconhecimento em um cenário conversacional multilíngue.

Tarefa II: Diarização e Reconhecimento de Fala Conversacional Multilíngue

Objetivo: Desenvolver um sistema que realize diarização de locutores (identificação de quem está falando e quando) e reconhecimento de fala (transcrição de áudio em texto).

Nenhuma informação prévia (oracle information) será fornecida durante a avaliação — ou seja, não haverá segmentações pré-definidas nem rótulos de locutores.

Serão aceitos tanto sistemas baseados em pipeline quanto sistemas de ponta a ponta (end-to-end), oferecendo flexibilidade de design e implementação.

Para a Tarefa I, o desempenho dos sistemas será avaliado com base no Word Error Rate (WER) ou Character Error Rate (CER) em diferentes idiomas.

Para a Tarefa II, a avaliação será feita a partir da Diarization Error Rate (DER) e do tcpWER/tcpCER (concatenated minimum permutation WER/CER). O DER é usado para determinar a melhor correspondência entre as identificações de locutores (IDs) previstas e as anotações de referência. Em seguida, as transcrições e referências de um mesmo locutor são concatenadas para o cálculo do tcpWER ou tcpCER. Todas as submissões serão classificadas com base no tcpWER ou tcpCER.

Datas Importantes (Horário AOE)

    10 de março de 2025: Abertura das inscrições

    15 de março de 2025: Liberação dos dados de treinamento

    1º de abril de 2025: Liberação do conjunto de desenvolvimento (development set) e do sistema baseline

    15 de maio de 2025: Liberação do conjunto de avaliação (evaluation set) e abertura do leaderboard

    30 de maio de 2025: Congelamento do leaderboard e abertura do portal de submissão de artigos (sistema CMT)

    15 de junho de 2025: Prazo final para submissão de artigos

    1º de julho de 2025: Notificação de aceitação

    22 de agosto de 2025: Data do workshop

Descrição do Conjunto de Dados

Conjunto de Treinamento

O conjunto de treinamento (Train) é composto por aproximadamente 11 idiomas: Inglês (en), Francês (fr), Alemão (de), Italiano (it), Português (pt), Espanhol (es), Japonês (jp), Coreano (ko), Russo (ru), Tailandês (th), Vietnamita (vi).

    Cada gravação consiste em fala conversacional entre dois interlocutores, com temas atribuídos aleatoriamente.

    As conversas são naturais e fluidas, com trocas significativas entre os falantes.

    As gravações foram feitas em ambientes internos silenciosos, usando dispositivos como iPhones.

    Cada gravação inclui segmentação e rótulos de locutores (oracle segmentation and speaker labels) para o desenvolvimento de sistemas de reconhecimento de fala e diarização de locutores.

    As Tarefas I e II compartilham o mesmo conjunto de treinamento.

    O conjunto em inglês contém aproximadamente 500 horas de gravações de várias regiões (Reino Unido, EUA, Austrália, Índia e Filipinas). Cada um dos demais idiomas contribui com cerca de 100 horas, totalizando aproximadamente 1500 horas de dados multilíngues de fala conversacional.

Esse conjunto de dados foi projetado para oferecer um recurso robusto para o treinamento e avaliação de Modelos de Linguagem de Fala Conversacional Multilíngue (MLC-SLM), abordando desafios de diversidade linguística, variação entre falantes e compreensão contextual.

Idioma Volume (h) Classificação Taxa de Amostragem Descrição
Inglês 500 Cobre 5 sotaques diferentes (EUA, Reino Unido, Filipinas, Austrália e Índia). Diversidade de gêneros e idades, estilo de conversação natural. Taxa de erro de palavra < 2%.
100 Inglês Americano 16K
100 Inglês Britânico 16K
100 Inglês Filipino 16K
100 Inglês Australiano 16K
100 Inglês Indiano 16K
Francês 100 16k Gravado em celular, com tópicos familiares. Conversa natural entre falantes de diferentes gêneros e idades. WER < 2%.
Alemão 100 16k Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%.
Italiano 100 16k Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%.
Japonês 100 16k Gravado em celular. Conversas naturais e fluidas. Taxa de erro de sentença < 5%.
Coreano 100 16k Gravado em celular. Conversas naturais e fluidas. Taxa de erro de sentença < 5%.
Português (Europa) 100 16k Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%.
Russo 100 16k Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%.
Espanhol (Espanha) 100 16k Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%.
Tailandês 100 16k Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 3%.
Vietnamita 100 16k Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%.

Conjunto de Desenvolvimento

O conjunto de desenvolvimento (Dev) possui a mesma configuração do conjunto de treinamento, contendo aproximadamente 4 horas de gravações para cada idioma. Tanto a Tarefa I quanto a Tarefa II utilizam o mesmo conjunto de desenvolvimento.

Conjunto de Avaliação

São utilizados diferentes conjuntos de avaliação para cada tarefa, denominados Eval_1 e Eval_2:
Eval_1: Inclui carimbos de tempo oráculos e rótulos de falante, sendo avaliado por meio da Taxa de Erro de Palavras (WER) ou Taxa de Erro de Caracteres (CER).
Eval_2: Não fornece carimbos de tempo nem rótulos de falante, exigindo que o participante utilize um sistema de diarização de falantes (SD) para segmentar as gravações longas antes do reconhecimento. Acesso ao Conjunto de Dados
Os participantes podem acessar o conjunto de dados assinando o Acordo de Uso de Dados e enviando o Formulário de Registro. Após o envio, o link para download será enviado por e-mail.

Acesso Open-Source

Você pode acessar e baixar o conjunto de dados de avaliação open-source através do link fornecido abaixo. É necessário preencher um breve formulário de registro antes do download. Após a aprovação, o link para download será enviado por e-mail em até 7 dias.

Requisito de Citação

Se você utilizar este conjunto de dados em sua pesquisa pessoal ou acadêmica, é obrigatório reconhecer e citar a fonte adequadamente.

[ Formulário de Registro – Solicitar Conjunto de Dados Patrocinado – Baixar Conjunto de Avaliação]

Regras

Todos os participantes devem seguir as regras abaixo para serem elegíveis no desafio.

Uso de Recursos Externos: Para ambas as tarefas (Track I e Track II), é permitido o uso de conjuntos de dados e modelos pré-treinados externos (incluindo speech foundation models e LLMs). Todos os recursos externos utilizados devem ser livremente acessíveis a qualquer grupo de pesquisa e declarados claramente no relatório final do sistema.
Aumento de Dados (Data Augmentation): É permitido aplicar técnicas de aumento de dados no conjunto de treinamento disponibilizado, incluindo, mas, não se limitando a, adição de ruído, reverberação, perturbação de velocidade e modificação de tom.
Proibição de Uso Indevido dos Conjuntos de Avaliação: É estritamente proibido utilizar os conjuntos de avaliação para treinamento, ajuste fino (fine-tuning) ou qualquer forma de desenvolvimento do modelo.
Proibição de Fusão de Sistemas: Os participantes NÃO podem empregar fusão de múltiplos sistemas em nenhuma das tarefas. Os resultados submetidos devem ser derivados de um único modelo.
Requisitos de Submissão: Todos os participantes devem submeter seu sistema, incluindo: Resultados finais, Modelos treinados, Um container Docker capaz de realizar a inferência para gerar os resultados finais. Instruções detalhadas de submissão serão fornecidas com a liberação do sistema baseline. Os nomes das equipes e instituições que confirmarem participação, mas não enviarem nenhuma submissão, serão divulgados publicamente.
Interpretação dos Organizadores: Os organizadores reservam-se o direito de interpretação final destas regras. Em circunstâncias especiais, os organizadores coordenarão os ajustes conforme necessário.

Outros Tópicos

Além das descrições dos sistemas participantes do desafio, os autores são encorajados a submeter artigos de pesquisa com descobertas inovadoras, estudos de caso práticos e ideias visionárias. Os tópicos de interesse incluem, mas não se limitam a:

Novas Arquiteturas e Algoritmos: Desenvolvimento de novas arquiteturas e métodos para treinamento de Speech Language Models (SLMs).
Pipelines de Processamento de Áudio: Soluções inovadoras para o processamento de áudio bruto e coleta de dados diversos para treinamento de SLMs.
Geração de Fala Natural e Emocionalmente Rica: Algoritmos voltados à produção de fala mais natural e expressiva em sistemas de diálogo.
Uso do Histórico de Conversas de Múltiplos Turnos: Estratégias que utilizam o contexto conversacional para aprimorar o reconhecimento e a diarização.
Técnicas e Métricas de Avaliação: Métodos inovadores para avaliação e benchmarking de SLMs multilíngues.
Novos Conjuntos de Dados: Criação de novos conjuntos de dados, reais ou sintéticos, para o treinamento de modelos de linguagem de fala e áudio.

Acesso e Uso dos Dados

Os participantes registrados terão acesso aos conjuntos de dados de treinamento e teste. Eles deverão assinar um Acordo de Uso de Dados (veja abaixo), concordar com os termos de confidencialidade e cumprir o acordo de proteção de dados. Os conjuntos de dados devem ser utilizados exclusivamente para os propósitos do desafio do workshop, sendo estritamente proibida qualquer redistribuição ou uso alternativo. É responsabilidade de cada participante proteger os dados contra acesso não autorizado.

Registro

Para participar, é necessário realizar o registro oficial. Os participantes devem enviar o Acordo de Uso de Dados assinado e preencher o formulário de inscrição. O desafio terá início em 10 de março de 2025.

Para mais informações sobre o registro, envie um e-mail para: [email protected]

Sistema Baseline

Github/MLC-SLM-Baseline

Envio para o Ranking(Leaderboard)

Submissão da Tarefa I

Submissão da Tarefa II

Diretrizes para Submissão de Artigos

1. Artigos de Desafio (Challenge Papers):

a. Os participantes devem submeter UM artigo técnico curto (mesmo que a equipe participe das duas tarefas).

b. Extensão: 2–4 páginas de conteúdo + 1 página de referências.

c. Requisitos de Conteúdo:
  (i) Descrições claras do sistema, permitindo verificar a correção da submissão e a conformidade com as regras.
  (ii) Detalhes para reprodutibilidade, incluindo conjuntos de dados e modelos open-source utilizados, estratégias de data augmentation, arquiteturas de modelo, configurações de treinamento, etc.
  (iii) Estudos de ablação que demonstrem a eficácia dos métodos propostos.

d. Todos os participantes do desafio deverão apresentar uma palestra ou pôster durante o workshop.

2. Artigos Não Vinculados ao Desafio (Non-Challenge Papers):

a. Extensão: 4 páginas de conteúdo + 1 página de referências.

b. Tópicos: Incluem, mas não se limitam, aos temas listados no site oficial do desafio.

3. Kit de Autores:

Os autores devem utilizar o kit de autores LaTeX do Interspeech 2022: (https://www.interspeech2022.org/files/IS2022_paper_kit.zip) Observação: O kit do Interspeech 2022 está sendo utilizado para manter o processo de revisão single-blind (revisão simples).

4. Portal de Submissão

a. Os artigos devem ser submetidos por meio do sistema CMT Conference System.

b. O Microsoft CMT é o serviço utilizado para gerenciar o processo de revisão por pares desta conferência. Este serviço é oferecido gratuitamente pela Microsoft, que cobre todos os custos, incluindo serviços em nuvem Azure e suporte técnico e de software.

Prêmios

FUNDO TOTAL de PRÊMIOS : US$ 20.000, patrocinado pela Huawei Technologies.

Premiação para as equipes de melhor desempenho em cada tarefa:

1º Lugar: US$ 5.000
2º Lugar: US$ 3.000
3º Lugar: US$ 2.000

Wettbewerbsergebnisse

MLC-SLM Aufgabe I

Benutzername WER/CER Nr. Teamname Institution
tenp19.61TENPTencent Ethereal Audio Lab
sixteen-years9.672sixteen-yearsChinese Academy of Sciences
t-asr9.833T-ASRSHENZHEN TRANSSION HOLDINGS CO.,LTD.
megaais10.084MegaAISMegatronix (Beijing) Technology Co., Ltd.
maxiaoai10.565MaXiaoAlMashang Consumer Finance Co., Ltd. (MSCF)
ntu_speechlab10.586NTU-SpeechlabNanyang Technological University
cheryfsai11.277Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.
seewo11.578seewoGuangzhou Shirui Electronics Co., Ltd.
daominhtri11.719Cake By VPBankCake By VPBank
maybe11.7610MayShanghai Normal University

MLC-SLM Aufgabe II

Benutzername tcpWER/tcpCER Nr. Teamname Institution
megaais16.531MegaAISMegatronix (Beijing) Technology Co., Ltd.
tenp117.492TENPTencent Ethereal Audio Lab
seewo17.673seewoGuangzhou Shirui Electronics Co., Ltd.
duke_kunshan18.084DKUDuke Kunshan University
sixteen-years19.275sixteen-yearsChinese Academy of Sciences
cheryfsai26.36Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.
saengthong27.257ST-ShinozakiLabInstitute of Science Tokyo
fosafer31.688FOSAFER_ RESEARCHBeijing Fosafer Information Technology Co., Ltd.
voicecode55.969VoiceCodeVOICECODE TECHNOLOGY PTE. LTD.
51751759.410INFXZhejiang University

Observação: Apenas as 10 melhores entradas de cada tarefa estão listadas. Para quaisquer dúvidas sobre os resultados das equipes, entre em contato com a comissão organizadora.

Local do Evento

Dock 14 – Centro de Convenções Rotterdam Ahoy Rotterdam, Países Baixos

Taxas de Inscrição Para Participação no Workshop

Taxa de Inscrição: € 50

Organizadores

    Shinji Watanabe, Professor Associado, Carnegie Mellon University (USA)

    Eng Siong Chng, Professor, Nanyang Technological University (Singapore)

    Junlan Feng, Membro IEEE & Cientista Chefe, China Mobile (China)

    Shuai Wang, Pesquisador, Nanjing University (China)

    Longshuai Xiao, Huawei Technologies (China)

    Khalid Choukri, Secretário-Geral, European Language Resources Association (France)

    Qiangze Feng, Cofundador & Cientista de Dados, Nexdata (USA)

    Daliang Wang, Cientista de Dados, Nexdata (USA)

    Hexin Liu, Pesquisador Pós-Doutoral, Nanyang Technological University (Singapore)

    Pengcheng Guo, Doutorando, Northwestern Polytechnical University (China)

    Bingshen Mu, Doutorando, Northwestern Polytechnical University (China)

    Zhaokai Sun, Mestrando, Northwestern Polytechnical University (China)

Patrocinadores

Parceiros de Mídia

3c980c02-caff-400c-a648-a5af89d8e35d