Data e Local: 22 de agosto, Dock 14 – Centro de Convenções Rotterdam Ahoy
| Horário | Atividade |
|---|---|
| 8:30-9:00 | Retirada de crachás |
| 9:00-10:00 | Palestra principal 1: Shinji Watanabe Escalando o Reconhecimento de Fala Multilíngue: De Poucas para Milhares de Línguas |
| 10:00-10:30 | Pausa para Café |
| 10:30-11:00 | Resumo do Desafio + Cerimônia de Premiação |
| 11:00-12:00 | Sessão Oral: 1.Submissão da Seewo ao MLC-SLM: Lições Aprendidas com Modelos de Linguagem de Raciocínio de Fala, Palestrante: Bo Li 2.Sistema Multilíngue de Reconhecimento de Fala da Transsion para o Desafio MLC-SLM 2025, Palestrante: Xiaoxiao Li 3.Triple X: Um Sistema de Reconhecimento de Fala Multilíngue Baseado em LLM para o Desafio INTERSPEECH2025 MLC-SLM, Palestrante: Miaomiao Gao 4.O Sistema TEA-ASLP para Reconhecimento de Fala Conversacional Multilíngue e Diarização de Fala no Desafio MLC-SLM 2025, Palestrante: Hongfei Xue |
| 12:00-13:00 | Intervalo para Almoço |
| 13:00-14:00 | Palestra principal 2: Hung-yi Lee Avanços em Modelos de Linguagem Falada |
| 14:00-14:30 | Sessão Oral: 1.ILT: Treinamento Iterativo de LoRA através de Foco–Feedback–Correção para Reconhecimento de Fala Multilíngue, Palestrante: Qingliang Meng 2.Sistema BUT para o Desafio MLC-SLM, Palestrante: Alexander Polok |
| 14:30-15:00 | Pausa para Café |
| 15:00-15:30 | Palestra Convidada 1: Ming Li Diarização Neural Sequência-a-Sequência em Cenários Online e Multimodais |
| 15:30-16:00 | Palestra Convidada 2: Shuai Wang Um Único Embedding Não Serve para Todos: Repensando a Modelagem de Falantes para Diferentes Aplicações de Fala |
| 16:00-16:30 | Palestra Convidada 3: Pan Pan Além da Escassez de Dados: Engenhando Pipelines de Dados com Foco em Qualidade em Diferentes Estágios de Treinamento |
| 16:30-17:30 | Sessão de Pôsteres |
Perdeu as sessões ao vivo? Agora você pode acompanhar as palestras inspiradoras do Workshop do Desafio MLC-SLM. Os links para reprise estão disponíveis abaixo.
Shinji Watanabe (Universidade Carnegie Mellon)
Topic: Escalando o Reconhecimento de Fala Multilíngue: De Algumas para Milhares de Línguas
Hung-yi Lee (Universidade Nacional de Taiwan)
Topic: Ensinando Modelos de Linguagem de Grande Escala (LLM) a Ouvir e Falar
Ming Li (Universidade Duke Kunshan)
Topic: Diarização Neural Sequência-a-Sequência em Cenários Online e Multimodais
Shuai Wang (Universidade de Nanjing)
Topic: Um Único Embedding Não Serve para Todos: Repensando a Modelagem de Falantes para Diferentes
Pan Pan (Diretora de Negócios de IA, Nexdata)
Topic: Além da Escassez de Dados: Engenharia de Pipelines de Dados com Foco em Qualidade em Diferentes Estágios de Treinamento
Siga-nos no LinkedIn e no YouTube para conferir as últimas reprises e destaques.
Para consultas de mídia ou solicitações de autorização, entre em contato: [email protected]
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em diversas tarefas de processamento de linguagem, atuando como poderosos modelos fundamentais para compreensão e geração de texto. Recentemente, tem havido um interesse crescente na aplicação dos LLMs em tarefas de processamento de fala e áudio, incluindo Reconhecimento Automático de Fala (ASR), Geração de Legendas de Áudio (Audio Captioning) e áreas emergentes como Modelos de Diálogo Falado.
No entanto, o desenvolvimento de modelos de diálogo falado baseados em LLM robustos depende fortemente de dados reais de fala conversacional, que capturam a complexidade da comunicação humana — incluindo pausas naturais, interrupções, sobreposição de falas e estilos conversacionais diversos. A escassez desse tipo de dado, especialmente em contextos multilíngues, representa um desafio significativo para o avanço da área.
A importância da fala conversacional do mundo real vai além do progresso tecnológico: ela é essencial para a construção de sistemas de IA capazes de compreender e responder de forma natural em ambientes multilíngues, dinâmicos e ricos em contexto. Isso é especialmente crucial para os sistemas de interação humano-IA de próxima geração, nos quais o diálogo falado serve como principal modo de comunicação.
Dessa forma, este desafio e workshop têm como objetivo reduzir essa lacuna por meio da realização do desafio de construção de Modelos de Linguagem de Fala Conversacional Multilíngue (MLC-SLM) e da disponibilização de um conjunto de dados reais de fala conversacional multilíngue.
O desafio consiste em duas tarefas, ambas voltadas para o desenvolvimento de Modelos de Linguagem de Fala (SLMs):
Tarefa I: Reconhecimento de Fala Conversacional Multilíngue
Objetivo: Desenvolver um modelo de ASR multilíngue baseado em LLM.
Os participantes receberão segmentação de fala e rótulos de locutores (speaker labels) previamente definidos para cada conversa (oracle segmentation).
O foco dessa tarefa é otimizar a precisão do reconhecimento em um cenário conversacional multilíngue.
Tarefa II: Diarização e Reconhecimento de Fala Conversacional Multilíngue
Objetivo: Desenvolver um sistema que realize diarização de locutores (identificação de quem está falando e quando) e reconhecimento de fala (transcrição de áudio em texto).
Nenhuma informação prévia (oracle information) será fornecida durante a avaliação — ou seja, não haverá segmentações pré-definidas nem rótulos de locutores.
Serão aceitos tanto sistemas baseados em pipeline quanto sistemas de ponta a ponta (end-to-end), oferecendo flexibilidade de design e implementação.
Para a Tarefa I, o desempenho dos sistemas será avaliado com base no Word Error Rate (WER) ou Character Error Rate (CER) em diferentes idiomas.
Para a Tarefa II, a avaliação será feita a partir da Diarization Error Rate (DER) e do tcpWER/tcpCER (concatenated minimum permutation WER/CER). O DER é usado para determinar a melhor correspondência entre as identificações de locutores (IDs) previstas e as anotações de referência. Em seguida, as transcrições e referências de um mesmo locutor são concatenadas para o cálculo do tcpWER ou tcpCER. Todas as submissões serão classificadas com base no tcpWER ou tcpCER.
10 de março de 2025: Abertura das inscrições
15 de março de 2025: Liberação dos dados de treinamento
1º de abril de 2025: Liberação do conjunto de desenvolvimento (development set) e do sistema baseline
15 de maio de 2025: Liberação do conjunto de avaliação (evaluation set) e abertura do leaderboard
30 de maio de 2025: Congelamento do leaderboard e abertura do portal de submissão de artigos (sistema CMT)
15 de junho de 2025: Prazo final para submissão de artigos
1º de julho de 2025: Notificação de aceitação
22 de agosto de 2025: Data do workshop
O conjunto de treinamento (Train) é composto por aproximadamente 11 idiomas: Inglês (en), Francês (fr), Alemão (de), Italiano (it), Português (pt), Espanhol (es), Japonês (jp), Coreano (ko), Russo (ru), Tailandês (th), Vietnamita (vi).
Cada gravação consiste em fala conversacional entre dois interlocutores, com temas atribuídos aleatoriamente.
As conversas são naturais e fluidas, com trocas significativas entre os falantes.
As gravações foram feitas em ambientes internos silenciosos, usando dispositivos como iPhones.
Cada gravação inclui segmentação e rótulos de locutores (oracle segmentation and speaker labels) para o desenvolvimento de sistemas de reconhecimento de fala e diarização de locutores.
As Tarefas I e II compartilham o mesmo conjunto de treinamento.
O conjunto em inglês contém aproximadamente 500 horas de gravações de várias regiões (Reino Unido, EUA, Austrália, Índia e Filipinas). Cada um dos demais idiomas contribui com cerca de 100 horas, totalizando aproximadamente 1500 horas de dados multilíngues de fala conversacional.
Esse conjunto de dados foi projetado para oferecer um recurso robusto para o treinamento e avaliação de Modelos de Linguagem de Fala Conversacional Multilíngue (MLC-SLM), abordando desafios de diversidade linguística, variação entre falantes e compreensão contextual.
| Idioma | Volume (h) | Classificação | Taxa de Amostragem | Descrição |
|---|---|---|---|---|
| Inglês | 500 | Cobre 5 sotaques diferentes (EUA, Reino Unido, Filipinas, Austrália e Índia). Diversidade de gêneros e idades, estilo de conversação natural. Taxa de erro de palavra < 2%. | ||
| 100 | Inglês Americano | 16K | ||
| 100 | Inglês Britânico | 16K | ||
| 100 | Inglês Filipino | 16K | ||
| 100 | Inglês Australiano | 16K | ||
| 100 | Inglês Indiano | 16K | ||
| Francês | 100 | 16k | Gravado em celular, com tópicos familiares. Conversa natural entre falantes de diferentes gêneros e idades. WER < 2%. | |
| Alemão | 100 | 16k | Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%. | |
| Italiano | 100 | 16k | Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%. | |
| Japonês | 100 | 16k | Gravado em celular. Conversas naturais e fluidas. Taxa de erro de sentença < 5%. | |
| Coreano | 100 | 16k | Gravado em celular. Conversas naturais e fluidas. Taxa de erro de sentença < 5%. | |
| Português (Europa) | 100 | 16k | Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%. | |
| Russo | 100 | 16k | Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%. | |
| Espanhol (Espanha) | 100 | 16k | Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%. | |
| Tailandês | 100 | 16k | Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 3%. | |
| Vietnamita | 100 | 16k | Gravado em celular. Conversas naturais com diversidade de gênero e idade. WER < 2%. |
O conjunto de desenvolvimento (Dev) possui a mesma configuração do conjunto de treinamento, contendo aproximadamente 4 horas de gravações para cada idioma. Tanto a Tarefa I quanto a Tarefa II utilizam o mesmo conjunto de desenvolvimento.
São utilizados diferentes conjuntos de avaliação para cada tarefa, denominados Eval_1 e Eval_2:
Eval_1: Inclui carimbos de tempo oráculos e rótulos de falante, sendo avaliado por meio da Taxa de Erro de Palavras (WER) ou Taxa de Erro de Caracteres (CER).
Eval_2: Não fornece carimbos de tempo nem rótulos de falante, exigindo que o participante utilize um sistema de diarização de falantes (SD) para segmentar as gravações longas antes do reconhecimento. Acesso ao Conjunto de Dados
Os participantes podem acessar o conjunto de dados assinando o Acordo de Uso de Dados e enviando o Formulário de Registro. Após o envio, o link para download será enviado por e-mail.
Você pode acessar e baixar o conjunto de dados de avaliação open-source através do link fornecido abaixo. É necessário preencher um breve formulário de registro antes do download. Após a aprovação, o link para download será enviado por e-mail em até 7 dias.
Se você utilizar este conjunto de dados em sua pesquisa pessoal ou acadêmica, é obrigatório reconhecer e citar a fonte adequadamente.
[ Formulário de Registro – Solicitar Conjunto de Dados Patrocinado – Baixar Conjunto de Avaliação]
Todos os participantes devem seguir as regras abaixo para serem elegíveis no desafio.
Além das descrições dos sistemas participantes do desafio, os autores são encorajados a submeter artigos de pesquisa com descobertas inovadoras, estudos de caso práticos e ideias visionárias. Os tópicos de interesse incluem, mas não se limitam a:
Os participantes registrados terão acesso aos conjuntos de dados de treinamento e teste. Eles deverão assinar um Acordo de Uso de Dados (veja abaixo), concordar com os termos de confidencialidade e cumprir o acordo de proteção de dados. Os conjuntos de dados devem ser utilizados exclusivamente para os propósitos do desafio do workshop, sendo estritamente proibida qualquer redistribuição ou uso alternativo. É responsabilidade de cada participante proteger os dados contra acesso não autorizado.
Para participar, é necessário realizar o registro oficial. Os participantes devem enviar o Acordo de Uso de Dados assinado e preencher o formulário de inscrição. O desafio terá início em 10 de março de 2025.
Para mais informações sobre o registro, envie um e-mail para: [email protected]
E-mail oficial: [email protected]
Slack: https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA
1. Artigos de Desafio (Challenge Papers):
a. Os participantes devem submeter UM artigo técnico curto (mesmo que a equipe participe das duas tarefas).
b. Extensão: 2–4 páginas de conteúdo + 1 página de referências.
c. Requisitos de Conteúdo:
(i) Descrições claras do sistema, permitindo verificar a correção da submissão e a conformidade com as regras.
(ii) Detalhes para reprodutibilidade, incluindo conjuntos de dados e modelos open-source utilizados, estratégias de data augmentation, arquiteturas de modelo, configurações de treinamento, etc.
(iii) Estudos de ablação que demonstrem a eficácia dos métodos propostos.
d. Todos os participantes do desafio deverão apresentar uma palestra ou pôster durante o workshop.
2. Artigos Não Vinculados ao Desafio (Non-Challenge Papers):
a. Extensão: 4 páginas de conteúdo + 1 página de referências.
b. Tópicos: Incluem, mas não se limitam, aos temas listados no site oficial do desafio.
3. Kit de Autores:
Os autores devem utilizar o kit de autores LaTeX do Interspeech 2022: (https://www.interspeech2022.org/files/IS2022_paper_kit.zip) Observação: O kit do Interspeech 2022 está sendo utilizado para manter o processo de revisão single-blind (revisão simples).
4. Portal de Submissão
a. Os artigos devem ser submetidos por meio do sistema CMT Conference System.
b. O Microsoft CMT é o serviço utilizado para gerenciar o processo de revisão por pares desta conferência. Este serviço é oferecido gratuitamente pela Microsoft, que cobre todos os custos, incluindo serviços em nuvem Azure e suporte técnico e de software.
FUNDO TOTAL de PRÊMIOS : US$ 20.000, patrocinado pela Huawei Technologies.
Premiação para as equipes de melhor desempenho em cada tarefa:
MLC-SLM Aufgabe I
| Benutzername | WER/CER | Nr. | Teamname | Institution |
|---|---|---|---|---|
| tenp1 | 9.6 | 1 | TENP | Tencent Ethereal Audio Lab |
| sixteen-years | 9.67 | 2 | sixteen-years | Chinese Academy of Sciences |
| t-asr | 9.83 | 3 | T-ASR | SHENZHEN TRANSSION HOLDINGS CO.,LTD. |
| megaais | 10.08 | 4 | MegaAIS | Megatronix (Beijing) Technology Co., Ltd. |
| maxiaoai | 10.56 | 5 | MaXiaoAl | Mashang Consumer Finance Co., Ltd. (MSCF) |
| ntu_speechlab | 10.58 | 6 | NTU-Speechlab | Nanyang Technological University |
| cheryfsai | 11.27 | 7 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co., Ltd. |
| seewo | 11.57 | 8 | seewo | Guangzhou Shirui Electronics Co., Ltd. |
| daominhtri | 11.71 | 9 | Cake By VPBank | Cake By VPBank |
| maybe | 11.76 | 10 | May | Shanghai Normal University |
MLC-SLM Aufgabe II
| Benutzername | tcpWER/tcpCER | Nr. | Teamname | Institution |
|---|---|---|---|---|
| megaais | 16.53 | 1 | MegaAIS | Megatronix (Beijing) Technology Co., Ltd. |
| tenp1 | 17.49 | 2 | TENP | Tencent Ethereal Audio Lab |
| seewo | 17.67 | 3 | seewo | Guangzhou Shirui Electronics Co., Ltd. |
| duke_kunshan | 18.08 | 4 | DKU | Duke Kunshan University |
| sixteen-years | 19.27 | 5 | sixteen-years | Chinese Academy of Sciences |
| cheryfsai | 26.3 | 6 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co., Ltd. |
| saengthong | 27.25 | 7 | ST-ShinozakiLab | Institute of Science Tokyo |
| fosafer | 31.68 | 8 | FOSAFER_ RESEARCH | Beijing Fosafer Information Technology Co., Ltd. |
| voicecode | 55.96 | 9 | VoiceCode | VOICECODE TECHNOLOGY PTE. LTD. |
| 517517 | 59.4 | 10 | INFX | Zhejiang University |
Observação: Apenas as 10 melhores entradas de cada tarefa estão listadas. Para quaisquer dúvidas sobre os resultados das equipes, entre em contato com a comissão organizadora.
Dock 14 – Centro de Convenções Rotterdam Ahoy Rotterdam, Países Baixos
Taxa de Inscrição: € 50
Shinji Watanabe, Professor Associado, Carnegie Mellon University (USA)
Eng Siong Chng, Professor, Nanyang Technological University (Singapore)
Junlan Feng, Membro IEEE & Cientista Chefe, China Mobile (China)
Shuai Wang, Pesquisador, Nanjing University (China)
Longshuai Xiao, Huawei Technologies (China)
Khalid Choukri, Secretário-Geral, European Language Resources Association (France)
Qiangze Feng, Cofundador & Cientista de Dados, Nexdata (USA)
Daliang Wang, Cientista de Dados, Nexdata (USA)
Hexin Liu, Pesquisador Pós-Doutoral, Nanyang Technological University (Singapore)
Pengcheng Guo, Doutorando, Northwestern Polytechnical University (China)
Bingshen Mu, Doutorando, Northwestern Polytechnical University (China)
Zhaokai Sun, Mestrando, Northwestern Polytechnical University (China)




