回顾丨2023 SpeechHome 第三届语音技术研讨会

下面是整体会议的内容回顾：

18日线上直播回顾

18日上午9:30，AISHELL & SpeechHome CEO卜辉宣布研讨会开始，并简要介绍本次研讨会的筹备情况以及报告内容。随后，CCF语音对话与听觉专委会副主任、清华大学教授郑方，国家工业信息安全发展研究中心人工智能所副所长刘永东对本次大会进行开幕致辞。

开幕致辞

接下来是语音前沿技术和音频生成两个主题的内容回顾。

语音前沿技术

上午的语音前沿技术主题主题由AISHELL & SpeechHome CEO卜辉担任主持，分享嘉宾分别是谢磊、万玉龙、李明。

谢磊分享的主题是《西工大ASLP实验室语音生成模型新进展》。报告分享了西工大音频语音与语言处理实验室在语音生成方面的进展，包括拟人化语音合成，基于语音因素解耦的表现力语音合成，基于自然语言的风格迁移、音色生成和语音转换，高表现力与实时语音转换、以及Vec Tok Speech多任务语音大模型技术。

万玉龙分享的主题是《交互式AI中语音技术实践与探索》。本次报告主要介绍了3点内容：1、亿级终端智能助理所面临的语音技术挑战及解决思路；2、音频类生成式AI在智能助理产品的创新实践；3、业务视角下,交互式A对语音技术的期许与展望。

李明分享的主题是《多通道、多人及非基于声纹编码向量的特定人语音抽取》。首先介绍了不直接使用声纹编码向量作为目标人先验信息的特定人语音抽取模型设计，其次在多人同步抽取及多通道语音输入这两个方面介绍团队最近的一些研究成果。

音频生成

下午的音频生成主题由西交利物浦大学助理教授李圣辰担任主持，分享嘉宾分别是武执政、吴志勇、王文武、雪巍、卢恒。

武执政分享的主题是《Amphion: An Open-Source Audio, Music and Speech Generation Toolkit》。This talk will present an open-source audio, audio and speech generation toolkit, namelyAmphion. The Amphion toolkit is design for education and reproducible research purpose. This talkfirst presents the state of the art for generation tasks, and discuss the design goal, implementation andcomparison with existing toolkits.

吴志勇分享的主题是《面向表现力语音合成的多尺度风格建模与生成》。报告介绍了表现力语音合成在对说话风格、情感、语调等进行精细化建模，以提高合成语音的自然度和拟人化表现能力。它在有声读物、AI主播、人机对话交互等领域有广阔的应用前景。然而，它也面临一系列挑战和难点。针对如何有效提取和表示多尺度的风格特征，提出了一种面向表现力语音合成的多尺度风格建模方法，使用多尺度参考编码器提取目标语音的全局和局部风格特征，提高语音合成的可控性、表现力和灵活性；针对如何在不损失自然度和可懂度的前提下实现风格控制和转换，提出了一种基于分块的多尺度跨说话人风格迁移方法；针对如何生成富有表现力和多样性的语音韵律等，提出了一种基于去噪扩散概率模型的韵律预测器。实验结果验证了所提方法在表现力语音合成方面的有效性和优势。

王文武分享的主题是《Text to Audio Generation》。Text-to-audio generation aims to produce an audio clip based on a text prompt which is a languagedescription of the audio content to be generated. This can be used as sound synthesis tools for film makinggame design, virtual reality/metaverse, digital media, and digital assistants for text understanding by thevisually impaired. To achieve cross modal text to audio generation, it is essential to comprehend the audioevents and scenes within an audio clip, as well as interpret the textual information presented in naturaanquage. ln addition, learning the mapping and alianment of these two streams of information is cruciaExciting developments have recently emerged in the field of automated audio-text cross modal generation. lnthis talk, we will give an introduction of this field, including problem description, potential applicationsdatasets, open challenges, recent technical progresses, and possible future research directions. We will startwith the conditional audio generation method which we published in MLSP 2021 and used as the baselinesystem in DCASE 2023. We then move on to the discussion of several algorithms that we have developedrecently, including AudioLDM,AudioLDM2, Re-AudioLDM,and AudioSep, which are getting increasinglypopular in the signal processing, machine learning, and audio engineering communities.

雪巍分享的主题是《高速高质量零资源歌声合成》。主要介绍了歌声合成面临标注数据极度缺失的问题，精标成本较高，且音色有限；宽音域强表现力的要求对合成质量提出更高标准。介绍了CoMoSpeech和ZSinger，使得基于扩散模型的歌声合成方法真正可以实时部署于工业级应用，并无需标注数据即可对任意人音色进行建模及歌词/旋律控制。

卢恒分享的主题是《语音AIGC技术进展--音频技术在喜马拉雅的研发和落地应用》。主要介绍喜马拉雅语音AIGC技术，包括文本分析，语音生成技术以及风格转换的大模型的研究以及落地。同时介绍我们在语音识别、音效以及全景声方面的一些工作。

19日线下参会回顾

19日以线下会议的形式举办，众多语音领域大神云集，各路语音技术爱好者慕名而来。现场共有2个会场，分为3个主题，分别是“音频与大模型”、“数据与大模型”和“语音开源技术”，大家共同探讨了相关的技术问题。我们还穿插了丰富的抽奖和茶歇环节，大家在参会的同时也可以放松休息。

以下是精彩的会议报告。

音频与大模型

上午的音频与大模型主题由北京邮电大学副教授/博导李蓝天担任主持，分享嘉宾分别是欧智坚、钱彦旻、张王优、李晨达、何磊、易江燕、栾剑、张超。

欧智坚分享的主题是《语音大模型的若干思考与猜测》。报告结合ChatGPT的技术发展历程以及语音本身特点，汇报了对语音大模型研究的几个思考，对“未来语音大模型是怎么样的?”给出我们的猜测，包括:1、是否能实现有原则的无监督学习？2、语音识别大模型如何与语言模型有效结合？3、语音识别与语音合成,是否能有效互助？4、多语言语音识别系统中,是否需要IPA知识的运用?报告也将分享我们的若干进展。

钱彦旻分享的主题是《Self-Supervised Learning for High-Performance Robust Speaker Verification》。Automatic speaker verification task has made great achievements using deep learning approacheswith the large-scale manually annotated dataset. However, it's very difficult and expensive to collect alarge amount of well-labeled data for system building. Recently, self-supervised speaker verificationhas attracted a lot of interest by the reason of its no-dependency on labeled data. This talk will brieflyintroduce an advanced self-supervised learning framework which can construct a robust speakerverification system with high performance without using any labeled data. With our proposedmethods, the gap between unsupervised and supervised representation learning is dramaticallyreduced for speaker verification, and an approaching performance of the fully supervised system isobtained with our self-supervised learning method on speaker verification.

张王优、李晨达在线上为大家分享的主题是《ESPnet 2023 开发进展》。报告介绍了ESPnet开源工具在语音增强方面的进展。ESPnet-SE 是2020年6月开始筹备的ESPnet子项目，目的是为ESPnet 提供丰富的前端语音处理功能，包括降噪、去混响和语音分离等。在两年多的时间里ESPnet-SE 累计添加了对 24 种语音增强模型(12 种单通道模型 +12 种多通道模型)的支持并配有 22个覆盖从数据准备到模型训练及评估等全流程的 recipes，其中部分 recipe 在 Hugging Face 上提供了相应的已训练模型。ESPnet-SE也提供了对其他语音前端开源工具的兼容，如允许在ESPnet中直接加载并训练来自Asteroid 工具的模型。除此之外，ESPnet-SE 提供了将前端模型和其他下游语音任务(语音识别、语音翻译、口语理解等)进行结合的接口和示例，使得我们能够很容易实现前端模型和不同后端任务的联合训练或评估。本次报告重点介绍了ESPnet-SE工具的特色功能以及使用方法,并对后续开发计划进行简单梳理。

嘉宾：欧智坚、何磊、钱彦旻、易江燕、栾剑、张超

圆桌会由李蓝天和卜辉主持，议围绕着“各位专家对大模型 GPT4 Turbo是如何理解的，有哪些值得学习和不足的地方”，“大模型更多是在文本交互、知识交流领域为主，音频大模型能否成为主流模型或者高价值模型”，“未来音频大模型的发展趋势是什么？如何把握”，“对在音频这个领域或者将要进如这个领域的学生，在选题方向有哪些建议”等问题展开激烈的讨论，欧智坚、何磊、钱彦旻、易江燕、栾剑、张超依次做出来精彩的解答。

数据与大模型

上午的数据与大模型的主题由AISHELL & SpeechHome CEO卜辉担任主持，分享嘉宾分别是樊威、张超、邵志明。

樊威分享的主题是《大模型数据资源面临挑战和发展路径》。报告主要分为3点：1、大模型数据发展现状及挑战；2、大模型数据治理总体思路；3、大模型数据治理落地思考。

张超分享的主题是《认知导向的视听觉大语言模型》。报告介绍了ChatGPT作为一种大语言模型(Large Language Model,LLM)，以文本输入和文本生成作为交互的主要手段，在自然语言和形式语言任务中展现了相当程度的任务通用性，但仍有许多不足。一个关键缺陷在于模型的语言认知与物理世界的多模态信息几乎无关ChatGPT的最新更新已支持图片和语音指令输入。可以把LLM类比为具有强语言认知能力的“大脑”，缺乏感官和身体,对物理世界的了解主要来自“想象”而非实际的“感受”。给LLM增加感知，尤其是音视频感知，既使LLM真正“能听会看”，也能提高已有音视频任务的准确性。

邵志明分享的主题是《AI算法赋能海天瑞声高质量数据生产》。本报告首先介绍海天瑞声语音数据生产环节使用的算法技术成果，以及针对平台预标注能力从多语种语音识别、自动切音、多通道对齐、重复发音人检测等技术的研究成果。其次，介绍海天瑞声在大模型数据生产方面的Know-how。

语音开源技术

下午的语音开源技术主题由清华大学副研究员王东和AISHELL & SpeechHome CEO卜辉担任主持，分享嘉宾分别是Daniel Povey、匡方军、卜辉、张彬彬、张仕良、康魏。

Daniel Povey分享的主题是《Zipformer: an improved Encoder for ASR》。will talk about our alternative to the Conformer, the "Zipformer", which gives improved accuracy atlower cost. lt includes downsampling and upsampling, as in UNet, and many architectural changes; wealso introduce a modified optimizer called ScaledAdam.

匡方军分享的主题是《 Sherpa: 新一代 Kaldi 部署框架》。报告主要介绍了如何使用新一代Kaldi部署框架 Sherpa 在 Linux/macOS/Windows/Android/i0S 等不同环境中部署语音识别和语音合成模型。比如来自 icefall，Whisper，FunASR，WeNet 和 NeMo 等框架的语音识别模型，来自VITS-fast-fine-tuning,piper 和 coqui-ai 等基于 VITS 的语音合成模型。

卜辉分享的主题是《 AISHELL-Turbo Datasets for multimodal AI models》。报告介绍了AISHELL的语音数据集赋能了智能语音技术在家居、车载、机器人、会议等多场景的应用落地。开源项目也覆盖语音识别、声纹识别、语音合成、场景语音交互技术方案。在针对语音识别(ASR)模型的性能评测方面，构建了高质量语音评测数据集,评测项目开放了ASR模型的SOTA内容，包括Benchmark和Leaderboard，对智能语音产业及用户应用体验的提升都起到了促进作用。随着ChatGPT等大模型的出现，人工智能(A)多模态大模型可以同时处理多种模态数据，如同时处理图像、文本、语音等。大模型通常基于深度学习技术,利用大量的数据来训练，以实现多模态数据的跨模态理解和生成。当前的多模态大模型性能在多个评测数据集上的成绩已经超越人类对知识的掌控，在未来如何对大模型进行知识迭代、大模型的场景化落地等问题，AISHELL在今年启动了AISHELL-Turbo数据集计划。报告内容会对AISHELL-Turbo的数据集规划和目前的成果做介绍。

张彬彬分享的主题是《WeNet 开源社区最新进展》。报告主要介绍了WeNet 开源社区最新进展：1、数据集和预训练模型更新；2、wespeaker 更新；3、wenet 最新算法和方案设计。

张仕良分享的主题是《ModelScope语音开源现状和语音语义多模态大模型研究进展介绍》。报告首先总体介绍魔搭社区语音模态的开源现状，包含语音识别、语音合成、说话人识别等技术方向。其次就语音识别方向，会进一步介绍FunASR开源工具包，以及解析语音识别服务一键部署能力背后的技术。最后会介绍通义实验室关于语音语义多模态大模型(LauraGPT、Qianwen-AL)的最新研究和开源进展。