本周为TechBeat人工智能社区第309期线上Talk,也是ICLR 2021系列Talk第⑪期。
北京时间5月27日(周四)晚8点,ICLR 2021 Oral一作、UCSD在读博士—孔之丰的第二场Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是: “DiffWave: 一种基于降噪扩散概率模型的普适音频生成模型”,届时将针对作者ICLR 2021 Oral Paper 《Diffwave: A Versatile Diffusion Model For Audio Synthesis》作出介绍。
为了帮助大家更好地理解工作,孔之丰上周曾在TechBeat介绍了相关生成模型的基础,对生成模型进行简短的综述,并详细介绍了DDPM和WaveNet两类模型,戳TechBeat回顾。
Talk·信息
▼
主题:DiffWave,一种基于
降噪扩散概率模型的普适音频生成模型
嘉宾:加州大学圣地亚哥分校
在读博士生 孔之丰
时间:北京时间 5月27日 (周四) 20:00
地点:TechBeat人工智能社区
https://www.techbeat.net/talk-info?id=529
Talk·提纲
▼
音频生成具有十分广泛的应用,其包含若干种不同的任务,包括声码器(从梅尔图谱生成语音),基于类别标签的生成以及无条件的生成。传统的声码器模型都具有明显短板,如生成速度慢,占用体积大,或语音质量有较大的提升空间。在基于类别标签以及无条件的生成领域,目前尚无质量较好的纯粹基于声波数据的模型。
本文提出DiffWave模型,其既可以作为一个语音质量SOTA,占用体积小且快于实时生成的声码器,也能在基于类别标签以及无条件的生成上实现巨大的提升。
本次分享的主要内容如下:
[1]. 语音合成/生成简介,与图像数据的差异以及难点,背景模型介绍
[2]. DiffWave:基于降噪扩散概率模型的普适音频生成器
[3]. 实验:声码器,基于类别标签和无条件生成,以及额外展示
Talk·参考资料
▼
这是本次分享中将会提及的资料,建议提前预习哦!
[1]. DDPM 1:
https://arxiv.org/pdf/1503.03585.pdf
[2]. DDPM 2:
https://arxiv.org/pdf/2006.11239.pdf
[3]. WaveNet:
https://arxiv.org/pdf/1609.03499.pdf
[4]. Others (background):
https://deepmind.com/blog/article/wavenet-generative-model-raw-audio
[5]. Talk—DiffWave基础, 生成模型介绍:
https://www.techbeat.net/talk-info?id=524
Talk·提问交流
▼
通过以下方式提问将获得微信现金红包奖励哦!
在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
孔之丰 UCSD在读博士
孔之丰,本科毕业于西安交通大学数学系,现在是加州大学圣地亚哥分校计算机科学的三年级博士生,导师是Kamalika Chaudhuri, 主要的研究方向为生成模型的理论,理解与应用。在ICLR、AISTATS、AAAI等会议发表论文,获得百度美国研究院和英伟达深度学习研究院的研究实习。
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区
花粉社群VIP加油站
猜你喜欢