语音合成大赛挑战“中文合成”
在刚刚落幕的“Blizzard Challenge 2019”国际语音合成大赛中,灵伴科技的语音合成系统荣获综合评测指标第二的优异成绩。这是继灵伴在“Blizzard Challenge 2013”比赛中获得综合评测指标排名第一后,时隔6年第二次参赛,再次斩获殊荣。
史上最难“中文合成”挑战
“Blizzard Challenge”国际语音合成大赛是语音合成领域最具权威性的国际技术评测比赛。它旨在构建一个公开、统一的语音合成技术评测平台,加强研究机构之间的技术交流与沟通,推动语音技术快速发展。
与往届比赛相比,本届大赛的难度再创新高。大赛要求各参赛方利用大约8小时的罗振宇脱口秀声音素材,合成出自然、易懂,并和罗振宇本人的特点尽量相似的语音。
更为重要的是,主办方对声音样本的来源进行了严格的约束:罗振宇本人的声音素材只允许使用主办方提供的8小时录音,禁止使用从其他渠道收集的数据;罗振宇以外的说话人声音素材可以随意使用。
因此,本届参赛方主要面对两个挑战:如何用好罗振宇本人的为数不多的8小时录音;如何利用其它说话人的语音来帮助算法更好地学习罗振宇本人的讲话特点。
超稳健合成系统,语音“可懂度”最佳
在任务难度高、竞争对手实力强的情况下,灵伴提交的合成系统在自然度、相似度、可懂度三项评测指标中均表现优秀,获得了关键指标自然度第4名、相似度第2名、合成语音可懂度第2名、综合排名第2名的优异成绩。
自然度和相似度分别表示合成声音的自然程度以及与罗振宇本人的相似程度,分数越高表示合成的语音越自然、和罗振宇本人的相似程度越高。从分数角度来看,在自然度和相似度上灵伴分别获得了4分和3.9分,共计7.9分,以微弱的差距落后于M。
从排名角度来看,灵伴在自然度、相似度和可懂度方面分别排在第4、第2以及第2名。
在同时考虑自然度和相似度的情况下,灵伴的排名为并列第2名。
在同时考虑自然度、相似度以及可懂度的情况下,灵伴的排名为第2名。
值得一提的是,灵伴的可懂度分数在相似度和自然度前十的队伍中排名最高,这意味着灵伴的语音合成最能够被“听懂”。
人工智能技术落地的道路,往往是对系统能力的全方位考核。从语音合成需求的角度来看,自然度、相似度和可懂度都是实际应用场景中的关键指标:其中相似度是语音合成模型定制业务中主要考察的对象;而可懂度在人机交互过程中,直接决定了客户能否轻松而准确地理解机器人所表述的内容。
因此,灵伴在本次比赛中的技术选型主要考虑真实落地场景,选择了相对稳健的“不偏科”的解决方案。比赛的结果也充分体现了灵伴合成技术的全面优势。
自然度、相似度、可懂度三项指标累加排名(越低越好)
“路漫漫其修远兮,吾将上下而求索”,此次比赛的成绩对灵伴人来说,既是荣誉,亦是鞭策。语音交互的探索之途,灵伴人和世界上同道科研工作者们还有很长的路要走。灵伴人将继续脚踏实地,开拓创新,实现技术与产品的双重提升,开创人类与智能机器人共同发展的美好未来。
Blizzard Challenge2013精彩回顾
2013年是灵伴这支新锐团队首次参赛,在时间紧、任务重、对手强的多重困难下,团队一举战胜诸多国际顶尖科研机构,在自然度、相似度两个评测领域以绝对优势获胜,斩获当年Blizzard Challenge国际语音合成大赛综合评测第一名的桂冠,这也是主办方公认的语音合成领域第三次里程碑式技术突破。
在自然度方面,灵伴(队伍代码为M)得分3.9分,超出第二名0.6分。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。