当前位置: 首页 - 学院 - 资讯 - 新闻动态 - 正文

智能语音芯片百度鸿鹄上线:亮眼!

2019-07-06 09:01:27 来源:互联网 作者:down

      当前百度大脑语音技术再次迎来新突破。近日,“Baidu Create 2019”百度AI开发者大会·百度大脑论坛如约举行。百度语音技术部高级总监高亮,详解了上午主论坛中百度首席技术官王海峰发布的智能语音芯片——百度鸿鹄,这是继去年昆仑芯片发布后芯片层面又一新进展。

      全球领先的语音识别模型SMLTA,以及可实现风格迁移的语音合成技术Meitron同样吸睛,百度大脑语音技术再次交出亮眼成绩单。

智能语音芯片百度鸿鹄上线:亮眼!

      在语音识别算法方面,高亮首先介绍了流式多级的截断注意力模型SMLTA。据悉,百度在传统的注意力模型基础上,创新性地采用了第二代深度尖峰技术,对整句语音进行动态截断,变为一段一段的流式识别。在此基础上,百度还使用了多级注意力模型来进一步提高精度。这不仅是国际上首次实现局部注意力建模性能超越整句注意力建模,更是国际上首次在线语音识别系统大规模使用注意力模型。

      热门综艺节目《向往的生活》中,“古灵精怪”的小度智能音箱与嘉宾们对答如流的交谈情景,相信很多人都仍然历历在目,而这背后正有SMLTA语音模型的加持。据高亮介绍,目前SMLTA语音模型已在百度输入法和小度智能音箱两款产品上线,使得识别准确率分别提升15%和20%。

智能语音芯片百度鸿鹄上线:亮眼!截图

      语音合成领域,针对现阶段面临韵律迁移、音色模拟和情感拟人的三大挑战,百度大脑推出语音合成技术Meitron,可以将语音中的音色、韵律、情感等要素映射到不同的子空间,在使用时,不同要素可以任意组合,灵活的控制合成语音的风格。同时降低语音合成门槛,仅需20句话就可以制作一个人的专属声音。

      MEITRON风格迁移技术的特点主要体现在音色转换,多情感朗读和韵律迁移三个方面,多情感朗读是指通过MEITRON技术,合成的语音可以注入不同的情感,韵律迁移是指同一个人的声音可以讲出不同风格的文本,音色转换是指可以用少量语音就可以合成一个人的专属音库。因此,语音合成效果变得更加逼真、丰富,用户体验也得到了提升。在今年的5月份,基于百度大脑的这一技术,百度大脑智能语音技术合成了一位已故老排长的声音,让消逝的声音重现世间,抗战老兵们在分别64年后首次实现了“重逢”,在建国70周年之际,为老一代抗战老兵送去了一份最好的礼物。

      寻技术突破,立鸿鹄之志。百度大脑推出的首款智能语音芯片——百度鸿鹄受到极大关注。“我们希望做一款超低功耗、超低成本、超高精度的芯片,能够赋予我们的智能设备语音的功能,同时又能把成本降到最低,这是我们的目标。”百度语音技术部高级总监高亮表示。正因如此,鸿鹄芯片的设计,变革传统芯片设计方法,遵循“软件定义芯片”的全新设计思路。该芯片采用双核HiFi4架构,自定义指令集,超大内存,台积电40nm工艺,在此硬件规格上,100mw左右平均工作功耗,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。

智能语音芯片百度鸿鹄上线:亮眼!截图

      百度鸿鹄芯片在业内拥有不俗的竞争力。首先,鸿鹄芯片指令集都是自定义的,百度拥有完整的知识产权,并针对百度大脑语音算法特别优化。定义芯片级AI指令集,这无疑是长期竞争力的有效保证。其次,百度鸿鹄芯片与百度远场智能语音解决方案协同统一,百度最新的信号处理、唤醒和识别技术创新,如Deep Peak和Deep CNN唤醒,模型波束等最新算法都在芯片中实现能力下沉。另外,百度鸿鹄芯片是车规标准设计的,无论是在智能硬件上,还是在汽车上,都留有非常大的想象空间。

      百度鸿鹄在应用场景中可实现三大方面的边缘计算能力,包括支持多达六路麦克风阵列语音信号输入、回声消除、声源定位等的阵列信号处理能力;集成Deep Peak和Deep CNN领先算法并可自定义唤醒词的语音唤醒能力;并支持离线语音识别功能等。

      核心算法的创新突破、芯片的全新发布,都让百度大脑语音技术逐渐具备迈向AI大生产时代的能力,让AI技术赋能更多场景,以技术之力改变人们的生活、服务人们的生活。百度大脑5.0,正在通过不断的技术创新和突破,让每一位开发者都能平等便捷地获取AI能力,加速产业智能化。