Top
首页 > 正文

百度CTO王海峰公布“成绩单”:语音能力日均调用量过100亿

除此之外,在语音识别领域,百度大脑全面升级短语音识别、实时语音识别能力,发布音频文件转写能力,升级可零代码提升业务术语识别率的语音自训练平台,以及呼叫中心语音解决方案;在语音合成方面,全新发布6个在线语音合成精品音库和5个离线语音合成精品音库。
发布时间:2019-11-29 09:34        来源:DoNews        作者:向密

百度大脑宣布语音能力引擎日均调用量已经超过100亿次,为开发者提供了覆盖云、端、芯的全栈全场景语音开放能力,推动智能语音技术在各行业落地应用。

百度首席技术官王海峰表示,AI技术的进化和产业赋能正向循环,相互促进,AI在应用场景中不断进化。百度的语音技术基于深度学习和产业应用加速突破,已应用到百度App,百度地图、小度音箱,百度输入法等百度产品,更通过AI开放平台赋能众多产业伙伴。

随后,百度语音首席架构师贾磊发布智能语音交互新技术——“基于复数卷积神经网络(Convolutional Neural Network,CNN)的语音增强和声学建模一体化端到端建模技术”,该方法抛弃了数字信号处理学科和语音识别学科的各种先验假设,消除学科间壁垒,直接端到端进行一体化建模。

贾磊介绍,百度提出的基于复数卷积神经网络(Convolutional Neural Network,CNN)的语音增强和声学建模一体化端到端建模技术,相较于传统基于数字信号处理的麦克阵列算法,错误率降低超过30%。目前该方法已经被集成到百度最新发布的百度鸿鹄芯片中。

具体而言,该模型底部以复数CNN为核心,利用复数CNN网络挖掘生理信号本质特征的特点,采用复数CNN, 复数全连接层以及CNN等多层网络,直接对原始的多通道语音信号进行多尺度多层次的信息抽取,期间充分挖掘频带之间的关联耦合信息。在保留原始特征相位信息的前提下,同时实现了前端声源定位、波束形成和增强特征提取。该模型底部CNN抽象出来的特征,直接送入百度独有的端到端的流式多级的截断注意力模型中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。整个网络的优化准则完全依赖于语音识别网络的优化准则来做,完全以识别率提升为目标来做模型参数调优。

与此同时,搭载该项语音技术的三款基于鸿鹄语音芯片的硬件产品也全新发布:芯片模组 DSP芯片+Flash、Android开发板DSP芯片+ RK3399、RTOS开发板DSP芯片+ESP32。现场,贾磊还描述了基于鸿鹄语音芯片的端到端软硬一体远场语音交互方案以及全新发布的针对智能家居、智能车载、智能IoT设备的三大场景解决方案。

除此之外,在语音识别领域,百度大脑全面升级短语音识别、实时语音识别能力,发布音频文件转写能力,升级可零代码提升业务术语识别率的语音自训练平台,以及呼叫中心语音解决方案;在语音合成方面,全新发布6个在线语音合成精品音库和5个离线语音合成精品音库。

目前,百度大脑通过AI开放平台已开放228项技术能力,拥有超过150万的开发者用户。(完)

专题访谈

合作站点
stat