快商通首席科学家李海洲:语音识别的后半段路,从语言处理走向语言理解

2019-07-09 16:38 未知阅读：

在近二十年来, 尤其是引入深度学习以后, 语音识别取得了一系列重大突破, 并一步步走向市场并搭载到终端产品中。然而在用户体验上, 鲁棒性可以算得上这些产品最大的槽点之一, 这也意味着语音识别的鲁棒性问题已经成为了该领域研究亟待解决的难点。

IEEE Fellow、快商通首席科学家李海洲院士, 根据其在语音识别和声纹识别领域多年来的研究成果和经验积累, 总结出提升语音识别鲁棒性的三种途径。李海洲教授认为:如果希望技术有更近一层的突破, 我们需要将精力放于语音识别的后半段路——从语音语言处理走向语音语言理解。

分享一:提高语音识别鲁棒性的三种途径

近二十年, 语音识别技术取得显著进步, 但识别的鲁棒性问题一直阻碍着语音技术的进一步发展。对于语音识别和声纹识别来说, 该如何提升影响准确率的系统鲁棒性? 快商通首席科学家李海洲教授表示, 想要从根本上提升识别准确率, 可以从三个方面考虑。

首先, 专用系统转换为通用系统。

语音识别从实验室走向应用, 环境适应性一直是不容忽视的问题。实验室中训练良好的引擎, 一旦处于负责的噪声环境, 其识别准确率便会急剧下降。这些噪声主要来自于信道偏差, 环境噪音, 被污染的测试数据与训练数据的不匹配等。

因此, 想要提高识别准确率, 需将目前针对某单一环境的专用系统升级为通用系统, 提高识别引擎的自我学习能力, 才能使其适应不同环境的差异性。

第二，扩展获取语音信息的渠道。

假设三种场景:面对面交流、视频交流、电话语音交流, 人在哪种情况下能听得最清楚? 毫无疑问是面对面交流, 这种场景下沟通, 人们可以看到对方的表情、手势, 而这些信息也将辅助听觉获取更多的信息。

人类从单一的渠道获取信息尚且会有偏差的可能, 机器亦然。李教授认为, 未来将会形成语音、视觉等多渠道的技术手段, 来帮助语音识别和声纹识别进行准确率的提升。

第三，从语音语言处理走向语音语言理解。

人们普遍认为, 语音识别是将声音变为文字。但在快商通首席科学家李海洲教授的理解里, 语音识别的初衷是让机器听懂人类说话, 并不一定需要将声音转化为文字。就像人与人之间的交流, 并不需要先将对方说的语音转换成文字。

机器无法直接听懂人类的语言, 所以需要将语音转为文字来辅助, 但如果希望技术有更近一层的突破, 我们需要将精力放于语音识别的后半段路——从语音语言处理走向语音语言理解。

分享二:中国人工智能应用落地的三大优势

第四次工业革命即将来临, 世界各国已经认识到人工智能是未来国家之间竞争的关键赛场, 因而纷纷争夺这一轮科技革命的制高点。对于中国而言, 人工智能的发展是一个历史性的战略机遇, 政府创造土壤, 企业奋起发力, 中国在 AI 领域的实力与发展优势不断被世界认可。

基于多年海外经历培养出的国际化视角, 结合专业判断能力, 快商通首席科学家李海洲教授总结出中国人工智能应用落地的三大优势。

政府推动:在我国, 人工智能连续三年被写入总理政府工作报告, 并成为促进新兴产业加快发展的新动能。政府的推动与总体规划, 完善了人工智能基础设施的建设, 并使得各科技企业的技术能够稳步落地。

数据优势:人工智能的发展需要与深度学习和大数据紧密结合, 中国在数据资源这一方面的优势, 是毋庸置疑的。仅仅在日常生活中, 中国近 14 亿的人口就能产生比全球其他国家更多的数据。这让深度学习有一个用武之地。

企业环境:自 2012 年深度学习取得重大突破, 中国人工智能企业如雨后春笋般生长, 激烈的竞争环境下, 企业家们必须兼具创新与奋斗精神, 才能在大浪淘沙中适者生存。再这样的情况下, 中国人工智能技术的创业环境积极向上, 为优质的技术和企业家创造了健康的创业土壤。