李彦宏：百度大脑可以让人人都能拥有自己的声音模型

9月1日，在一年一度的百度世界大会上，百度创始人、董事长兼CEO李彦宏发表主题演讲，向外界首次系统揭秘了百度大脑。在现场李彦宏介绍，百度大脑今天是一个具有超大规模的神经网络组成的大的机器集群，“使用了上万亿的参数、千亿的样本和千亿的特征进行训练”。他表示，目前百度大脑具备四个最核心也是最强大的能力：语音、图像、自然语言处理以及用户画像。

谈及百度在语音技术上取得的最新进展，李彦宏指出，百度的语音技术已达到世界领先水平，其中语音识别准确率高达97%。“这样的能力已经达到甚至超过了人的语言能力”，李彦宏说。今年年初，美国权威杂志《MIT科技评论》评选了“2016年十大突破技术”，百度的语音技术Deep Speech 2和免疫工程、可回收火箭等技术一起，都入选了这份榜单。

在现场李彦宏则以百度开放云销售为例，展示了语音识别技术在智能辅助系统中的实际应用。在销售新人与客户的通话过程中，实时识别对话内容进行分析和匹配，抓取沟通关键点，对接金牌销售所沉淀下来的知识体系，及时调整策略，推荐优质话术，成功赢得潜在商机。过去没有这种实时的语音技术，就要线下学习、然后再到线上用。根据客户的问题、实时告诉销售应该怎么回答

除了语音识别之外，语音合成是百度大脑的另一项语音能力。基于大数据与深度学习技术优势，百度所研发的新型情感语音合成系统能够让机器摆脱平铺直叙的发声，为用户带来更自然、更具情感表现力、更接近真人朗读的听觉体验。李彦宏表示，“今天的百度每天要响应2.5亿次语音合成的请求”，这些需求主要来自语音导航、语音新闻播报、语音读小说等阅读场景。情感语音合成技术的应用，让在百度听小说的用户的每日人均时长从40分钟，快速增长到现在的近两个半小时，李彦宏强调，用手机听小说和传统的听广播是非常不一样的，因为手机的语音合成完全可以根据每个人的不同需求进行定制，这也是语音技术可以带来更强用户粘性的原因。

李彦宏还表示，“语音不仅具备自然发声的能力，还能够模拟自然人的表达方式或发声能力，也就是说，它可以模拟任何一个你喜欢的人的说话方式。”李彦宏现场展示了运用情感语音合成技术还原张国荣声音的视频。以张国荣在影视、电台等留存下来的原声进行建模，通过情感语音合成技术实现与粉丝的“隔空对话”。实际上，任何一个人只要用30分钟按照要求录制50句话，就可以用百度大脑的语音合成技术模拟出来这个人的声音，“百度大脑让每个人都能拥有自己的声音模型”，李彦宏还谈到，这样的语音能力同样会带来各种各样新的可能性，比如用自己合成的声音陪老人聊天，加班时用自己合成的声音给孩子读个睡前故事等等。

随着技术的不断进步，科技的力量正日渐改变大众生活。与此同时，百度领先的语音技术也逐渐令人工智能富有“情感”，让公众切身感知到技术的温度。正如李彦宏所说，更让他感到兴奋的是，“如果这些人工智能的能力可以赋予全社会每一个人，技术就能够变换出来无穷无尽的可能性。”未来，随着人工智能技术的进步将为人类带来更广阔的想象空间。