新闻资讯

智能互联网时代来临,最先爆发的AI应用会是语音吗?

封面 2018-01-19 14:33 傅俊


移动互联网之后智能互联网时代已然来临。不过,究竟什么是人工智能?AlphaGo战胜人类棋手除了可以作为谈资之外其实与大多数人没关系,用人工智能技术调度外卖配送员我们普通人也感受不到其威力。其实现阶段,人工智能技术最典型且最先普及的应该是语音——如果说人工智能是互联网上的皇冠,那么,语音技术就是这颗皇冠上最璀璨的那颗明珠。


种种迹象表明,智能语音正在改变我们的生活或者生产方式:

在上海一家肯德基餐厅内,度秘可接收顾客的语音命令帮客人点餐;

Amazon Echo和Google Home为代表的智能音箱,正在成为家庭的新入口;

阿里云栖大会和天猫双11晚会上,演讲嘉宾的话被实时转化为文字,准确率近100%;

锤子M1L发布时,讯飞语音输入法成为这场发布会的最大亮点;

手机天猫的商品评论功能已经支持语音输入,大幅提升了用户的评论意愿;

……


由于更加自然、快速和简单,语音正在逐步取代打字成为主流交互方式,各行各业都在思考如何利用语音技术,手机电视等硬件厂商加入语音将之当做卖点,O2O服务平台加入语音搜索便于用户下单,电商平台加入语音评论功能降低互动门槛,售后服务加入语音降低客服压力,企业借助于语音工具记录会议内容……

智能互联网时代来临,最先爆发的AI应用会是语音吗? 图1

语音技术大规模爆发

 

语音进入大众视野已有许多年历史,事实上,Siri早在2011年就已经发布,当时国内也有不少跟随者,为什么5年之后的今天语音才进入爆发期呢?最关键的原因在于:

1、技术进入成熟可用阶段。当识别率只有90%的时候,语音就会被吐槽为玩具,然而,随着深度学习技术被引入语音之中,语音技术就实现了从90%99%的跨越。百度有基于百度大脑深度学习技术的Deep-Speed技术,讯飞有讯飞超脑,云知声专注物联网的人工智能服务。人工智能驱动语音技术走向成熟,变得可用,是语音技术今天爆发的第一个背景。


24G网络普及速度超预期。不论是Siri还是语音输入法,要能准确、快速识别出语音的前提是终端要接入网络,并且要高速网络,4G网络在最近两三年的普及速度超过了所有人的预期,5G商用也越来越近了,高速的网络环境给语音提供了便利的基础设施。


3、大数据和云计算普及应用。人工智能算法生效的前提是对海量数据进行机器学习,同时要通过云端大规模集群进行并发式计算。语音技术需要对大量的语料进行计算,大数据和云计算在这几年成为互联网基础设施,成为语音技术爆发的又一个前提。


4、语音应用场景大幅增加。这几年,后移动互联网时代迎来了几波潮流:O2O、智能硬件(智能汽车、智能家居、智能可穿戴等等)还有互联网+,这些场景给语音提供了大量的应用场景。


语音爆发在即,开发者并不具备研发语音底层技术的能力,但可以将语音技术与自身业务紧密结合,成为语音技术的应用者。市面上有不少语音开放平台,有的收费、有的免费。可可行智能HUD, 提供全新智能驾驶体验。不仅有平视显示驾驶信息,智能语音交互方式也是其中一大特色。其选择的语音技术平台是云知声,语音方案提供商中的佼佼者。

 

智能互联网时代来临,最先爆发的AI应用会是语音吗? 图2

目前语音技术还有许多重点领域要克服,除了抗噪、口音两大问题之外,语音接下来的关键竞争点在于:

1、语音唤醒技术。

现在一般通过“Hey Siri”“Ok Google”等唤醒词唤醒语音助手,对移动设备来说有较高的功耗压力,还有就是唤醒准确率存在问题,要么听不到,要么误判,体验不够好。可可行智能HUD使用“小可你好”作为唤醒词,一次唤醒,误识别率低于99%


2、远场语音交互。

现在语音交互技术对人与设备之间的距离有要求,远场语音交互技术解决的就是这个问题,可可行智能HUD因为是在一个相对封闭的汽车内部环境,无需贴近设备,正常驾驶,语音说出命令,完美响应。

 

 3、语音合成技术。

现在机器说话都很死板,我们很容易听出来一段话是人还是机器说的。接下来语音合成技术的关键是,让机器说话声音更像真人,不只是音色接近真人,而是更有情感,抑扬顿挫、饱含深情。可可行智能HUD,选择云知声作为支持服务商基于大数据和深度学习建模方式,在情感合成上有较好的表现,语音开放平台增加的一个新能力就是语音合成技术。

 

4、长语音识别。

输入一大段话的识别,过去对机器来说很有难度,涉及到断句等诸多方面,现在声音识别都有不错的表现,这表明长语音识别技术正趋于成熟。不过,要实现同声传译、用语音发邮件、写文章,甚至进行会议纪要,短期内还是很困难的。

 

5、语义理解技术。

语义理解能力进一步提升,中文博大精深,很多话文字一样,不同场景表达意思不一样,语音技术要跟场景结合去理解语义,还要结合上下文。甚至要跟别的智能技术结合去理解,比如用户会问我们这里的天气怎么样,这需要LBS技术的配合。总之,基于场景、结合人工智能综合技术的语义理解,可能会是语音技术接下来攻克的重点。

可可行智能HUD具备信息查询功能,可以查询周边娱乐地址,快速响应你需要的咨询,还可以查询当日股票信息哦。

 

智能互联网时代来临,最先爆发的AI应用会是语音吗? 图3

随着IoT时代到来,越来越多的联网设备会遍布在我们周围,手机、电视、电灯、汽车都会具备语音交互能力,随时待命,聆听我们的声音并做出响应。

可可行智能HUD作为先行者,因为语音技术的成熟,解放了我们的双手,安全驾驶,一路同行,我们的世界将更加美好,未来已来。

上一篇 下一篇