人工智能技术及其应用探究

2023.05.20

过馨露
摘要：人工智能涉及的技术繁多，应用领域广泛。人工智能技术的核心思想是为训练集找到一个优化的拟合函数，用以对数据进行预测和分类。从主流技术出发，介绍了不同技术的应用场景，阐述了人工智能技术的核心思想，梳理了不同模型和算法的共性，从而提高学习和应用效率。
关键词：人工智能；机器学习；语音识别；图像识别
DOIDOI：10.11907/rjdk.173262
中图分类号：TP3-0
文献标识码：A 文章编号：1672-7800（2018）002-0035-03
0 引言
随着AlphaGo打败围棋大师李世石，人工智能逐渐进入了人们的视野。如果说AlphaGo还是基于人类经验的学习，那么AlphaZero的成功则是颠覆人们认知的，人工智能机器能够从零开始学习，完全不需要人类经验的介入，其技术的发展甚至让人产生了一些恐惧。面对这日新月异的技术革新，国务院发布了《新一代人工智能发展规划》，将人工智能技术提到了国家发展战略的高度[1]。其后，教育部考试中心又将Python这一人工智能领域最通用的编程语言纳入了全国计算机二级考试科目，全国各地也纷纷将Python加入高考科目，这说明我国进入了人工智能时代。
人工智能概念最早由麦卡赛等[2]于1956年提出，20世纪90年代初发展到了顶峰，然而，受当时神经网络技术的限制，又一度陷入低迷[3]。2000年，Sharma等 [4]的实验发现鼬鼠的视觉和听觉算法是相通的，这给了研究者很大的启发。其后多个实验证明，人类的很多活动是靠大脑后天习得的，因而大脑学习算法成为研究的热点[5-6]。2006年，Hinton等 [7]开发出了高效的深度学习算法，打破了原先神经网络算法的限制，使得人工智能研究再次成为焦点。
1 人工智能实现方式
目前的人工智能处于弱人工智能阶段。所谓弱人工智能是指机器能够智能学习一些事物的规律，但其本身并没有人类的知觉和思维。
弱人工智能阶段，机器实现智能化主要有两种方式：①事先给定某种数据处理的规则，机器按照既定的规则编写程序，处理指定的任务。这种方式从结果上看，机器智能地完成了给定的任务，但实际上其处理数据的过程采用的逻辑并非机器本身习得，而是人为规定的；②另一种方式恰好与之相反，事先并未给机器指定任何规则，而是给机器提供大量与指定任务相关的数据，机器自己通过某种处理方式，从数据中找出规律，并习得解决问题的逻辑，从而完成指定的任务，后者称为机器学习[8-9]。
举例来说，想让机器具有识别鹿的能力有两种方式，第一种是给定规则的，即需要事先告诉机器，鹿的特征是头上有角、四条腿、有尾巴等等，然后让机器将满足给定特征的图片识别为鹿。第二种方式是不给定规则，即并未告诉机器鹿有哪些特征，但是提供给机器10万张关于鹿的图片，让机器自己从这些图片中学习到鹿的特征是头上有角、四条腿、有尾巴等等，从而具有從不同动物的图片中识别出鹿的能力。前一种方法会受到人类经验的限制，也就是说事先给定的规则越多，识别越准确。而事先若提供了错误的规则，那么机器无法自行更正。而后一种方法则不受人类经验的限制，只要提供训练的数据越充分识别就越准确。因而，机器学习是人工智能研究的重点内容。
2 机器学习
机器学习的本质是数据与算法以及模型的总和。若要让机器获得区分鹿和马的智能，必须具备3个要素。
2.1 数据
数据就是需要准备大量的关于鹿和马的图片，并且给这些图片打上对应的标签，标明哪个是鹿，哪个是马，用于训练机器，让其自行获得鹿和马的特征区别，从而能够准确地区分鹿和马。这里需要强调的是，图片的数量必须多。因为我们知道，鹿与马有许多相似的特征，例如都有四条腿、都有尾巴、体表都无绒毛等。当数据量不够充分时，这些相似的特征将会覆盖各自独有的特征，例如鹿头上有角，而马头上没有角等，从而使机器无法准确区分出两种动物的差别。机器对于鹿或马的识别是以概率的形式存在的，也就是说，如果给定一张鹿的图片，即使在数量足够充分的情况下，还是会有一定的概率将其识别为马。而数据量越大，识别为马的概率越低，而识别为鹿的概率越接近于1，测试结果就越准确。
2.2 算法
机器学习根据其学习算法的层次深度，分为浅层学习和深度学习。
浅层学习在其模型中一般不含隐含层或只有一层隐含层。常见的浅层学习有线性回归、随机森林、K-mean等，浅层学习主要用于预测数据走向、进行数据分类、实现智能推荐系统等领域[8-9]。
深度学习含有较多的隐含层，因而能够完成更复杂的学习任务，目前的研究热点主要有CNN和RNN两种[8-10]。CNN称为卷积神经网络，是通过卷积操作提取数据的特征值，从而降低冗余信息的噪音，提高计算效率，主要应用于图像识别领域。RNN称为递归神经网络，该网络能够记住过去的信息，可处理具有时序性的数据，主要应用于语音识别等领域。
无论使用哪种算法，其基本原理都是一致的。仍以鹿马识别为例说明算法的实现方式。用函数Y=f（W，x，b）表示图片与其对应动物的相关性，其中，x表示向机器输入的各种关于鹿和马的图片，Y表示图片所对应的标签，即图片显示的是鹿还是马的标识，W和b是一组参数，W表示权重，即图片对应于鹿或马的概率，而b表示权重，即对识别结果的修正，W和b这组参数是未知的，正是需要机器自行学习才能获得。
2.3 模型
模型就是将事先提供的关于鹿和马的图片数据代入到算法中，对其函数模型进行训练，不断迭代，得到最优的参数W和b，完成训练，确定出函数Y=f（W，x，b）关系。在训练集数据以外再提供一系列关于鹿和马的图片数据，代入确定的函数中，输出该图片到底是鹿还是马，用于测试模型的准确率。
人工智能的根本目标是通过数据、算法、模型的有机结合与不断优化，获得一个良好的拟合函数Y=f（W，x，b），使得该函数能够在未知的数据集上有良好的预测表现，如图1所示。算法优化的最终目的也是为了提高拟合函数的精度，降低计算的复杂度。
3 人工智能应用场景
目前，人工智能已应用到政务、公安、交通、环境、医疗、金融、教育等诸多领域。应用由技术衍生而来，人工智能的主流技术分类并不复杂。表1展示了美国与中国在人工智能领域申请专利的细分领域所占百分比[11]。从表中可以看出，人工智能的应用场景主要对应于机器人、语音识别、图像识别等技术。下面从主流技术角度进行分类，探究人工智能的应用场景。
3.1 机器人应用
机器人，顾名思义就是要制造出可以模仿人类各种行为举止的机器[12-14]。目前机器人已经能够模仿人类的很多动作，除了基本的跑、跳、翻转外，还可进行细致作业，如开瓶盖等。图2展示了本田于2011年发布的“ASIMO2011”机器人[15]，他具有视觉和触觉的识别功能，能根据人类发出的指令完成任务。当然，若要实现机器人对人类的完全仿真，还有很长的路要走。
3.2 语音识别应用
语音识别就是将语音转化成文本的技术，包括对语义的分析和识别[15-16]。2013年，Hinton与微软合作开发的同声传译，其错误率已经低至17.7%[17]。截止到2016年，运用神经网络算法制成的同声速记已经能够达到95%的准确率，打败了人类速记员[15]。在语义分词分析方面，神经网络算法也有很好的表现。例如，谷歌的翻译系统目前已经可以完胜人类翻译。此外，语音识别还被广泛应用于对话机器人，如Siri等。机器能够通过对自然语言的学习，识别出语音的含义，并作出合理的回答，从而实现人机对话。将语音识别与家居相结合，则可以实现语音控制，免除了对遥控器的依赖[18]。
3.3 图像识别应用
图像识别的重要应用之一便是人脸识别[15]。截止2015年，基于神经网络的人脸识别已达到99.53%的准确率，超过了人类识别的97.53%[19]。目前，人脸识别已应用于诸多场景，如FaceU等美颜相机，可通过面部的精准捕获进行图片美化。图像识别还可应用于交通方面，摄像头获取的车辆图片可用于识别车辆信息及车牌号。在无人车方面，可通过图像识别技术判断行车路线、躲避障碍物等。
4 结语
本文详细介绍了人工智能的核心思想，数据、算法与模型，介绍了机器学习、神经网络的基本概念，展示了人工智能的应用场景。人工智能的发展，必将给人们的生活带来巨大的变化，我们应以拥抱变革的心态迎接新的技术，实现可持续发展。
参考文献：
[1] 国务院.新一代人工智能发展规划[EB/OL]. http：//www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[2] 沈威.国内人工智能应用研究进展[J].软件导刊，2007（2）：11-12.
[3] 顾险峰.人工智能的历史回顾和发展现状[J].自然杂志，2016，38（3）：157-166.
[4] SHARMA J， ANGELUCCI A， SUR M. Induction of visual orientationmodules in auditory cortex [J]. Nature， 2000（404）：841-847.
[5] VUILLERME N， CUISINIER R. Sensory supplementation through tongue electrotactile stimulation to preserve head stabilization in space in the absence of vision [J]. Investigative Ophthalmology & Visual Science， 2008， 50（1）：476-811.
[6] 鐘义信.人工智能：概念·方法·机遇[J].科学通报，2017，62（22）：2473-2479.
[7] RUMELHART D E， HINTON G E， WILLIAMS R J. Learning representations by back propagating errors [J]. Nature， 1986，323（6088）：533-536.
[8] 张润，王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报：自然科学版， 2016， 23（2）：10-24.
[9] 何清，李宁，罗文娟，等.大数据下的机器学习算法综述[J].模式识别与人工智能，2014，27（4）：327-336.
[10] 尹宝才，王文通，王立春.深度学习研究综述[J].北京工业大学学报，2015，41（1）：48-59.
[11] 李尊.为什么说目前人工智能主要应用在这七个领域 [EB/OL] . https：//www.leiphone.com/news/201610/v4WFmCMykIztIWpG.html.
[12] 刘建军.浅谈人工智能应用[J].现代工业经济和信息化，2013（52）：74-75.
[13] 王国彪，陈殿生，陈科位，等.仿生机器人研究现状与发展趋势[J].机械工程学报，2015，51（13）：27-44.
[14] HONDA. Honda Corporation again published new ASIMO robot after four years[J]. Sensor World，2011（11）：38-39.
[15] 章毅，郭泉，王建勇.大数据分析的神经网络方法[J].工程科学与技术，2017，49（1）：9-18.
[16] 黎亚雄，张坚强，潘登，等.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展，2014， 51（9）：1936-1944.
[17] GRAVES A， MOHAMED A， HINTON G. Speech recognition with deep recurrent neural networks[C]. Proceedings of 2013 IEEE International Conference on Acoustics， Speech and Signal Processing.Vancouver： IEEE， 2013：6645-6649.
[18] 刘荣辉，彭世国，刘国.基于智能家居控制的嵌入式语音识别系统[J].广东工业大学学报，2014，31（2）：49-53.
[19] SUN YI，LIANG DING，WANG XIAOGANG，et al. Deepid3： face recognition with very deep neural networks[J]. Computer Science，2015（150）：873-875.