标题 | 数据挖掘在科研设备管理中的应用 |
范文 | 李恩宁 梁山清 葛红志 刘荣斌 王晓玲 王珏 摘要:针对科研院所设备管理过程中普遍存在的设备真实使用率统计难、设备租借分配不合理等问题,将数据挖掘方法与实际问题相结合,根据设备管理系统采集的各设备电流数据,用支持向量机(Support Vector Machine,SVM)算法判定各设备的工作状态,进而分析出真实使用情况。根据各部门的设备历史租借清单,用Apriori关联规则算法分析得出不同设备间的共同关联关系,为科研设备管理部门采购及出租设备提供合理的分配方案。 关键词:数据挖掘;支持向量机;关联规则 中图分类号:TP18文献标志码:A文章编号:1008-1739(2020)13-60-4 0引言 科研院所和院校通用设备作为固定资产的组成部分,是现代化建设事业的重要物质保障。科学、有效地管理固定资产,发挥最大使用效益,对提高经济和社会效益、保证资产保值增值及保持和提高科研生产能力具有重要意义。 目前的设备管理系统[1-3],可实现设备信息的存储与查询,可采集设备电流、位置等信息,对使用情况做简单的统计分析。系统在信息化上有所突破,但智能化尚有不足。 数据挖掘[4]是人工智能和数据库领域研究的热点问题,涉及的分类算法[5]和关联规则[6-7]算法可应用于众多领域。本文借助设备管理系统,基于多分类SVM[8]思想,探究设备状态判定算法,分析单个设备的真实使用率;基于Apriori[9]思想,探究设备关联分析算法,分析设备间的借用和使用关联关系,对设备的购买、预期使用等提供合理的建议。 1优化算法 1.1优化方向 科研设备管理系统的优化方向有2个:①设备租用后使用率是一个受关注的问题,目前只能以电流值来识别关机和开机2种模式,认为开机就是在工作,并未深度探寻设备的真实工作情况,即无法判别开机工作还是开机空转的情况,以及工作中处于何种工作模式。将其抽象成分类问题,可考虑用SVM算法来建模判定状态,获取设备的真实使用率。②对于设备购置和借用分配问题,目前也未有更合理的解决方案,如果能够通过各借用部门对每类设备的历史使用情况分析出规律,则可作为一种辅助决策。将其抽象成关联规则问题,可考虑用Apriori算法从历史借用清单和使用数据中找出不同设备的关联关系,进而为每类设备的借用去向和数量提供参考。 1.2设备状态判定算法 SVM方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力[10]。 传统的SVM只能进行二分类,对于多分类问题,可组合多个二分类器来实现多分类器的构造,即训练出多个SVM分类函数,并构成类似二叉树的分类结构,对输入数据进行判定。 在设备管理系统中,简单的设备状态很少,通过电流加上允许的误差就可以判断出状态,复杂的设备有很多状态,且各种状态下,电流差别不大。为了进行精确分析,需要掌握准确的状态。为此,可将设备型号、电流值以及设备所处状态3个指标作为一个样本进行存储,生成训练样本集合和验证样本集合,其中设备所处状态作为标签,运用SVM方法训练和验证多个SVM分类模型的组合。具体算法如下: ④再以同样的方式,每次将工作状态中的第一个设置为-1,其余设置为1,重复上述步骤,得到更多的分类函数,最终分类函数为( ),2( ),...,+1( )。 根据设备的实际数据,生成输入项,依次经过( ),2( ),...,+1( )的判断,如果在+1( )之前的任一分类函数得到-1则停止,得到对应的设备状态;否则+1( )=1,即工作状态为对应的设备状态。根据算法实时判定的工作状态,可统计单台设备每天的真实使用率。 1.3设备关联分析算法 Apriori是布爾关联规则挖掘频繁项集的原创性算法,使用一种称作逐层搜索的迭代方法,查找存在于项目集合或对象集合之间的频繁模式、关联性或因果结构[11-12]。 在设备管理系统中,根据设备历史租用和使用数据,分析设备间的关联关系。此项分析中,考虑静态和动态2种情况: ①静态:根据设备出借情况,分析设备间的关联程度,从共同出借的设备找关联关系。从各部门大量的历史借用清单入手,用Apriori算法挖掘哪些设备总是一起被借用,这个不限于指定的部门,也许好几个部门都需要同时借某几种设备,这个结果反映了对各种设备的需求关联。 ②动态:以同一部门使用的设备、相同时间段处于工作状态以及地理位置相互靠近为条件,选取满足条件的设备,分析设备间的使用关联关系。从使用数据中找到共同使用的设备,反映具体的科研项目对设备的需求。 上述分析,使用关联规则算法。具体算法如下: 支持度:所有设备借用清单中,某几类设备同时出现的次数与总的清单数的比例。 最小支持度阈值:设置支持度的最小值,大于或等于该阈值的可称为频繁项集;小于该阈值的项集则被过滤掉。 项:指单台设备。 项集:几类设备的组合。 频繁项集:指频繁在清单中出现的项集,所谓“频繁”的标准就是这个项集出现的次数满足最小支持度阈值。 频繁项集:种设备同时在清单中频繁出现。 算法运行结束,可从1到最大数目输出有关联关系的设备组,并给出每组关联的支持度和置信度等指标。在找出相互关联的设备后,可对管理部门在设备数量购置和借用去向上提供参考建议。 2算法应用示例 2.1设备状态判定算法 离线训练阶段:采集数据,形成数据矩阵,=[示波器A 10 mA待机;频谱仪R 200 mA开机;信号发生器B 170 mA工作狀态2;……],是一个100行3列的矩阵,即数据采集了100条,x是这个矩阵的前2列,第1列设备型号可用数字代替,便于数值计算,且要求同类设备数字相同;第2列是电流值,单位为mA;是最后一列,表示设备状态,假如所有设备状态共有{待机、开机、工作状态1、工作状态2}4种,因为SVM分类函数要求每次只能分成2类,值标签只有{-1,1},故先将=[{待机}、{开机、工作状态1、工作状态2}],将{待机}置为-1,{开机、工作状态1、工作状态2}置为1,训练分类函数( ),得到的结果可判定新数据处于待机还是其他3种状态;再以同样的方式,以=[{开机}、{工作状态1、工作状态2}]为标签,其中将{开机}置为-1,{工作状态1、工作状态2}置为1,再次划分得到分类函数2( ),得到的结果可判定新数据处于开机还是其他2种工作状态;再以同样的方式可得到3( ),能区分新数据处于工作状态1还是工作状态2。 在线判定阶段:如前所述生成了分类函数组合,现在输入一组新数据=[信号发生器B 210 mA],经( )判定,结果为1,则继续由2( )判断,结果为1,则继续由3( )判定,结果为-1,则表示处于工作状态1,结束。具体过程如图1所示。 图中蓝色部分为数据经过的判定流程,上述结果为设备状态的一次判定结果,可设定时段为5 min判定一次,则该设备当天进行了288次判断,其中122次处于待机,54次处于开机,112次处于工作状态1,则该设备当天的实际时长为9 h 20 min,真实使用率为38.9%,有4.5 h处于开机不工作的状态,其余时段处于待机状态。 2.2设备关联分析算法 现在有9份设备借用清单,共涉及5类设备,即:{E1,E2,E5},{E2,E4},{E2,E3},{E1,E2,E4},{E1,E3},{E2,E3},{E1,E3},{E1,E2,E3,E5},{E1,E2,E3},其中,E1代表示波器,E2代表频谱仪,E3代表信号发生器,E4代表电源,E5代表噪声发生器,最小支持度阈值min_sup=2。通过L1过程可知5种设备支持度都大于设定阈值,即都属于频繁被借用的;通过L2过程可知E1示波器分别与E2频谱仪、E3信号发生器、E5噪声发生器相关联,E2频谱仪分别与E3信号发生器、E4电源、E5噪声发生器相关联;通过L3过程可知,3种设备相互关联的有E1示波器、E2频谱仪、E3信号发生器,还有E1示波器、E2频谱仪、E5噪声发生器。具体过程如图2所示。 算法得出互相关联的若干类设备后,可进一步搜寻这几种设备的使用关联关系,具体实施步骤为:在管理平台上将检索条件设置为同一部门、同一地理位置,并统计每类设备的使用时间段,两两进行比较,如果某2种设备的工作时间段T1,T2的重合度大于50%,则说明这2种设备间具有使用关联关系,依次类推。例如,在分析出E1示波器和E2频谱仪具有关联关系后,根据历史GPS定位数据,查询到在某天这2种设备处在同一部门,并根据统计由设备状态判定算法给出的真实使用时段,得出当天这2种设备有67.3%的时间段在同时使用,则它们具备使用关联关系。 3结束语 通过介绍数据挖掘方法中的SVM、Apriori两种经典算法,以及科研设备管理系统的特点和存在问题,提出将SVM、Apriori算法分别应用在设备工作状态判定以及设备间的关联关系分析上,发挥2种算法的独特优势,可为科研部门在设备管理、租借、购置等方面提供合理的参考依据。 参考文献 [1]闫伟.以使用单位为主体的资产综合管理系统的构建[J].实验室科学,2018,21(6):71-73,77. [2]王昆.探讨实验室仪器设备的管理[J].中国检验检测,2017, 25(3):59-61. [3]陆琳睿,李光辉.大数据背景下的仪器设备信息化管理探究[J].实验技术与管理,2018,35(4):155-158. [4]张曾莲.基于非营利性、数据挖掘和科学管理的高校财务分析、评价与管理研究[M].北京:首都经济贸易大学出版社, 2014. [5]田文英.机器学习与数据挖掘[J].石家庄职业技术学院学报, 2004(6):30-32. [6] MITCHELL T M.机器学习[M].曾华军,张银奎,等,译.北京:机械工业出版社,2003. [7]穆瑞辉,付欢.浅析数据挖掘概念与技术[J].新乡教育学院学报,2008,21(3):105-106. [8]罗娜.数据挖掘中的新方法———支持向量机[J].软件导刊, 2008(10):30-31. [9]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社, 2004. [10] GRUNWALD P D,RISSANEN J. The Minimum Description Length Principle[M].Cambridge,Ma:MIT Press,2007. [11]胡可云,田凤占,黄厚宽.数据挖掘理论与应用[M].北京:清华大学出版社,2008. [12]吴昱.大数据精准挖掘[M].北京:化学工业出版社,2014. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。