基于数据挖掘的选课推荐系统设计与实现

    冯楚生 杜晓明

    

    

    摘? 要 在高校管理系统中,学生信息数据量众多,但对信息的利用率低,无法为学生提供完善的课程推荐服务。提出利用数据挖掘技术构建学生个性化的选课推荐系统,首先,分析学生行为特征,提取学生的个性特征并构建学生的用户画像;其次,根据Apriori算法对课程信息进行关联分析,挖掘课程之间的关联性,优化选课推荐集。通过个性化推荐选课服务,促进学生个性化学习,使学生更好地利用学校资源。

    关键词 数据挖掘;选课推荐系统;用户画像;关联规则;Apriori算法

    中图分类号:G642? ? 文献标识码:B

    文章编号:1671-489X(2020)16-0012-03

    Design of Course Selection Recommendation System based on Data Mining//FENG Chusheng, DU Xiaoming

    Abstract For todays college management systems, there is a lotof student information data, but the interest rate of the school for?information is low, and it cannot provide students with comprehen-sive student course management and course recommendation ser-vices. This paper proposes to use data mining technology to con-struct a personalized recommendation system for students. We ana-lyze the behavioral characteristics of students, extract the personalitycharacteristics of students and construct student portraits of students, recommend courses based on the characteristics of student portraits, and then use the Apriori algorithm to conduct course information. Association analysis, mining the correlation between courses, and optimizing the set of recommended courses. Through personalized recommendation course selection service, students personalized?learning can be improved, students learning dynamics can be under-stood, students can make better use of school resources, further im-prove the schools teaching services, and improve the schools tea-ching quality.

    Key words data mining; course selection recommendation system; association rules; Apriori algorithm

    1 引言

    隨着信息技术的发展,数据产生的渠道也在迅猛增多,随之而来的数据库中包含的数据量也在呈指数增加趋势,从收集到的数据中找到有用信息的方法就变得尤为重要。数据挖掘是其中非常关键的技术之一,它能使数学算法与大数据有机地结合起来,并应用于实际工作中[1]。

    数据挖掘技术的研究如今已经在生活中的各个领域得到广泛应用,在国外很早之前就有学者提出要将数据挖掘技术应用到教育领域。随着现如今高校教育的改革,就选课功能而言,学生培养计划中的大部分课程由学校制定为必修课,小部分课程为学生自主选择研究方向后选择的专业选修课和公共选修课[2]。就必修课程而言,每学期安排的必修课程之间的前后关联顺序安排是学校教学需要讨论的重点。对于刚入学的新生,在基础课程未学习掌握时,一般会对后期成绩产生部分影响。每学期的时间是固定的,那么每学期安排多少课程,对学生学习和掌握知识会产生影响。同样,对于选修课而言,存在公共选修课种类众多而专业选修课的专业方向不明确等诸如此类的问题,然而学生在面对未知的课程时,只能根据课程名称来选择自己选修的课程,往往无法选到真正对自己专业方向有帮助或是自己感兴趣的课程。

    如今在高校管理信息系统中,存在往年众多的信息数据,但是学校对于信息的利用大部分停留在简单的增加、删除、修改、查找的阶段,甚至有些高校为减少内存的占用,定期将部分信息从学生信息系统中删除。对教学数据进行科学使用并深入挖掘分析,可以帮助教务部门合理安排课程,并对一些不合理的课程进行调整,从而适应学生个性化发展的需要,合理分配教学资源,帮助学生找到学习目标,提高高校的教学水平和学生的整体素质[3]。

    2 相关研究

    数据挖掘是从随机的、大量的、模糊的、不完全的、有噪声的数据中,运用统计学、机器学习、人工智能等科学方法挖掘出隐含在其中的未知的、但有潜在价值的信息和知识的过程[4]。通过对数据的挖掘来获得未知的模式与规律。本文运用用户画像、关联规则技术对学生基本信息、课程成绩信息进行挖掘分析,挖掘出学生与课程之间的规律,并利用规律实现对课程的个性化推荐。

    用户画像? 在20世纪90年代,Alan Cooper就提出用户画像是真实用户的虚拟表示,是利用一系列真实数据对用户进行建模表示的产物[5]。用户画像是通过搜集和分析用户个人属性、行为偏好、心理状态等数据,将用户信息行为抽象化展示[6]。通常以可视化的形式进行表示,用一系列的用户标签对用户的行为特征信息进行描述[7]。用户标签表示用户的兴趣爱好、行为习惯、心理状态等,对每个标签赋予不同的权重来表示标签特征的需求程度,从而实现量化用户特征的目的[8]。对于高校信息化教育建设而言,用户画像就是指面向高校学生,通过收集学生各种信息数据,如个人信息、消费数据、图书借阅数据等,进行深度分析,建立起一个以标签形式为主的学生用户模型。

    关联规则? R.Agrawal等人在1993年提出关联规则,现在成为数据挖掘领域的一个重要研究方向[9]。它通常应用在销售事务数据库中,通过找到已售商品之间的联系,挖掘其隐藏的客观规律,并利用该规律合理安排商品的摆放和搭配,从而获得更高经济效益。Agrawal和Srikant(1994)在频繁的k-项目集中观察到一个有趣的向下闭包性质,称为Apriori:只有当k-项目集的所有子项目集都是频繁的时,它才是频繁的[10]。本文使用关联分析的方法分析学生课程之间的关联,这种关联分析对教学管理很有帮助,可以了解学生先通过学习哪些公选课获得知识,而后继续学习其他的公选课。本文使用经典的Apriori算法对选修的课程进行关联分析。

    3 个性化课程推荐系统设计

    推荐系统通常是内嵌于的系统或网站中,在系统或网站运行过程中发挥向用户提供个性化推荐的功能。它通过统计和分析用户的行为习惯、用户特征等,构建用户画像,预测用户兴趣偏好,向用户推荐可能喜欢的物品。最常被使用的推荐算法是协同过滤算法,可以共用他人经验,避免内容分析的不确定性。当然,它也存在冷启动、稀疏性的缺点,此时需要根据具体的应用环境,选择合适的推荐算法。而课程推荐不同于商品推荐,学生选课时往往会受到朋友和同学的影响,课程推荐具有群体性。同时,课程应该是有先后顺序的“商品”,前一个课程的学习会对之后的课程产生影响,若只推荐热门课程容易造成“马太效应”。

    在学生信息中心存在大量数据,包括学生的学籍信息、一卡通消费数据、图书借阅数据、考勤数据等,这些数据都相对独立地存在于各个系统中,尚未被有效利用和指导学生学习,本文介绍如何利用这些数据信息指导学生选课服务。各个系统中存在不同类型的学生数据,反映学生不同的特征。首先收集这些信息,对这些信息进行整理建模,构建学生用户画像,将学生信息标签化,寻找学生选课偏好和亲密学生兴趣偏好;其次,预选课程成绩受到众多因素影响,通过贝叶斯网络对预选课程进行预测,优化推荐集。对于已选部分课程的学生,对课程进行关联分析,通过已选课程推荐下一个课程。

    构建学生用户画像? 构建用户画像的基本技术流程是采集原始数据、标准化清洗、建立数据模型、数据运算分析、可视化呈现[11]。在实际操作过程中,根据实际的工作需要,建立相关的数据模型,对学生标签赋予不同的权重,构建不同的用户画像。本文是构建学生用户画像,所以从学生的行为习惯、亲密关系等方面来构建学生的用户画像。收集各个系统的数据,对系统中的数据简单进行统计分析,建立标签模型,而后利用这些标签模型进行个性化推荐服务。具体流程如图1所示。

    1)兴趣偏好推荐模型。通过图书馆数据和考勤数据统计学生的阅读时间和访问行为,构建学生的行为画像,反映学生的努力程度。若学生出勤率低,反映学生不愿去教室上课,可优先向其推荐网络课程,方便学生随时学习。对学生的早起情况进行分析,可以通过学生的刷卡时间和课程实际情况判断学生是否有早起习惯,若学生无早起习惯,则优先向其推荐下午或者晚上的选修课程或者无时间要求的网课。按照图书分类的方法对图书借阅数据进行分析,对学生借阅情况进行归类统计分析,找出学生最感兴趣的图书類别,作为推荐的方向。最终通过学生的上课偏好、早起习惯、图书偏好进行个性化推荐选修课程。

    2)亲密度推荐模型。在实际选课时,朋友或者同学会影响学生的选课情况,他们倾向于选择那些与他们关系比较亲密的同学的相同或相似的课程。从学生的一卡通刷卡记录中,统计所有学生与目标学生在两分钟内共同参与某件事件的次数,如进出宿舍、吃饭、考勤、进出图书馆等,然后根据相关公式计算学生亲密度,寻找出亲密度较高的学生,根据这些学生的选课情况,对目标学生进行课程推荐[12]。

    3)预选课程成绩预测模型。学生成绩与多重要素相关,系统中存在大量数据,将其分成直接相关数据和间接相关数据。以往的考试成绩、对基础知识掌握程度等构成直接相关数据,反映学生直接的学习状态。学生的行为习惯等数据是间接相关数据,学习成绩与良好的行为习惯呈正相关。这些行为习惯数据包括就餐规律、打水规律、图书馆进出频次、图书借阅记录、宿舍门禁进出规律、校园购物频次及金额等。通过贝叶斯网络,依据直接相关数据和间接相关数据,对预选课程成绩进行预测。

    关联推荐模型? 课程之间具有高度关联性。通过运用Apriori关联算法对课程关系进行挖掘,生成关联课程推荐集。对于已选修部分课程的学生,可通过关联课程推荐集进行推荐,同时结合学业计划要求和已选课程情况进行调整。若已选修两学分的自然创新类,而学业计划中要求选修六学分的人文类课程,四学分的自然创新类课程,则需要减少自然创新类课程的推荐。

    4 系统评价

    收集某高校2014—2018级所有学生数据,并运用这些数据对本文推荐算法与热门课程推荐算法、协同过滤算法进行比较分析,主要从推荐课程的精确率、召回率、覆盖率方面对算法进行比较分析[13],结果表1所示。

    从实验结果可以看出,本文所用的推荐算法准确度达到18%,大幅提高了选课系统的精度;在召回率和覆盖率上都明显优于热门课程推荐算法和协同过滤算法。这说明一些传统的推荐算法可能适用于其他系统,但不适用于选课推荐系统,不能做到有效的课程推荐。所以需要实事求是,具体问题具体分析,分析学生群体特点,抓住学生的行为特征,并基于这些特征对课程进行推荐。同时,传统的选课推荐算法无法解决新生选课的冷启动问题,容易造成课程的“马太效应”,导致学校资源的浪费,不能真正提供选课的个性化推荐服务。本文提出的算法充分考虑学生的行为习惯和阅读兴趣,从而实现真正的课程个性化推荐。

    5 结语

    高校选课系统应当从学生角度出发,结合学生兴趣、需求、性格、特长等方面因素,择优推荐相应的课程。而目前高校的选课系统效率低,未能充分利用学生信息,不能提供课程的个性化推荐。本文提出一种新的推荐算法,并利用该算法对课程进行推荐,有助于学生更好地融入学习生活,寻找到适合自己的方向并提高学生的学习效率,帮助学校及时调整学习资源,将学习资源合理化运行,减少学校资源的浪费。后续将对用户画像刻画维度进一步深化,对标签体系进一步完善,考虑学生的心理因素等,使得课程推荐更为准确,更好地为学校和学生服务。

    参考文献

    [1]张建平.数据挖掘技术分析与研究[J].消费电子,2013(4):65.

    [2]Agrawal R, Imielinski T, Swami A. Mining associa-tion rules between sets of items in large databases[J].ACM SIGMOD Record,1993,22(2):207-216.

    [3]張志友.数据挖掘技术在选课系统中的应用[J].实验室科学,2007(3):94-96.

    [4]Fayyad U M, Piatetsky-Shapiro G, Smyth P, et al. Advances in knowledge discovery and data mining[M].Cambridge: AAAI Press/The MIT Press,1996.

    [5]Brickey J, Walczak S, Burgess T. Comparing semi-automated clustering methods for persona development[M].California: IEEE Transactions on Software Engi-neering,2012:38.

    [6]亓丛,吴俊.用户画像概念溯源与应用场景研究[J].重庆交通大学学报(社会科学版),2017(5):82-87.

    [7]何跃,马丽霞,腾格尔.基于用户访问兴趣的Web日志挖掘[J].系统工程理论与实践,2012(6):1353-1361.

    [8]关梓骜.基于大数据技术的用户画像系统的设计与研究:以“心发现”平台为例[D].北京:北京邮电大学,2018.

    [9]郭晓玉.基于Weka平台的关联分析算法研究[D].杭州:浙江工业大学,2015.

    [10]Liu H, Guo R, Jiang H. Research and Improvement?of Apriori Algorithm for Mining Association Rules[J].Computer Applications and Software,2009(1):146-149.

    [11]葛晓滨.基于画像技术对学生实现精准分析和服务[J].安徽建筑大学学报,2019(3):99-104.

    [12]陈敬洋.基于行为分析的选课推荐系统[D].武汉:华中师范大学,2019.

    [13]宋雅婷.基于协同过滤改进算法的个性化选课推荐的研究[D].昆明:云南师范大学,2013.

    *资助项目:全国教育科学“十三五”规划课题(课题编号:ECA180463);江苏省教育科学“十三五”规划课题(课题编号:B-b/2018/01/38);江苏科技大学本科生创新计划课题。

    作者:冯楚生,江苏科技大学苏州理工学院,研究方向为信息管理;杜晓明,江苏科技大学,助理研究员,博士,研究方向为信息管理(215600)。