基于联盟链的教育数据存储共享模型研究

    吕建富 彭楚风

    

    

    

    摘要:随着“互联网+教育”模式的持续推进以及教育信息化2.0行动计划的颁布,教育系统内各类应用汇聚了海量教育数据,教育数据资源的安全存储以及开放共享对实现教育现代化具有重要意义。区块链的分布式容错、难以篡改等技术特性可以有效解决教育数据资源存储共享中面临的技术难题。基于此,本文介绍了区块链技术以及目前教育数据存储共享管理中存在的主要问题,并针对这些问题提出一种基于联盟链的教育数据存储共享方案。

    关键词:教育数据资源;区块链;联盟链

    中图分类号:G434? 文献标识码:A? 论文编号:1674-2117(2021)06-0076-04

    “互联网+”是利用互联网手段对传统行业进行优化升级,并推动其发展。而教育信息化是“互联网+教育”模式的深度融合和不断创新,目前教育信息化已经逐步成为国家信息化发展的重要组成部分,是建设教育强国的重要载体。教育信息化在持续推进的进程中产生了海量的教育数据资源,然而,我国教育行业对海量数据没有建立一套合理的对数据进行存储保护、分析共享的平台,同时,教育行业长期以来注重信息化发展而忽视了网络安全方面的管理,在信息系统建设、维护中,对数据的存储保护不足容易导致数据被攻击、泄露。另外,海量的教育数据并没有被有效地分析利用。因此,本文提出了一种基于联盟链的教育数據存储共享方案,通过该方案可以有效地对数据进行存储保护、安全共享,实现去中心化、去信任、数据难以篡改的数据管理。

    ● 相关技术背景

    1.区块链技术

    ①区块链概念。区块链是中本聪在《比特币:一种点对点的电子现金系统》[1]一文中提出的。作为比特币的核心技术,区块链技术并非作为一种新型的计算机技术出现的,而是分布式存储、p2p网络、加密算法等多种计算机技术的一种融合应用模式。区块链作为比特币的底层技术,利用数据块来存储特定时间段内的交易数据信息,并按时间顺序将一个个的数据块以链条的形式链接起来,如图1所示。每个数据块由区块头和区块体两部分构成。区块头中存储着时间戳、Merkle根节点等信息,并通过父哈希值链接到上一区块;区块体主要负责存储所有的数据信息。

    ②区块链特点。区块链以其去信任、去中心化、数据防篡改以及数据可追溯的特点迅速引起各行各业的关注,各行各业可利用其技术特点解决行业难题,促进行业发展创新。

    ③区块链分类。根据网络范围和管理权限,区块链演化出三种应用模式,分别是公有链、联盟链、私有链[2],不同应用模式之间的区别如下表所示。公有链是完全开放的;私有链通常为私人或者私人机构所建立,不对外开放;联盟链是介于两者之间的一种特殊架构,既一定程度上保证了去中心化的特点,又便于监管。

    ④应用场景。区块链技术是具有普适性的底层技术框架,可以为金融、经济、科技甚至政治等各领域带来深刻变革。[2]区块链技术最早被金融领域所关注,由全球银行巨头发起组建的R3联盟,致力于发展区块链技术;在科技领域,为了推动区块链技术在多行业的应用,IBM联合Linux基金会开发了一个区块链开源项目超级账本(Hyperledger)[3];在能源领域,国内外企业已经启动相关能源区块链项目,文献[4]提出将区块链技术应用于电网电力交易市场、智能电网数据安全存储管理等方面;在食品安全领域,文献[5]提出将区块链技术融入食品溯源中,以此来提供安全、透明的食品溯源系统;在医疗健康领域,文献[6]提出了基于区块链的医疗记录安全存储方案;在教育领域,文献[7]介绍了区块链在教育领域的应用前景以及现实挑战。

    2.教育数据资源

    2015年,国务院启动大数据国家战略,发布《促进大数据发展行动纲要》[8],提出要在依法加强安全保障和隐私保护的前提下,整合政府部门公共数据资源,稳步推进公共数据资源开放。2017年,国务院印发《国家教育事业发展“十三五规划”》[9],明确指出要加快推进教育大数据建设与开放共享,形成教育数据资源开放共享的制度与机制,该规划为我国教育数据的开放共享指明了发展方向。经过数年的发展,在国家教育政策的指引下,全国广大师生积极参与,在各级教育行政部门以及电教战线的共同努力下,国家教育资源公共服务平台汇聚第三方优质资源及应用,面向教育机构、教师、学生、家长等各类用户提供优质教育资源,自建设运行以来,已经积累了一大批业务数据以及日志数据、教育资源数据。目前,国家教育资源公共服务平台是国家教育资源云服务的枢纽,在体系中承担骨干枢纽、示范引领、探索创新、拾遗补缺的作用,是形成教育资源公共服务体系内各平台实现互联互通和资源共享的中心。根据统计,国家教育资源公共服务平台已发布60多个应用和活动,汇聚了海量的教育资源,包括视频、文件、图片等,积累了PB级的数据。此外,疫情以来,国家提出“停课不停学”的号召,国家中小学云平台同步上线了春季、秋季两个学期的课程资源,根据浏览量,后台已收集了大量的平台访问日志,然而这些日志并没有得到充分利用。对如此海量的教育数据有效地进行安全存储和开放共享可以促使教育系统更加公开、透明地运行,但过度地开放共享就会带来隐私泄露等数据安全方面的问题。基于此,国内学者主要从立法、数据伦理、行业自律和政府监管等层面提出了对策。本文从技术层面考虑,提出了一种基于联盟链的数据安全存储共享方案。

    ● 基于联盟链的教育大数据管理架构

    教育系统数据种类多、体量大,数据源分布广泛,使用传统的存储管理方式效率低下且安全性较低,会影响到职能部门对数据价值的挖掘。区块链技术在教育领域的探索还处于摸索阶段,但该技术的出现从技术角度为破解教育数据共享难题提供了一条崭新的思路。

    1.基于联盟链的教育数据存储共享模型

    根据教育数据的安全存储共享需求,本文设计了一种基于联盟链的教育数据的安全存储共享模型,如下页图2所示。该模型采用联盟链的架构,利用PBFT共识算法进行区块共识,并结合分布式存储实现教育数据资源的存储共享。

    ①分布式数据库。区块链中的区块容量有限,难以实现海量数据的存储,因此,可采用分布式数据库+区块链的方案,将数据资源利用加密算法存储到分布式数据库中,区块链中存储数据摘要、数据索引等安全性较高的重要数据。

    ②联盟链。采用联盟链的应用模式构建管理教育数据的区块链可以保证教育数据开放共享的安全性。联盟链是一种多中心的区块链架构,可以由教育行政部门制定准入规则,参与教育数据的存储共享。

    ②数据存储参与者。经过管理节点审核的用户都可以加入到联盟链网络中获取存储和访问数据的权限。

    2.教育数据的存储与共享

    根据上文提出的数据存储与共享模型分别介绍数据的安全存储以及数据的开放共享过程,联盟链的区块共识过程利用PBFT算法。

    ①数据的安全存储。

    Step1数据拥有者发出上传请求。

    Step2轮值监督节点对上传节点的公钥进行验证,确认其上传权限。

    Step3如公式(1)所示,数据拥有者(Owner)利用哈希算法计算得出数据摘要,然后将摘要值利用自己的私钥加密得出数字签名) 。

    Owner:

    (1)

    最后,如公式(2)利用轮值监督节点j的公钥加密数据得到密文数据。

    (2)

    Step4轮值监督节点将数据摘要以及签名后的数据摘要上传至联盟链中,将加密数据上传至分布式数据库中。

    Step5设定数据量阈值,当数据量达到设定阈值后轮值监督节点打包数据记录并计算出Merkle根节点的值,然后將Merkle根节点的值连同自己的公钥放在区块头中,最后将完整区块广播给其他监督节点进行验证。

    Step6其他监督节点收到广播区块数据后验证区块的合法性,验证无误,则将其链接到联盟链上。

    至此,完成了加密数据和数据摘要的存储,分布式数据库中存储的是加密后端的真实数据,联盟链中存储的是公钥、数据哈希值以及元数据。公钥可以确定数据的拥有者身份,数据哈希值可以查找数据的索引以及校验数据的完整性,元数据主要是记录数据的相关描述信息等。

    ②数据的开放与共享。

    区块链技术利用非对称加密算法、哈希算法等密码学技术实现数据的安全共享,数据访问者请求数据首先应申请授权,获得授权的用户才能正常访问数据,基于此,数据共享过程主要包括以下几个步骤。

    Step1访问授权:数据访问者申请访问,请求获取数据访问权限。

    Step2身份验证:身份验证通过执行Step3,否则,权限不符,驳回申请。

    Step3数据安全共享:数据拥有者利用访问者的公钥加密数据形成密文数据,同时,数据拥有者通过哈希函数计算得出数据摘要,并利用自己的私钥对数据摘要进行数字签名。数据拥有者将密文数据和签名后的数据摘要一同发送给数据访问者。

    Step4数据校验:数据访问者接收到密文数据和数据摘要后,利用数据拥有者的公钥解密签名后的数据摘要,并利用自己的私钥解密密文得到明文原始数据,同时利用哈希函数计算出数据摘要,比较接收到的数据摘要值和计算出的摘要值,验证数据的完整性。如验证无误,则数据没有被篡改过;否则,数据被恶意篡改过。

    3.安全性分析

    基于联盟链的教育数据存储共享方案的安全性通过以下几个方面得以保证。

    ①数据加密存储。数据在整个过程中利用密码学算法进行传输存储,整个过程无明文暴露,恶意攻击者无法直接获取明文数据,且传统攻击者无法在短时间内破解密文数据。

    ②去中心化。联盟链在一定程度上保留了去中心化的特点,同时又便于监管。参与到教育数据联盟链的节点都是经过教育政务部门审核的节点,同时,这些数据节点共同参与数据的管理和监督,某一节点的损坏不会影响系统的正常运行,这使得基于联盟链的数据存储共享方案具有较高的安全可靠性。区块链内的所有节点通过共识算法认定一份数据信息的有效性,保证信息的真实可靠。通过共识算法区块链无需依赖特定的第三方中心机构来鉴定交易的有效性。

    ③数据难以被篡改。教育数据资源经过共识过程链接到联盟链上,攻击者若想恶意篡改链上某一区块中的数据,就必须修改该区块之后所有区块的数据,同时,也需要将网络内所有节点服务器上的备份数据进行修改,且必须在特定的共识时间段内完成篡改。因此,具备众多节点的区块链网络,系统的安全性较高,数据难以篡改。

    ④可追溯性。区块链的链式存储结构以及区块头中的可信时间戳属性为数据的追本溯源提供了可行性,因此,链上存储的每笔数据记录都可以追溯。

    ⑤分布式存储。该方案采用分布式数据库存储数据,保证了数据的可用性、可靠性,恶意攻击者对单个节点造成的恶意损坏不会影响整体数据的使用。

    综上所述,基于联盟链的教育数据存储共享方案可以保证数据的机密性、完整性、可用性。

    ● 结语

    本文针对目前教育系统产生的大量教育数据资源的高价值性以及安全问题导致的开放共享程度低等问题,设计了一种基于联盟链的教育大数据管理方案,该方法以区块链技术为基础,改变了传统的存储管理模式,可促进数据的共享利用,优化教育数据的存储模式。区块链技术在教育系统内的应用还在初期阶段,该架构可作为一种基础参考架构,在此基础上可以利用人工智能技术对数据进行进一步开发利用,实现自动化的数据抽取、分析、利用,为决策层制定相关的教育政策提供数据依据。

    参考文献:

    [1]Nakamoto, Satoshi.Bitcoin: A peer-to-peer electronic cash system[Z]. Manubot, 2019.

    [2]袁勇,王飞跃.区块链技术发展现状与展望[J].自动化学报,2016,42(04):481-494.

    [3]何蒲,于戈,张岩峰,等.区块链技术与应用前瞻综述[J].计算机科学,2017(04):1-7.

    [4]张俊,王飞跃.基于区块链的电网大数据数字资产管理架构[J].电力信息与通信技术,2018.

    [5]李明佳,汪登,曾小珊,等.基于区块链的食品安全溯源体系设计[J].食品科学,2019,40(03):288-294.

    [6]梅颖.安全存储医疗记录的区块链方法研究[J].江西师范大学学报:自然科学版,2017,41(05):481-487.

    [7]杨现民,李新,吴焕庆,等.区块链技术在教育领域的应用模式与现实挑战[J].现代远程教育研究,2017,34(02):45.

    [8]中华人民共和国国务院.促进大数据发展行动纲要[J].成组技术与生产现代化,2015(03):51-58.

    [9]国务院.国家教育事业发展“十三五”规划[Z/OL].(2017-01-19)[2019-04-17].http://www.gov.cn/zhengce/content/2017-01/19/content_5161341.htm,2006.f.