我国区域教育数据开放的现状、问题与对策

    李青 王海兰

    

    

    

    【摘要】

    在互联网蓬勃发展和开放数据运动兴起的大背景下,各国政府开始将开放数据列入大数据实施战略,英美等国家率先建立政府开放平台,力求在各个领域实现数据开放。在此潮流下我国也开始尝试公开各级各类信息,利用开放数据推动行业发展。开放教育数据具有提高政府透明度、促进教育机构正确决策、加强全民参与等现实意义,而政府开放数据是现阶段教育开放数据的主要表现形式。为全面了解我国区域教育数据开放的现状,文章基于文献研究法和案例研究法,从法律和政策视角探讨了我国教育数据开放的依据,调查了14个省级政府开放平台和15个地市级政府开放平台的功能和教育数据开放的实际情况,并结合国外教育数据开放的优秀实践进行了比较。分析了教育数据开放平台在数据开放许可和隐私保护制度、平台功能和服务水平、数据归集、发布和更新、数据价值和质量以及数据利用等方面的问题。最后对我国区域教育数据开放提出了一些参考建议:制定和完善教育数据开放的法律法规;提高建设水平,优化用户体验;完善管理、评价和监督体系;注重数据开放标准和数据质量控制;吸引专業人士和机构参与,鼓励全民应用等。

    【关键词】? 教育数据;开放数据;信息公开;政府数据;区域数据;开放平台;政府治理;案例研究

    【中图分类号】? ?G521? ? ? ? ?【文献标识码】? B? ? ? ?【文章编号】? 1009-458x(2021)4-0031-11

    一、问题的提出

    在数字经济时代,“数据即资产”的观念已成为共识,社会对数据价值的重视程度与日俱增,数据已经成为其他各种先进技术得以发挥作用的基础。当前,移动通信、云计算和人工智能等新技术不断融入教育,将会生成更多的过程性数据,包括学生数据、教师数据、教学资源数据、教学媒体数据,以及由此衍生的其他教育数据。基于数据的研究也成为一种教育研究的研究范式(张务农, 2018),在教育实践中发挥着越来越大的指导作用。

    这些数据日益增长且复杂多变,成为回溯教育过程、推进教育创新的驱动力。从个体到组织的数据单向流动模式,使得政府和机构累积了大量数据。但数据管理和使用的方式落后,大部分数据无法流通和复用,降低了数据产品带来的经济效益和社会价值。再加上社会对数据需求迫切,各国政府开始尝试转变数据管理理念和方式,对数据资源进行开放,实现国家和社会之间的双向交流。聚焦到教育领域,2010年美国教育部发布了《开放数据行动计划》,介绍了美国教育数据开放的实施情况;2012年英国教育部(U.K.Department for Education, 2012)发布了《开放数据战略》,公布了教育数据开放的目标、价值、所取得的成绩,以及未来的教育数据开放计划;2014年联合国经济和社会事务部(2014)发布了《电子政务调查报告》,将教育数据开放作为政府开放数据的考量指标之一。

    和发达国家相比,我国在教育数据开放方面虽然取得了一些进展,但整体进程较为缓慢,无论是在平台建设、数据规范等具体实施过程,还是在开放意识、数据素养等主观认识方面,均和世界领先水平都有一定差距(李青, 王海兰, 2019)。2013年,时任教育部部长袁贵仁在全国教育科研工作会议上表示,要向教育科研机构和人员充分开放教育数据资源,为教育科研提供便利条件(原春琳, 2013)。2015年召开的全国首届教育实证研究论坛向各级政府和教育行政部门发出大力开放教育数据的倡议书(全国首届教育实证研究论坛, 2015)。有研究者对教育数据开放的本质内涵(包括教育数据开放的概念、层次和特征)做出了系统论述,提出教育数据开放的战略价值及其实施路径(张昊, 杨现民, 2020)。

    可见,教育数据开放在我国仍属于新生事物,其理论和实践远未成熟。为更好地了解国内教育领域数据开放的现状,发现阻碍数据开放的问题,基于文献研究和调查研究的方法,系统地整理和评述相关文献,调查了14个省级政府开放平台和15个地市级政府开放平台教育数据开放方面的具体情况。具体研究问题包括:①我国教育数据开放与政府开放平台建设的现状如何?②我国在教育数据开放方面存在哪些问题?③国外教育数据开放实践为我们提供了什么经验,如何进一步推进我国教育数据开放的进程?

    二、教育数据开放的法律和政策依据

    近年来,各国相继出台了相关法律和政策,为政府数据开放和共享进程列出了“时间表”,规划了“路线图”。2013年,美、英、法、德、日等8国签署了《开放数据宪章》(Open Data Charter),确定了各国开放数据行动方案。同年,美国政府发布《开放数据政策》(Open Data Policy)行政令,要求开放包括教育在内的七大领域数据,并明确了开放时间表(OMB Memorandum, 2013)。澳大利亚随后发布了《国家政府信息共享策略》(National Government Information Sharing Strategy),要求将每所学校的简介、规模、人数等基本数据向社会开放。2016年,英国发布了《2016—2018 年英国开放政府国家行动计划》(UK Open Government National Action Plan 2016 to 2018),涵盖教育、金融、交通等多个领域,在原有数据开放基础上进一步提出对公民参与、信息访问、技术与创新和政府账目等方面的承诺。

    早期,我国政府信息开放主要集中在政务信息公开上。2003年广州市颁布了《政府信息公开规定》,明确提出要保障个人和组织的知情权,增加行政透明度,这是我国第一部由地方政府制定的政府信息公开条例(周良金, 2007)。2005年中共中央办公厅、国务院办公厅联合出台《关于进一步推行政务公开的意见》,加强社会对行政权力的监督。2007年国务院通过了《政府信息公开条例》,规范各级人民政府部门的信息公开过程。2008年《中华人民共和国信息公开条例》正式实施,规定了各级政府、行政机关等部门信息公开要求,以及主动公开的形式、时间、条件等。

    遵循国家在信息公开方面的要求,教育部制定了《教育部政府信息公开指南(试行)》《教育部政府信息公开目录》,对信息公开的内容与范围、公开的方式和程序、公开的监督和保障等进行了统一规定,提高了教育工作的透明度。针对学校,教育部发布了《高等学校信息公开办法》《高等学校信息公开事项清单》《关于推进中小学信息公开工作的意见》等文件,保障公民、法人和其他组织依法获取学校信息,加强和改进学校管理。

    数据开放是大数据时代信息公开发展的新阶段。21世纪初,英美等发达国家率先提出开放数据战略,政府持有的公共数据面向社会开放已成趋势。我国目前没有明确的关于政府数据开放的相关政策法规。2015年我国首次提出国家大数据战略,要求大力推动数据资源开放共享。同年,国务院印发《促进大数据发展行动纲要》,要求2018年底前建成国家政府数据统一开放平台,并向社会开放包含教育在内的多领域数据资源。这一目标已初步实现。

    2016年,中共中央办公厅、国务院办公厅印发《国家信息化发展战略纲要》,进一步明确要构建统一规范、互联互通、安全可控的国家数据开放体系。并于同年发布了《关于全面推進政务公开工作的意见》,提出扩大政务开放参与,稳步推进政府数据共享开放的要求。《“十三五”国家政务信息化工程建设规划》(2017)提出,建立政务开放、数据开放和社会参与的常态化机制。2018年中央网信办、发展改革委、工业和信息化部联合发布《公共信息资源开放试点工作方案》,提出试点地区要“建立统一开放平台,明确开放范围,提高数据质量,促进数据利用,建立完善制度规范,加强安全保障”。

    响应国家对政府数据开放的要求,2018年教育部发布了《教育部机关及直属事业单位教育数据管理办法》(教发厅〔2018〕1号),指出建立统一的教育数据资源共享交流和开放平台,使数据更好地为教育改革发展服务。在《教育信息化2.0行动计划》(教技〔2018〕6号)中提出构建一体化“互联网+教育”大平台,整合各级各类教育资源公共服务平台和支持系统,实现教育数据有效共享,并完善教育数据标准规范。

    三、教育数据开放的实施情况

    目前,我国教育数据公开和开放仍处于起步阶段,教育信息主要以公报、文件、白皮书等形式在教育部门户网站公开。如教育部发展规划司发布的《教育事业发展统计公报》《教育统计数据》,教育部办公厅发布的《教育部公报》,教育部综合改革司发布的《教育改革相关政策文件》等。《教育统计管理规定》指出,教育部要通过门户网站、统计年鉴、统计信息平台等途径公布统计资料,地方各级人民政府的教育行政部门应当按照国家有关规定公布教育统计资料,供社会公众查询(教育部, 2018)。

    随着地方政府开放平台的建立,教育信息不再只集中于国家平台发布,开始转向政府和社会共同驱动的数据开放模式。但是,目前无论是教育部还是各省市的教育主管部门均未建成独立的教育数据开放平台,教育领域内几乎所有的开放数据均在各级政府的数据开放平台上发布。复旦大学和国家信息中心数字中国研究院联合发布的《中国地方政府数据开放报告》,是我国首个专注于评估政府数据开放水平的专业报告。2020年报告显示,截至 2020 年上半年,我国已有省级(17个)、副省级和地市级(113个)政府上线了数据开放平台(复旦大学, 等, 2020)。除1个省级平台无法打开、2个省级平台无教育数据以外,笔者调查了其余14个省级政府数据开放平台,包括“北京市政务数据资源网”“开放福建”“开放广东”“贵州省政府数据开放平台”“海南省政府数据统一开放平台”等,依次编码为p1~p14。在113个地市级平台中,以简单随机抽样法选取了15个市级政府数据开放平台,包括“临沂公共数据开放网”“佛山市数据开放平台”“广东省政府数据统一开放平台—河源市”“哈尔滨市政府数据开放平台”“烟台市公共数据开放网”等,依次编码为c1~c15。采样时间截至2020年6月,对这29个样本中的教育数据集和API接口进行调查。

    (一)省级教育数据开放情况

    14个省级政府开放平台上共有1,856个教育数据集,占平台数据集总量的3.39%。北京、广东、山东等省级开放平台中的教育数据集较多,其中山东开放了1,018个教育数据集;贵州、江西、陕西、四川等政府开放平台尚处于起步阶段,近一年内刚开始发布教育数据。

    1. 数据开放内容

    (1)所属范畴

    平台通过各种方式引导用户浏览数据,常见的分类维度有主题、领域、行业、部门/机构和场景。超过一半的平台以主题进行分类,并且将教育与文化和科技数据归为一类,命名为“教育科研”“教育科技”“教育文化”等,甚至个别平台直接将科技和文体数据归纳为“教育”类目下,这种分类方式可能与政府主管部门的设置和分工有关,造成该分类名称下数据杂乱,加大了用户获取数据的难度(如表1所示)。

    典型的分类有:p3的“教育科技”主题包含其他领域的技术创新数据集,如农业标准信息、2016年农业主推技术列表等;p14的“教育”场景存在文化、科技、市场、生活等相关数据内容,如“农村电影放映信息”“条码申请管理服务”等。也有一些平台注意到不同领域的数据混合问题,设置了更加具体的分类,如p6将教育、文化和科技领域数据分别划分于不同标签中。还有一些平台提供了多种分类方式,方便用户获取特定数据。p2提供了领域、行业和部门三个分类维度,如需获取教育数据可以在行业分类中选取“教育”子集;p11提供了场景和领域两种分类,用户在查找数据时,相较“教育科技(209个)”主题,“学校教育和终身教育(126个)”场景可更加明确地定位教育数据。也有个别平台未设置教育分类,教育数据只能在其他数据分类中查询,如在p10上教育数据归属于“公共服务”和“社会保障”等主题。

    (2)数据内容

    平台上的开放数据涉及学前教育、基础教育、高等教育、职业教育、成人教育和特殊教育多个学段或领域,p1、p3、p9和p12的教育数据涵盖所有学段。高等教育数据的覆盖率最广,其次是基础教育、职业教育和学前教育。这些数据集可分为以下主题:①整体教育情况,如教育政策的发布和解读、教育整体情况统计和分阶段统计等;②教学和评估相关信息,如对学生在校情况统计、教师基本情况统计、各阶段考试信息统计、各阶段教育和各类考试等的收费情况统计,以及实验设备和教学用具情况统计等;③其他指标,如对人才称号、资格认定、资助项目和获奖项目等情况的统计,以及科技场馆和基础设施的统计等。大部分平台开放的教育数据集中在前两类。

    2. 数据开放技术

    平台的数据获取方式主要是下载数据文件和通过API接口调用两种。大多数平台同时提供两种方式。下载的数据文件也以多种数据格式提供(如表2所示)。

    “万维网之父”蒂姆·伯纳斯·李(Tim Berners Lee, 2009)提出的“数据开放五级标准”是目前开放数据领域普遍使用的评价标准。在这个标准中,一星代表数据可通过Web获得;二星为数据可作为机器可读的结构化数据使用(即不是扫描图像);三星为以非专有格式提供数据,用户不需要专有软件包来分析数据;四星是使用W3C的开放标准(RDF和SPARQL)发布数据;五星为数据以语义网的形式相互关联。以上14个省级平台的数据开放程度为二星级至四星级。除了个别平台的开放数据不可机读之外,近三分之二的平台数据开放程度达到三星级,采用非专属开放格式开放数据,p3、p9和p13还率先使用了RDF格式提供数据集,达到四星级。

    3. 数据共享和利用情况

    数据开放平台提供的授权协议应对用户免费获取、不受歧视获取、自由利用、自由传播与分享开放数据的权利做出明确授权(复旦大学, 等, 2020),也应在(网站)声明、服务条款或服务协议中对所提供的服务、用户的权利和义务、隐私保护等做出详细说明。在14个省级平台中,只有p13在获取数据时通过弹出框的方式主动提示用户的权利和义务,大部分平台仅在页面底部等位置链接了服务声明。p7和p10未明确授权用户对数据的获取和使用权,p5和p8未对相关数据服务做出说明。个别平台要求“用户不得无偿转让数据资源”,限制了用户传播和分享的权利,与开放数据的原则相悖。

    半数以上的平台仅对信息进行形式审查,在免责条款中声明其对数据完整性、准确性和及时性不承担责任,提示“以发布该数据信息的政府相关部门或第三方机构为准”。大多数平台提到了隐私保护,承诺除法律规定及用户许可外不得泄露注册用户的个人信息。

    公众共享和利用教育数据的活动一般包括查找、获取、利用、反馈等环节,针对平台可分为数据导引、数据获取和互动反馈三类功能(如表3所示)。

    (1)数据导引

    常见的排序方式有按數据量、更新时间、下载量、访问量、调用量、用户评分和数据开放条件等。按更新时间排序最常见,其次是下载量、访问量和用户评分。大部分平台提供至少两种排序方式。有些平台虽然统计了一些指标,但并未用于排序,或是因缺少数据无法排序,如p1中显示了每个数据集的浏览量,但无法按浏览量对数据集排序。

    (2)数据获取

    在对“数据获取”功能的评估中,以开放数据目录、数据搜索、数据预览、数据获取、数据申请和数据请求等功能为观测点,可通过数据目录概览数据了解数据开放范围和程度,如p1公布了包含年度开放数据目录的数据开放计划。在数据搜索功能中,所有省级平台均提供了按名称搜索,按字段搜索也较为常见,仅有少数平台提供高级搜索。数据获取有匿名获取和注册用户获取两种方式,一半以上的平台需要用户注册账号后方可获取数据。要求用户填写信息和平台确认两个环节会直接影响用户获取数据的效率和积极性,间接阻碍了用户获取数据。

    开放数据平台对数据集标注了多种开放形式,包括“无条件开放”“普遍开放”“完全开放”“登录开放”“主动开放”“免费”等。如p5、p9、p11、p12和p14设置了有、无条件开放选项。对“有条件开放”的数据集,用户需向提供方提出申请,经审核同意后方可获取。对于尚未开放的数据集,用户可通过“数据请求”申请开放。该功能有助于数据提供方根据社会需求扩大数据开放的范围。目前不到一半平台开通了该功能。

    (3)互动反馈

    平台与公众之间的互动主要通过数据纠错、数据评价、数据收藏和数据分享等功能实现。数据纠错便于公众监督和核查数据,但很少有平台公开纠错和答疑的具体结果。数据评价以星级评分和文字评价为主,前者采用五星等级,对应相同的分数和开放程度。还有一些评价体系设有更多维度(如及时性、可用性、准确性等),但各维度对应的评分标准缺少说明,评分的主观性较强。

    (4)数据集发布

    早在2012年,p1和p11就相继发布了开放教育数据集,随后各省市也开始发布教育数据,2018年第四季度达到最高点,2019年第四季度也达到小高潮(如图1所示)。p9在这两个时间点分别发布了392个和188个数据集,直接拉高了数据集发布总量。需要注意的是,平台发布新数据集有可能并非是新增业务数据,而是已有数据集的更新,因此无法从发布时间准确推断出每个季度数据的增长情况,只能看出数据正在持续地更新和增长的趋势。

    教育数据集发布有持续发布、阶段性持续发布、阶段发布和无发布四种模式。近两年来,p3和p9每季度均持续发布新的教育数据,是“持续发布”的数据平台;2018年之前,p3仅有18个数据集,至2020年第二季度增长到311个;p1、p6、p7和p11等7个平台至少多次连续两季度发布数据集,属于“阶段性持续发布”;p2和p4一年内在某个时间点一次集中发布少量数据集,是“阶段发布”。还有个别平台在较长时间内未发布新数据集。

    (5)数据利用

    约三分之二的平台提供了“第三方应用提交”功能,用于宣传和展示第三方基于本站数据资源开发的APP、网站或小程序,以及创新设计。14个省级平台共列出了229个应用,其中关于教育的有14个。虽然有关教育数据的APP较少且下载量低(如表4所示),但关注度非常高。如在p1上关注度排名前三的APP均和教育有关。其中,“E上学”收录了最近一年部分小学与中学的生源关系,给出了学区房名称与价格;“智慧学路”使用出租车轨迹数据和中小学POI数据,可定量分析与预测学生通勤时段道路交通拥堵状况等。

    从下载量来看,不少教育数据集受到高度关注。p11发布的“普通高等学校信息”以访问量(81,505次)、下载量(62,369次)排到了全站热门数据集的第二;p13发布的“学校信息”(3,826次)排到了全站下载量前十。从使用方式看,通过API调用数据的比例仍旧较小,如选取p1中调用次数不为零的10个接口,通过API调用数据的次数仅为通过下载方式获取数据的十分之一;p3中教育大类的API总调用次数超过了下载次数,但进一步观察发现被调用的数据全部是科技类数据。同样,p13“教育文化”主题中调用量前十的数据集,仅有“学校信息”与教育强相关,其余均与文化相关。

    (二)市级教育数据开放情况

    我们进一步评估了15个副省级/地市级政府数据开放平台,涉及932个教育数据集,占平台数据总量的4.83%。开放程度最高的是广东省和山东省,该地区的省市两级政府部门都在积极推进数据开放。

    1. 省市两级平台中教育数据开放的差异

    在市级平台中,教育数据集所占比重与省级平台相近,但主题和内容方面存在差异。市级平台的数据集主要是某教育阶段的统计数据,以及对称号、资格认定情况的公示。在开放水平上,达到三星级的市级平台比例高于省级平台。超过一半的市级平台来自广东省和山东省,沿袭了其省级平台较高的开放水平。大部分市级平台是省级平台的二级目录或子站点,与上级平台的业务模式和功能基本一致,但也有缩减。如c3是呈现为二级目录的市级平台,只简单列出了该市所有的开放数据集,缺少主题筛选功能。三分之一的市级平台未设置任何数据集排序功能,而该功能在省级平台已经普及。因此,在功能完备方面省级平台要优于市级。

    2. 各市级平台之间教育数据开放的差异

    作为同一个省级平台下辖的二级目录或是子站点的市级平台在功能上完全相同,开放的数据主题也类似,如p3所属的c3、c10和c15,p9下辖的c1、c5、c6和c8等。部分市级平台是独立建设的,如p3的c2和c11,它们的功能和同属p3的其他三个市级平台差异较大。依托省级平台建设的市级平台,在功能上优于其他平台。市级平台中教育数据集数量差异较大,几乎不受省级平台的影响,数据开放力度和本级政府该业务的推进力度相关。

    四、国际比较及现存问题

    随着政府信息公开和数据开放工作的推进,我国的教育数据开放从无到有,有了长足的进展。但从实用的角度看,与先进国家相比仍有较大差距。在数据开放方面,美国(北美洲)、澳大利亚(大洋洲)和英国(欧洲)的经验较为丰富,连续多年在万维网基金会编制的《开放数据全球报告》(Open Data Barometer Global Report)排行榜中名列前茅。为了从国际比较的视角分析我国教育数据开放实践水平,本研究選取了三个一流水平的外国政府数据开放门户:美国华盛顿州政府数据开放门户(p15)、澳大利亚首都政府数据开放门户(p16)和英国伦敦政府数据开放门户(p17),对比中外同级平台教育数据开放情况,从数据开放和隐私保护制度、平台功能和服务水平、数据归集、发布和更新、数据价值和质量以及数据利用情况等几个方面,对比国内外教育数据开放过程中存在的异同,以借鉴国外先进的经验和做法。

    (一)数据开放许可和隐私保护

    《开放数据全球报告》从机器可读、批量获取、免费、开放许可、更新、可持续和可发现七个指标评判数据的开放程度,而“开放许可”是最基本的一项指标。国外三个平台发布的数据集开放许可程度很高,公众可以随时访问和下载数据集。p15还提倡开放公众最需要的数据,它和p16都承担着“中心纽带”的责任,向数据所有者传递公众需求,以便开放更多、更实用的数据集。国内开放平台的开放水平有待提高,虽然有超过一半的省级平台明确了用户获取、利用和传播数据的权利,但授权协议中使用许可不规范,出现“无条件开放”“普遍开放”“完全开放”“登录开放”“主动开放”等容易混淆的概念,不利于提供者标示数据开放的许可程度,也不利于数据使用者区分数据的开放状态。

    对于个人信息隐私保护,国外三个平台均作了详细说明。p15提示平台将通过用户主动提供信息(发表评论)、平台自动收集信息(访问平台)和第三方跟踪工具(分析服务中的生成数据)等方式收集数据;p16声明不会自动收集任何个人信息,除非个人自愿提供;p17只记录创建和管理个人账户的电子邮件地址、用户名和密码。用户可以通过邮件与平台联系,更正或删除个人信息。针对未成年人,p15还特别强调,当平台为K-12学校提供产品和服务时,需要与学校签订符合州或联邦法律的合同,遵守未成年人隐私保护的相关法令,如《家庭教育权利和隐私权法案》(FERPA)。还承诺在合同范围内收集或使用学生信息,不将学生信息出售给第三方,不出于商业目的使用或披露学生信息。国内大多数平台承诺未经用户许可或法律规定,不能将注册用户个人信息泄露给第三方。但对于平台具体会收集哪些个人信息,如何收集和处理这些信息,公众是否可以查看、修改以及删除个人信息等,均未做出明确说明。

    (二)平台功能和服务水平

    数据开放的主要目标是希望更多人可以获取和使用数据,以创造更大的价值,而平台功能和服务水平直接影响公众的参与性,甚至对平台发布的数据质量提出质疑。国外三个数据开放平台在功能设计和用户体验上均更加完善。在数据导引方面,p15和p16增加了按字母和最近添加两种排序方式。在数据获取功能上,三个平台发布的教育数据,无须登录注册就可以直接获取,而国内一半以上平台只有注册用户方可获取。在数据请求方面,p15明确规定平台在收到请求后在五个工作日内做出回复,p16提供了“建议数据”功能,将公众对其他数据集的请求情况公布于众,国内大半平台缺少此类功能。在数据交互功能上,p15、p16和p17的数据集页面标明了数据所有者,公众可以直接向数据所有者发送信息,以进一步沟通。

    根据用户反馈留言显示,国内的一些平台还经常出现已公开的API接口无法调用的问题。一是API的调用说明文档表达不清;二是用户提交调用申请后,长时间未收到回复;三是缺少相应的技术支持,按照说明操作仍无法获取数据。一些平台出现功能菜单不能正常操作等问题,如p2和p4的分享功能,p11的“目录下载”功能。还有一些平台运营不稳定,间歇出现错误或拒绝访问。政府公共服务平台存在如此多的技术和管理漏洞,表现出较低的服务水平。

    (三)数据归集、发布和更新

    一般情况下,用户会按照主题、行业等分类规则搜索特定领域的数据集。国外三个平台均将教育单列为一项分类,而国内平台经常将教育与文化、科技领域组合成同一主题。如果只想获取教育数据集,需要逐条筛选。还有的平台甚至没有设置教育数据的子集,像p10上的教育数据同时归属于公共服务和社会保障两个主题。在查询教育数据集时,用户只能根据数据发布者信息手工逐一筛选,降低了数据获取的效率。

    平台发布的数据数量和格式,体现了数据开放的程度。p15发布的教育数据集占平台数据集总量的17.79%,远远超过我国省级政府数据开放平台(平均3.43%,最高15.03%)。p15和p16发布的教育数据集达到了四星水平,而我国仅有三个平台使用RDF(四星)格式提供数据。数据的持续发布和及时更新,也是衡量数据开放程度的指标。从p15中选取前150个数据集进行分析,发现2019年第二和第三季度均持续发布数据,大部分数据集在3个月内均有更新。我国省级平台上的数据更新频次较低,有些平台的数据集在发布后从未更新,如p1和p7,甚至有两个平台出现了数据集更新时间早于发布时间的技术错误。

    (四)数据价值和质量

    发达国家在政府开放数据中共享了很多高价值信息。如p15发布了能够体现国立学校的教学水平、学生群体的表现以及教育成果的数据,具体包括学生注册数据、成绩评估数据、高中辍学统计数据等;p16发布的开放数据包含学生辍学率、公立学校入学率等;p17发布了学生阶段性评估结果、学校收入和支出等数据。国内数据开放平台中发布的教育数据普遍价值不高,一些社会关注的关键数据,如招生和入学情况、教育拨款明细、国家/地区级考试情况、校园安全和风险等都未披露。

    在数据质量方面,国外的开放数据平台同样做得更好。数据表和字段的命名就能体现数据质量。p15的数据集提供了丰富的信息,像“学生的注册数据”中包含了学年、组织级别、城市、教育服务区名称、教育服务区机构编号、区号、地区名称、地区机构编号、学校代码、学校名称等32个字段,非常具体。p17数据集中的内容呈现具有条理性,如“中学生的跨境流动”,附有一张介绍数据内容的清单,点击相应的表名称就会跳转到特定表中,附表中记载着统计过程中的原始数据,方便公众查看和核对。

    相比之下,国内的一些数据开放平台中同类数据集提供的信息量较小,仅提供了较少的数据字段。而且存在命名不规范、顺序排列不当等问题,甚至有些列无法访问。如以行政区归类的数据表,将行政区名称放到了最后一列,默认情况下还不显示。还有平台存在数据集中部分内容失效的情况,数据中以超链接显示了教育机构信息的字段,但点击后显示为非法请求。这些都能反映出平台对数据质量管理不到位的问题。

    (五)数据利用

    对比国内外同类数据的访问量和下载量,实际上公众对教育开放数据的关注度远远高于国外,再利用这些数据的愿望也非常强烈,但是国内平台在数据利用方面的设计相对落后。在数据发布方面,国外给予公众更多选择权。如p16允许公众添加更多新数据集,包括利用本站数据形成的数据集,为公众提供更多数据利用的机会。美国华盛顿州的教育研究和数据中心(ERDC),在其纵向数据系统中包含了从早教、K-12、高等教育到社会工作各阶段的多个部门收集的数据(阮士桂, 2019)。公共教育总监办公室(OSPI)收集K-12阶段学生数据后,可以利用ERDC中高等教育部门和劳动力机构的数据,分析高中教学改革是否会影响下一阶段入学率或劳动力成果。在p15中,ERDC和OSPI向社会公开了多个已加工整合的数据集,供公众进行再次利用。

    我国开放平台中的数据由各政府机构发布,采用“自上而下”的单一传播模式,尚未为公众建立双向传播通道,降低了数据利用率和公众参与性。同时,国内也缺少类似ERDC的数据治理机构,各部门发布的数据存在内容单一、价值较低等问题,不利于公众对数据的再利用。由于存在技术门槛,数据的再利用一般由政府机构和科研单位完成,无形中削弱了普通大众对开放数据活动的参与。

    五、对策及行动建议

    针对目前教育数据开放活动中存在的诸多问题,应该密切关注国外数据开放的优秀实践,结合我国的开放现状和基本条件,编制教育数据的开放蓝图。国外开放政府数据战略的实施路径涵盖法律制度、政府组织体制、基础设施与投入、社会支持体系和评估反馈等不同层面(夏义堃, 2017)。因此,推进政府数据开放应建设组织和制度、设计数据开放方案、建立数据开放门户、宣传和推广数据开放、建立协作机制和评估数据开放水平(卫军朝, 等, 2017)。基于教育数据开放现状,结合本次调查中暴露的问题,我国的教育数据开放应主要从以下几个方面推进:

    (一)制定和完善教育数据开放的法律法规

    在大数据战略和科学治理战略的推动下,我国开始重视政府数据资源的共享和开放,继国务院《政府信息公开条例》发布后,各部委和地方政府也推出了具体政策,如《上海市政务数据资源共享和开放年度工作计划》等。在教育领域,教育部发布了《教育信息化2.0行动计划》《教育部2018年工作要点》等文件,提出要大力整合和共享教育数据。但在操作层面,教育数据开放仍缺少系统的规划和较为完备的制度。

    为了解决这个问题,需要在国家层面制定教育数据开放的相关法规和制度,明确开放过程中个体的权利和义务关系,健全问责体系(相丽玲, 等, 2014),界定清楚政府教育数据开放的范围如何划分,开放形式如何分类,数据的质量和标准如何保障,等等。美国实践为我们提供了可借鉴的经验。如美国联邦政府的《每个学生成功法案》(ESSA)要求各州开放中小学学生评估结果中的重要数据(U.S. Department of Education, 2019)。同时,还应完善教育数据使用法规,关注数据处理和使用中对未成年人的保护。《家庭教育权利和隐私权法》(FERPA)《学生数字隐私和家长权利法》(SDPPRA)等法令,赋予了家长检查和监督学生数据使用情况的权利。

    在地方层面,主要由地方政府依据国家法规制定当地可行的政策制度,规范本地区的教育数据开放过程和应披露信息清单,这涉及很多开创性的工作。在实践中,很多改革举措来自于自下而上的自发探索,地方政府应积极投入到教育數据开放进程中,结合区域特色有创造性地构建符合当地需要的教育数据开放框架。

    (二)提高建设水平,优化用户体验

    平台的建设水平直接影响数据开放质量和用户体验。在本次调查中,一些平台暴露出API无效、数据功能不健全等问题,直接影响了用户体验。建设方应在平台的功能设计、人机交互界面设计和技术维护水平等方面予以重视。

    1. 完善数据获取和数据交互功能。半数以上的国内开放平台需要注册用户账号后方可获取数据,应普及免注册下载功能,或提供手机扫码等更方便的身份验证方式。对于API使用方面的技术支持,可以参考p16的经验,由专业人员录制短视频帮助公众快速掌握技术方法。此外,还应开通供需双向互动功能,像p15、p16和p17,公众可以直接与数据所有者联系。还可采用投票的方式听取公众需求,有侧重地开放数据,提高公众对政府数据开放平台的关注度。

    2. 推广已有优秀实践。国内数据开放平台也有一些先进经验可以推广,p3等率先使用了RDF格式提供数据集;p13在获取数据时通过弹出框等方式主动提示用户的权利和义务;p5和p9等设置了“有条件开放”选项;p4和p7等具备较为完善的APP应用提交和API调用功能。此外,各平台应强化数据集的关联融合功能,方便公众将来自同一平台的不同目录,甚至是来自不同平台的数据集快速整合。

    3. 统筹规划建设省市两级平台。从已有实践来看,依托省级平台建设的市级平台在功能上较优,也更有利于跨市级平台共享数据。如广东省和山东省的省市两级政府数据开放平台较好地构建了地方数据开放的技术体系。尚未建立省级政府数据开放平台的地区,可借鉴广东省和山东省的经验完成省—市统筹建设。

    (三)完善管理、评价和监督体系

    数据开放平台存储了来自不同部门多个领域的数据资源,当内部管理失衡或缺乏稳定的体系时更容易出现各种问题,如前文中列举的数据集分类不当、数据失效或更新不及时等。为保障和规范政府的数据业务,2014年广东省率先成立了大数据管理局(广东省人民政府办公厅, 2014),但在实际运行中仍然面临数据治理机构工作职责不明确、机构设置反复随意等较多问题(黄璜等, 2018)。数据共享此类多头并进的行动,需要完善的管理体系配合。

    目前,我国尚未建立国家级教育数据开放平台,教育部没有设立专门发布开放数据的站点,地方政府也仅在综合性开放平台中发布教育数据,甚至未设置独立的教育分类。因此,应尽快筹建国家级教育数据开放平台,统一收集、整理和发布权威的教育行业开放数据,同时在教育管理机关设立和教育数据开放相关的业务部门。可以借鉴美国国家级教育数据开放体系的组织方式,由披露审查委员会(ED-DRB)等跨部门小组负责制定数据开放战略,并监督和评估数据开放过程;由教育技术办公室(OET)等具体业务部门负责推动开放数据进程(Open Government Working Group, 2007)。

    在地方层面,应依托省/市两级教育数据管理系统建设教育数据的开放窗口。在管理体制方面,以中央政府的数据管理协调机构指导地区实践,并在省级教育主管部门中明确数据开放的业务归口。同时,鼓励更多社会机构参与其中,与地方政府合作,共同推动教育数据开放。如美国的“数据质量运动(DQC)”在推进美国各州教育数据应用和开放方面发挥了重要作用。

    我国对数据开放的评价和监督工作也正在进一步推进中。2019年9月,我国正式开通了数据确权平台,从国家层面监督数据流动过程,审核数据的合法合规性,推动政府数据开放评估过程。接下来可以与国际接轨,对标联合国《电子政务调查报告》和万维网基金会编制《开放数据全球报告》中的评价标准,提升我国教育数据开放水平。

    (四)注重数据开放标准和数据质量控制

    政府平台数据开放的最终目的是为民所用,如何获取高质量数据是重点。解决这个问题可以从两个方面入手:一是由中央机关基于国家标准或行业标准统一主要的数据模型,规范化数据开放的业务流程,供各地实施参考。美国国家教育统计中心(NCES)开发了“通用教育数据模型”,为各州建设高质量教育数据库提供了基础架构,保障了数据源的质量。二是完善地方平台中已有功能,优化数据发布审核流程,提高数据质量和发布速度。可以引入专业的数据处理公司,合作提供技术支持,并将以上管理要求纳入教育数据开放工作的政策文件和评价指标中,作为考核教育数据开放工作的依据。

    对涉及数据开放工作的人员进行培训和指导也是提高开放质量的必备环节之一,应帮助其理解数据本身的价值,以更好地参与到数据开放活动中。建议相关机构以短期培训、专题研讨会、在线开放课程等形式开展宣传教育,这也是国外同行的成功经验。开放知识基金会(Open Knowledge Foundation)发布了数据学院网站(School of Data),为一些机构或个人提供免费的在线课程或现场研讨会直播(黄如花, 等, 2016);英国的JISC开设了面向高校图书馆员的RDMRose项目,通过专家报告、线上线下讨论、现场操作等方式提升从业人员使用数据的能力(孟祥保, 等, 2013)。

    (五)吸引专业人士和机构参与,鼓励全民应用

    通过数据的开放、共享和利用,使之效益最大化,需要大量专业人士/企业产业。尤其是在涉及民生的教育、医疗等行业,政府应鼓励专业群体和机构加入到数据开放活动中,加快数据开放和应用进程,共同打造开放政府。英美等发达国家的经验显示:在教育数据开放初期,国家可通过政府基金或科研立项,招募各学科专家参与,将目标定位于解决关键技术问题,如定制数据分析报告或者提供培训和咨询服务等。在开放实践中“试点先行,以点带面,逐步推广”的基础上,吸引更多专业人士和教育信息化企业参与,不断扩大规模,为新增和完善数据业务提供保障。

    另外,在政府平台也应提供各种便利条件,鼓励开放数据的应用。当前,在平台上展示应用开放数据的第三方App就是一种很好的实践,但在支持力度和专业化程度上还不尽如人意。平台甚至可以提供软件開发包或数据工具,以降低数据使用的难度,吸引更多程序员基于开放数据实现创新应用。

    教育数据开放是政府数据开放的重要组成部分,不仅提高了教育行政管理的透明度,也有助于提高社会对教育政策的参与度,以及教育资源的合理配置。各级教育主管部门代表本级政府应以政府信息公开和数据共享为原则,以群众需求为导向,推广数据应用,激励更多人参与进来,不断提升政府工作水平,降低数据获取和使用的门槛,加强宣传和互动,提升社会对开放政府的关注度、参与度和支持度。

    [参考文献]

    复旦大学,等. 2020中国地方政府数据开放报告[EB/OL]. [2020-07-23]. http://ifopendata.fudan.edu.cn/static/papers/中国地方政府数据开放报告(2020上半年).pdf

    广东省人民政府办公厅. 2014. 关于印发广东省经济和信息化委员会主要职责内设机构和人员编制规定的通知. 粤府办〔2014〕6号,02-21.

    黄璜,孙学智. 2018. 中国地方政府数据治理机构的初步研究:现状与模式[J]. 中国行政管理(12):31-36.

    黄如花,李白杨. 2016. 数据素养教育:大数据时代信息素养教育的拓展[J]. 图书情报知识(1):21-29.

    教育部. 2018. 教育统计管理规定[EB/OL]. [2020-02-09]. http://www.moe.gov.cn/srcsite/A02/s5911/moe_621/201807/t20180713_342990.html

    李青,王海兰. 2019. 教育数据开放研究与实践现状述评[J]. 中国远程教育(11):48-57.

    联合国经济和社会事务部. 2014. 联合国2014年电子政务调查报告[EB/OL]. [2020-06-31]. https://publicadministration.un.org/egovkb/Portals/egovkb/Documents/un/2014-Survey/Complete-Survey-Chinese-2014.pdf

    孟祥保,钱鹏. 2013. 国外高校图书馆数据馆员岗位设置与管理机制[J]. 图书与情报(4):12-17.

    全国首届教育实证研究论坛. 2015. 大力开放教育数据的倡议书[N]. 光明日报,10-27(014).

    阮士桂. 2019. 美国州级纵向教育数据系统(SLDS)发展特征及启示. 中国远程教育(12):71-78.

    卫军朝,蔚海燕. 2017. 国外政府数据开放现状、特点及对我国的启示[J]. 图书馆杂志(8):69-78,84.

    相丽玲,刘红丽. 2014. 云时代数字资源开放存取的法律关系与问责机制[J]. 情报理论与实践(7):28-32.

    夏义堃. 2017. 开放政府数据战略的国际比较与中国的对策选择[J]. 电子政务(7):45-56.

    原春琳. 2013. 袁贵仁:向教育科研系统充分开放教育数据资源[N]. 中国青年报,02-01(003).

    周良金. 2007. 我国《政府信息公开条例》颁布背景和意义分析[J]. 法制与社会(7):710-711.

    张昊,杨现民. 2020. 数据驱动教育服务供给的框架构建与实践探索——基于“服务金三角”模型的分析[J]. 中国远程教育(8):45-54.

    张务农. 2018. 论大数据之于教育研究“科学化”的价值与局限. 中国远程教育(8):16-21,79.

    Open Government Working Group. (2007). Open government data principles. Retrieved November 3, 2019, from https://public.resource.org/8_principles.html

    OMB Memorandum M-13-13. (2013). Open Data Policy. Retrieved April 8, 2020, from https://www.whitehouse.gov/sites/default/files/omb/memoranda/2013/m-13-13.pdf

    Tim Berners Lee. (2009, June 18). Linked Data. Retrieved April 3, 2020, from http://www.w3.org/DesignIssues/LinkedData.html

    U.K. Department for Education. (2012). Open data Strategy. Retrieved July 30, 2020, from https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/320216/DfE_Ope n_Data_Strategy_0_10.pdf

    U.S.Department of Education. (2019). Every Student Succeeds Act. Retrieved April 5, 2020, from https://www.ed.gov/essa?src=rn

    收稿日期:2020-07-20

    定稿日期:2020-10-20

    作者簡介:李青,博士,教授,硕士生导师;王海兰,硕士研究生。北京邮电大学网络教育学院(100088)。

    责任编辑 韩世梅