智媒时代数据新闻发展与反思

    【摘 要】 随着大数据、云计算、VR、AR等新兴技术的普及与发展,我国数据新闻呈现蓬勃发展的态势。各大新闻网站和客户端均推出了相关栏目,澎湃新闻“美数课”栏目作为业内先驱,为数据采集提供了较好的借鉴范式。文章选取澎湃新闻“美数课”栏目近两年的所有报道,通过对新闻数据来源的量化分析,为新媒体时代的可视化报道提供借鉴。

    【关 键 词】数据新闻;澎湃新闻;数据来源;数据采集

    【作者单位】杨嘉宁,华东师范大学传播学院。

    【中图分类号】G210.7 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2020.07.020

    数据新闻以新颖的呈现形式和较高的新闻信度,深受受众喜爱。而受众常常会忽略数据的来源,也无法确认数据的真实性与客观性。部分媒体为博取受众眼球,不惜使用耸人听闻的数据,以达到预期效果。同时,部分数据作为企业和国家机密,受到知识产权相关法律的约束,而媒体的肆意报道常常会对他人造成巨大伤害。对主流媒体新闻报道的相关分析有助于把握智媒时代数据新闻的总体趋势。

    本文选取了澎湃新闻“美数课”栏目2018—2019年260篇数据新闻报道,采用全面调查的研究方法,将数据来源分为七大类,分别是政府官方(包括政府机关创办的相关科研机构、事业单位、协会组织等)、国际组织、民营企业、其他媒体、网络数据、个案收集、学术期刊。利用量化的方式分析各类数据来源报道在澎湃新闻“美数课”栏目中的占比,根据澎湃新闻对数据采集的方法和特点,指出其在国内数据新闻报道方面的先驱性,并对其在可视化报道中的不足进行个案分析。

    一、数据新闻发展的突飞猛进

    1.数据准确性的提升

    在260篇数据新闻报道中,有93篇的数据选自政府官方,所占比例超过三分之一。政府官方数据经过多轮筛选和把关,加上数据统计人员拥有良好的专业背景,澎湃新闻从新闻根源就确保数据新闻的准确性。为确保单一数据不精准影响新闻的客观性,“美数课”栏目采用多方来源的数据新闻高达112篇,占比接近一半。一篇报道中采用多种不同的数据来源,可以尽量减少失实数据对新闻客观性的影响,还可以满足不同用户的个性化需求。在进行深度报道的过程中,澎湃新闻团队甚至会利用数十种数据来源,以确保对热点话题的全面报道。澎湃新闻还会将数据新闻的全部来源信息在可视化图表底部注明,供读者查验,并设立热线电话,让用户享有充分的监督权,以此更好地服务受众。

    2.数据采集分析技术的飞速发展

    数据新闻刚出现在大众视野的时候,由于互联网技术不够完善,数据收集效率较低。一篇数据新闻报道从收集、分析到撰写,往往要花费数天甚至数周的时间,这就导致数据新闻的时效性较差,严重影响了新闻价值。澎湃数据新闻团队在这方面不断开拓创新。如在2019年“双11”的报道中,当天晚上6点就发布了《1190件商品数据告诉你,双11网购真的那么划算吗?》的文章,这一新闻发布效率可以与普通文字报道相媲美,在不到一天的时间内对上千条数据进行结构化和可视化处理,可见澎湃新闻数据新闻团队的专业和高效。新闻作为对新近事实的报道,时效性较差显然是与新闻伦理相违背的,而提高新闻效率的主要方式则是提升团队素质。目前,全国一线城市的主流媒体均培养了核心数据团队,他们利用Python等编程软件进行数据抓取和分析,因数据样本较多,受到“精英数据”的影响也较小,对数据新闻的定位逐渐由准确新闻向精确新闻过渡。

    3.国内外数据采集相结合

    移动互联技术拓宽了数据采集渠道,主流国际组织数据占国内数据新闻来源的比例日益扩大。在澎湃新闻近两年报道的数据新闻中,国际组织的相关报道有61篇,接近四分之一。国际组织在数据采集和公布方面具有权威性,重视数据全面收集,重视世界各国的平均水平与差异性。基于此,在数据新闻报道中采用国际组织的官方数据,辅之以相应的可视化形式,有助于新闻记者发现新的新闻热点;通过对比,精确分析我国与其他国家在相同行业的优劣势,有利于突出新闻重点,为用户提供世界各国在处理同类问题时的解决措施;更重要的是,能尽量避免部分非官方组织在数据采集方面的不规范和过度渲染,防止假新闻的产生。国际组织数据的引入有助于开拓新闻工作者的视野,如澎湃新闻2019年一篇关于“文遗数字化”的报道中,就较好地利用了国外数据向读者讲述文遗保护的重要性和数字化的意义,更好地普及了“文遗数字化”的概念,唤起了读者对文化遗产的保护意识,达到了良好的宣传效果。

    二、数据新闻报道面临的挑战

    1.小部分数据来源不清

    随着知识产权意识的强化,大部分数据新闻都会精准地标注数据来源,从而更好地保护数据来源方的合法利益。而小部分数据新闻仍未对数据来源进行清晰标记。如澎湃新闻在《面临四年禁赛,俄罗斯和反兴奋剂机构纠葛几许?》一文中,新闻的数据来源就被标注为“综合媒体报道”,并未标注全部数据的具体来源,这使得读者无法对该篇数据新闻的真实性进行查验,同时也容易引发数据来源者的异议。对于来源不清又具有说服力的数据,新闻单位应找准精确来源,层层把关。当无法确定数据来源是否权威时,新闻单位可以更换数据源或更换议题。新闻工作者也要担起责任,数据新闻稿子在发布后应交由个人进行把关,对不符合相关伦理、法规的新闻报道要拒绝发布或及时撤销。新闻单位可以开展相关培训,提高新闻团队的数据素养,对违规发布数据新闻的相关行为进行适当惩戒。

    2.部分数据来源缺乏权威性

    数据的权威决定数据新闻报道的权威,因此,新闻报道中数据权威性很重要。如澎湃新闻在2018—2019年相关报道中,有34篇数据新闻的来源是百度百科或维基百科等,这类数据源普通网民都可编写,很容易出现错误,而澎湃新闻选取此类数据来源的比例却高达13%。这类數据的获取渠道简单,版权争议较少,但数据是否权威实则难以判断,在未来的新闻报道中应尽量避免使用。在一篇关于自然灾害的报道中,澎湃新闻使用民营数据库中的数据作为新闻来源。虽然民营数据库或民营企业提供的数据在进行商业新闻报道中的确有着不可或缺的作用,但关乎政治、国家发展、国际议题的报道应以官方发布的权威数据为主,数据来源的选取要做到符合新闻报道对象的特点。数据新闻团队在开每周选题会时应认真讨论报道议题,寻找合适数据源的具体方法,在整理和收集的过程中应过滤和排除掉权威性较差的数据。

    3.数据所有权与报道权问题

    在新闻行业,政府机关、事业单位、国际组织等官方给出的数据,媒体是可以在标清数据来源的前提下使用的,而民营企业的数据在进行抓取的过程中是否可以作为新闻报道的数据源始终有争议。澎湃新闻在一篇关于“阿里、苏宁并购爱康国宾”的新闻报道中,选取36kr、IT桔子、投资界等多家民营企业的数据作为数据源,存在泄露苏宁、阿里公司商业机密的可能。关于媒体在报道之前是否应向数据源和报道对象询问以获得数据使用权这一问题,笔者曾询问过澎湃新闻“美数课”栏目的相关负责人,她表示“目前尚未明确规定”。数据在收集和采集的过程中容易侵犯个人隐私,报道对象和新闻从业者之间的利益要保持平衡。笔者认为,新闻工作者在报道时要事先向数据源发出请求,待数据源对商业机密数据等进行审查和删除后,方可进行新闻报道。而当报道对象侵犯社会利益的时候,经新闻单位主要负责人审查通过后,新闻工作者方可开始后续的数据采集和挖掘工作。

    4.学术论文中数据使用问题

    数据新闻还有一大重要的数据来源,就是选取学术期刊中公开发表论文所列举的数据进行报道。学术论文尤其是社科类论文,可能会带有作者的主观色彩,且学术论文的质量参差不齐,部分论文作者在收集和分析數据时存在学术欠规范性,新闻报道将学术论文中相关观点融入可视化表格中可能会有失新闻的客观性。遇到观点相左的两篇学术论文,新闻工作者如何进行选择也是一个重要问题。近两年,澎湃新闻“美数课”栏目有16.7%的报道选取学术论文中的数据,通过甄选国内外核心期刊中支撑新闻报道主旨的相关数据予以佐证,证实学术论文数据的权威性需要足够的专业知识,这对新闻工作者是一个较大的挑战。新闻工作者可以结合多篇论文的研究结果进行综合分析,在询问行业权威专家后审慎报道,以免以偏概全。

    三、数据新闻未来发展趋势

    1.统一标准严格把关

    前文提到数据新闻在采集数据的过程中往往涉及多个数据源,而在进行数据融合的过程中要注意单位和计量标准的统一,杜绝将未经处理且计量标准不同的数据进行结构化整合。同时,不同数据详略不一,所表达的核心主旨也不一样,新闻工作者在进行数据可视化的过程中要明确各张图的逻辑关系,也要确保不人为地设置阅读门槛,要避免过度注重形式而忽略内容本身。各大媒体可以借鉴澎湃新闻的报道模式,将数据来源写清,固定标注在可视化图片或H5视频的某一位置。数据新闻团队应招聘专业技术人员负责数据分析、筛选和把关,团队负责人要具备充足的从业经验和数据素养,在数据新闻组开选题会的时候,对选题和数据采集方式进行重点讨论,并在充分讨论的基础上,遵循少数服从多数的原则进行抉择。数据新闻报道创作完成之后,团队成员要经过集体讨论排除错误,才能将其推送至新闻客户端。若已发布的新闻报道出现问题要及时向上级部门报备申请撤销,及时弥补损失。

    2.重视数据版权,避免数据独裁

    大数据时代,数据收集和分析被高度重视,而网络技术使得私密数据的泄露有迹可循。因此,未来在数据采集的过程中,媒体应更加重视数据版权,对于未经公开发表的相关数据应事先发送请求或电话核实对方意见后才能进行后续报道,对于部分商业数据,媒体应支付相应的版权费用。“知识付费”这一概念已逐渐深入人心,媒体可以合作的形式与优质民营数据库合作,并按时支付相关费用。如澎湃新闻多采用OpenLaw、天眼查、36kr大型民营企业收集的数据,从根本上提升新闻价值。新闻媒体本身作为一种社会资源,要做到资源共享,避免因过度重视原创而导致数据独裁,在其他媒体准确标明数据源之后应授权给其转载,如此方可推动全国数据新闻行业的繁荣。

    3.着重保护隐私权

    个人信息保护成为隐私权保护的一项重要议题,早已进入世界各国立法层面。不同的国家,法律意义上对个人隐私的维护集中体现在两点:数据的相关性和可识别性。在现有技术条件下,通过电子信号能够随时随地记录各种信息。特别是新媒体兴起后,利用数据信息可以分析人际关系,通过严密的计算也能预测出其个人偏好,从而实现精准营销。因此,数据以及算法技术都已成为一项无形资产,也使得侵犯隐私权的行为浮出水面。对于非隐私性信息来说,在共享数据的过程中,既要透明公正,也要警惕非隐私性信息对他人合法权益的间接侵害。澎湃新闻在进行数据新闻报道的过程中会采用个案收集的方式,这种方式有助于增加新闻的接近性,在保护用户个人隐私的前提下揭露事件真相,其过程强调新闻素养和法律意识。

    4.从虚拟到现实

    随着VR、AR等技术的广泛应用,数据新闻行业有了新的突破。通过视觉图形算法,媒体可以将只能在数字屏幕发布的新闻报道在现实中呈现,大大提升了数据新闻的交互性,还可以更好地展现数据的变化趋势,使得读者对变化趋势一目了然。英国曾推出Batjo项目,该项目的子产品Data Walk,可以使参与者通过在3D木条行走感受数字随着年代变化的规律。澎湃新闻一直在努力将新兴技术落实到具体新闻报道中,如《海拔四千米之上》《全景现场》,将VR技术与节目制播紧密结合,这其中包括定点VR和漫游VR,每个场景之间在逻辑上互相关联。澎湃新闻始终坚持创新,注重与时俱进,为其他媒体对新技术的利用提供了宝贵的经验。

    |参考文献|

    [1]张虹,熊澄宇. 用户数据:作为隐私与作为资产?——个人数据保护的法律与伦理考量[J]. 编辑之友,2019(10):74-79.

    [2]方诚. 数据新闻发展新趋势:实用化、本地化、智能化和实体化[J]. 新闻爱好者,2019(12):57-59.

    [3]Berendt. B,Maro. Buchler,Rockwell. G. Is it Research or is it Spying? Thinking-through Ethics in Big Data AI and Othe Knowledge Sciences [J]. KI -Kiinstliche Intelligenz,2015 (2):223-232.

    [4]王敏. 大数据时代如何有效保护个人隐私?——一种基于传播伦理的分级路径[J]. 新闻与传播研究,2018 (11):69-92+127-128.

    [5]彭兰. 增强与克制:智媒时代的新生产力[J]. 湖南师范大学社会科学学报,2019 (4):132-142.

    [6]李泽华. 中西数据新闻中的中国国家形象研究——以中西四家数据新闻专栏为例[D]. 武汉:武汉大学硕士学位论文,2019.