AI在数字出版内容审核中的应用研究

    

    

    

    【摘 要】 ?在富媒体背景下,数字出版商不断开发精品内容,创新产品形式,优化用户的“多感官刺激”和“交互式体验”,但与此同时,其内容审核工作也面临严峻挑战。将人工智能技术引进出版行业,充分发挥其深度学习、自然语言处理、语音转写、图像识别等内容审核相关技术优势,为数字出版作品把好质量关,推动数字出版事业转型升级,实现高质量发展。

    【关 ?键 ?词】富媒体;数字出版;人工智能;深度学习

    【作者单位】陈奎莲,地质出版社,富媒体数字出版内容组织与知识服务重点实验室。

    【中图分类号】TP391.41;TP391.1 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2020.10.003

    “池水清不清,不仅取决于注入了多少清水,还取决于截断了多少浊水流入,开辟了多少污水治理方式。”[1]在“建”好新聞出版行业内容质量把控的同时,也要把“管”好提上日程。长期以来,内容风险管控都是传媒行业实现可持续发展的“生命线”。在大数据、云计算、人工智能、5G蓬勃发展的时代,相对于传统图书出版行业,数字出版作品的内容把关面临诸多挑战。那么,数字出版企业如何在“牢固树立质量意识和精品意识”的同时,将人工智能等技术转化为产业发展的内生动力,做好内容审核工作?这是一个值得关注和讨论的问题。

    一、富媒体数字出版与AI内容审核

    1.富媒体与数字出版

    富媒体(Rich Media),通常来说指的是包含文本、音视频等丰富形式和技术的信息传播方式。相对于多媒体而言,富媒体的突出特性是交互性更强,用户使用过程中需要调动多重感官,产品体验更为直观和生动。

    借助5G网络的逐步覆盖和规模化商用,富媒体也将融合超高清视频、VR/AR、3D动画和互动视频等多种内容形态和多元技术手段,在广告、网页设计、传媒出版等领域不断创新业务模式,推动产学研一体化成果转化。2020年初,新华网和中国移动咪咕公司合作建立5G富媒体实验室,“聚焦XR沉浸式体验技术应用、互动融视频技术产品、短视频智能化生产技术应用、富媒体通信产品及大数据精准分发技术等具有前沿性和实用性的领域开展研究工作,打造优质内容产品”[2]。

    根据相关数据研究机构发布的报告显示,在2019年度,我国数字阅读的用户有7.4亿人,同比增长了1.4%[3]。而作为国内数字阅读行业的“领头羊”,掌阅APP凭借内容资源优质、阅读体验良好等产品优势,月活用户已超出1.2亿[4]。毫无疑问,我们已经进入一个“全民阅读、数字阅读”的时代,读者所面临的阅读对象、阅读介质、阅读环境和体验都发生了前所未有的改变,类似于“纸质图书的单纯电子化”这种传统的数字出版样式已经无法满足读者的个性化需求。而富媒体这种集合文字、图片、声音、视频甚至沉浸式VR/AR体验于一身的信息传播方式,将会助力数字出版商不断开发精品内容、创新产品形式,进而提高受众阅读中的“多感官刺激”和“交互式体验”。

    但与此同时,将富媒体应用于数字出版,在5G时代来临之后,相关出版商的内容安全把控工作将会面临巨大的挑战。目前,国内大多数数字出版企业仍采用传统图书的人工审核模式,富媒体数字出版逐步发展,信息和知识的体量呈现爆炸式增长,人工审核成本随之攀升,审核精准度也相对将大幅下滑。

    2.AI与内容审核

    近年来,人工智能技术逐步成熟,实现了广泛应用和落地。早在2016年,AlphaGo战胜李世石,人工智能技术逐步深入社会基础领域;2017年,国务院印发《新一代人工智能发展规划》,把人工智能提升到国家战略层面,让其成为新的产业发展风口。具体在新闻出版行业,除了“机器人新闻”“智能出版流程再造”等内容生产环节的实践应用,人工智能技术对内容审核工作也有所优化和赋能。

    AI审核模式,通常是指内容生产商引入人工智能技术,从事安全审核工作,针对文本、图像、语音、视频等各类型内容,从多重维度识别和计算,为内容把关,确保守住底线,不碰红线。现阶段,虽然数字出版企业引入AI审核模式的情况不甚理想,但诸如百度、阿里巴巴、今日头条等互联网巨擘,凭借超强的技术实力和商业思维,逐步在内容审核领域采用“AI主导+人工辅助”的模式进行风险防控。这种内容审核模式具有卓越的优势。首先,AI审核模式能够大幅提升审核效率,解放人力;其次,依赖于行业通用模型,加之公司自身的特色数据库,AI审核模式每天通过上亿量级的数据训练,能够建立一套精确度极高的计算模型,不断优化内容审核质量,降低疑似和误判率。

    二、AI在文本、音频、图像和视频内容审核中的应用

    1.文本内容审核

    文本是最广泛存在的信息载体,对其内容安全进行严格审核具有较高的现实必要性,抓牢文本安全审查工作对数字出版企业等互联网内容提供商实现可持续和高质量的发展,显得尤为关键。

    一般而言,文本内容安全审核通过文本识别规则和语义识别规则来实现。

    文本识别规则通常是利用关键字词样本库实现对文本的过滤。在建立初期,样本库以北京大学“人民日报语料库”和清华大学“现代汉语语料库”为基础,经过海量的训练,样本库可不断抓取和积累文本特征数据,通过智能算法和机器学习,逐步建立和调试文本识别策略模型,将输入的文本信息与关键字词样本库进行比对,识别出其中的不恰当内容。该样本库的建设与维护,会随人工复核报错、网络舆情预警、网络内容监管政策等实时更新,以确保系统对文本审核的准确率。

    语义识别主要通过自然语言处理、数据挖掘、文本识别等相关技术,联系上下文内容,结合待审核文本所处语境做相关性分析。其依据综合设定的审核标准,判定该文本是否通过智能审核系统的过滤,对于疑似案例移交内容审核团队和专家进行复核。例如在实务中,哔哩哔哩公司主要聘请专家审核委员会来协助平台进行内容审核,在总编辑、审核总监等无法准确判断视频、直播或图文的内容是否符合国家有关规定时,经总编辑室审批后,公司可以将相关问题转交给专家审核委员会,由特聘的科研院校和司法界专业人士依据相关法律政策要求、实务经验,最终确定疑似内容的判定结果,做出相应对策。

    2.音频内容审核

    5G网络逐步普及和应用,辅之VR/AR、移动情境感知等技术加持,音视频产品在内容生产、产品形态、传播趋势等方面进行了创新性变革,相关企业在内容管理领域的业务量几乎成指数级增长。因此,在原有审核人员和技术的基础之上,继续引进人工智能研发自动检测和过滤等算法和模型,对企业实现创新性发展具有重要意义。具体到数字出版领域,人工智能技术的“加盟”,将快速推动有声读物、动漫、数字音乐等音频内容的高效率、高质量审核。

    目前来看,对音频内容进行安全审核主要是基于语音识别和文本语义分析两种技术相结合的方法。

    首先,将音频信号转化为文本文件或命令,利用大词汇量连续语音识别技术完成高质量识别。语音识别流程基本如下:音频信号输入之后,系统可对音频进行降噪、分割等预处理;通过时域方法、频域方法或倒谱域方法等进行音频特征参数的提取;按照基于语音语料库建立的声学模型进行模式匹配;再按照基于文本语料库建立统计的语言模型和词典等对音频进行后处理;输出最终识别结果。

    其次,在语音识别和转写实现的基础上,对文本语义进行情感分析也是完成音频内容审核工作的关键一环。整个运作流程大概分为几个步骤。一是利用机械式分词法、理解式分词法、统计式分词法等完成中文分词。计算机在词与词中间自动增加分隔符,使内容发布人的原意可以被准确表征出来[5]。二是对照专门/特殊领域的情感倾向词汇库,文本分类器按既定的标准和规则,对识别后的文本内容按照各自主题进行标记和分类。通用型情感倾向词汇库的建立一般是从知网中选取情感色彩倾向较明显的词汇和部分修饰语,以此为基础进行语义相似度计算,对词汇规模再扩展,建立最终词汇库;而专门领域情感倾向词典的建立则是依赖前期从特定领域的语料中进行撒网式搜寻和海量积累,建立相关专门/特殊领域的词汇库。三是将专门/特殊领域的情感倾向词汇库和通用型的情感倾向词汇库相结合作为参考,对文本语义进行情感标记和分析,最终输出判定结果。

    在数字出版领域,音频内容审核技术将有效推动有声读物、录音/录像制品、知识服务等产品内容的有效识别和过滤,节省审核成本。机器和算法为主的审核机制也将降低人工因主观情感色彩偏差而导致的误判率,将更为有力地推动数字出版产业转型升级,实现高质量发展。

    3.图像内容审核

    移动通信技术的日益成熟,催生了数字出版产业如知识服务挂图、短视频、VR视频作品等新的产品形态,图像数据出现井喷式增长,内容审核的人力、物力资源缺口巨大,纯人工和简单的“算法过滤”开始频繁失效[6]。在人工智能浪潮下,图像内容审核技术如何实现自身与数字出版产业的融合与发展,是一个值得关注的问题。

    在判定图像性质是否违规方面,除了以往普遍采用的纯人工“24×7”鉴别,还有通过匹配图像的MD5值机器审核其合法性,利用图像的RGB颜色值来识别肤色比例,以及借助建立模型鉴别异常动作和敏感身体部位等方法。虽然综合以上基本能够实现常规图像的内容审核,但是鉴于审核效率低、技术上较易规避、误报率高等问题,相关企业在现阶段及时更新内容审核技术解决方案,成为推动跨越式发展的刚需。

    人工智能时代促进了深度学习技术的探索与发展,机器通过纯图像的方法进行内容审核开始崭露头角。经网易、百度、字节跳动等老牌互联网企业的实践证明,基于深度学习算法尤其是CNN模型在对不良图像内容进行识别的过程中呈现优异性能[7]。通过模拟人脑的神经网络,经过前期海量数据的训练和迭代,逐步建立起具备高层次表现力的识别模型,其对图像内容数据进行多层次、高精确度的计算,大幅减少人工复核成本。

    目前,对图像内容审核的技术包括但不限于图像分类、目标检测、人脸识别、OCR以及图像特征检索等技术。具体来说,基于深度学习算法的图像内容审核技术,首先会对图像整体完成分类和识别,其次会对图像中的人脸和文本分别定位和分析,之后还将对其中的物品、服饰、动作等内容进行定位和特征识别以完成二次校验,最终输出图像的判定结果。在图像审核流程中,经常用到的图像分类算法包括ResNet、DenseNet等,目标检测算法较为常用的是SSD、YOLO-v3等。另外,人脸识别技术在内容审核领域的应用较传统人脸识别有所差异,主要针对图像中出现的模糊人脸、小脸、漫画、侧脸、旋转人脸等特殊情况,通过“在检测模型中增加角度分支结构和金字塔结构等手段”[8]来解决这些识别难题。除此之外,为确保图像内容的审核准确率,利用OCR技术对图像中出现的文本单独识别,当遇到倾斜、倒立、仿射变换、竖排、手写体以及其他特殊字体和排版时,实务中通常使用数据驱动取得直接的效果,并将旋转角度增设进识别网络对文本角度完成辅助预判。该智能图像内容审核技术对数字出版工作者来说,除少量复杂情况,基本能够实现对专题知识库、知识挂图、动漫作品或视频制品任意截图等图像内容的自动化、高精准识别和过滤。

    4.视频内容审核

    基于人类的“生动性偏见”和移动通信网络的高速发展,短视频、直播产业依然方兴未艾。自2019年5G商用元年之后,长视频和VR/AR直播等传播业态叩响了用户“注意力经济”的大门,迎来发展风口。与此同时,海量视频数据中不可避免地夹杂着众多暴力、恐怖等不良主题,给计算机的内容审核技术带来严峻挑战。因此,智能、自动和高效地识别视频内容,对引领健康内容生产和传播、规范行业发展秩序都具有显著意义。

    近年来,深度学习在语音识别、目标检测、图像分类、特征提取方面取得了关键性进展,使得基于深度神经网络识别视频内容成为可能。但是,“由于视频数据的抽象性和非结构化特征,目前深度神经网络在视频内容识别领域尚未达到其在静态图像相关任务上的水平”[9],因此,在现阶段,其在数字出版领域的应用大多停留在理论研究层面,具有广阔的技术研发和应用前景。尤其是目前5G网络逐步商用,其所具有的超大带宽、超低时延等优势,将完美承载计算机运行相关视觉算法的速率要求,从技术环境层面,为数字出版领域如动漫短视频、VR/AR衍生品、主題影视作品、游戏等视频类内容的安全审核奠定基础。

    一般而言,基于深度学习的视频内容识别主要涉及图像物体检测算法和视频动作识别算法两大类。前者是针对视频逐帧或抽取关键帧的图像,利用深度卷积神经网络等方法提取特征,实现对目标的分类和识别;后者主要涉及视频的动态特征提取,也就是说,将视频内容在时间维度和空间维度中呈现的特征进行融合,增强特征的提取和表达能力,提高计算机对视频中动作的识别质量。视频内容中的信息量巨大,除视频数据外,计算机对内容包含的音频数据进行挖掘也十分必要。在语音识别和转写的基础上,提取相应的语义进行情感分析,最终全面综合音频特征和以上图像特征、视频动态特征等,视频内容的识别精确度将会得到显著提高。

    在影视相关平台的内容审核实务中,对于用户制作或上传的视频作品应做以下操作。首先,人工进行一审,主要是对视频的标题、简介等文字信息设置关键词高亮显示,随机截取视频画面10张左右,放大后快速判断视频是否违规,对违规内容进行屏蔽并加入MD5黑名單。其次,基于一审过滤,在经过MD5对比审核之后,后台结合文字信息及视频内容进行二次审核或秒审,甄别隐蔽违规或版权侵权内容,并对视频属性进行分类。最后,主要是根据关键词、政府通知、违规样本、企业自律数据库等内容进行日监控、定期或专项等回查,全方位防范确保安全,除此之外,还会对一、二审屏蔽的视频再进行抽样检查,防止误删。

    三、结语

    富媒体集合文字、图片、声音、视频、VR/AR于一身,助力数字出版商不断开发精品内容,创新产品形式,提高受众阅读的“多感官刺激”和“交互式体验”。但与此同时,富媒体应用于数字出版产业,尤其是5G时代来临之后,信息和知识的体量呈现爆炸式增长,相关出版商的内容安全把关工作面临严峻挑战。对于内容审核,目前国内的数字出版商大多都延续传统图书的人工审核模式,但由于人工审核成本攀升,审核精准度大幅下滑,其迫切地需要寻求新的内容审核解决方案。

    近年来,人工智能技术逐步成熟,并实现了广泛应用和落地,其对新闻出版行业的内容审核工作也有所赋能。内容生产商逐步引入人工智能技术从事专门的安全审核工作,针对文本、图像、语音、视频等各类型内容,从多重维度进行识别和计算,大幅提升审核效率,解放人力。具体来看,在文本内容审核方面,一般通过文本识别规则和语义识别规则来实现;在音频内容审核方面,主要是基于语音识别和文本语义分析两种技术相结合的方法;在图像内容审核方面,相关的技术包括图像分类、目标检测、人脸识别、OCR以及图像特征检索等;在视频内容审核方面,基于深度学习的视频内容识别,主要涉及图像物体检测和视频动作识别两种算法。

    综上所述,将人工智能技术引入出版行业,充分发挥深度学习、自然语言处理、语音转写、图像识别等内容审核相关技术优势,为数字出版产品的内容把好质量关,严格响应政府关于网络内容生态治理方面的政策号召,确保守住底线,不碰红线,推动数字出版事业转型升级,实现高质量发展。

    |参考文献|

    [1]叶蓁蓁. 主流媒体引导力,可否这样实现?[EB/OL]. (2018-12-21)[2020-02-28]. http://media. people. com. cn/n1/2018/1221/c423025-30480487. html .

    [2]刘厦. 新华网·中国移动咪咕5G富媒体实验室揭牌[EB/OL]. (2020-01-15)[2020-02-24]. https://baijiahao. baidu. com/s?id=1655789839750676594&wfr=spider&for=pc.

    [3]2019年中国数字阅读市场研究报告发布 人均阅读量近8本[EB/OL]. (2020-01-06)[2020-02-24]. http://www.ce. cn/xwzx/gnsz/gdxw/202001/06/t20200106_34054178. shtml.

    [4]掌阅获QuestMobile2019年度榜单数字阅读用户规模No. 1 [EB/OL]. (2020-01-09)[2020-02-24]. http://finance. ynet. com/2020/01/09/2317945t632. html.

    [5]童帅. 三网融合下语音内容情感倾向分类系统的设计与实现[D]. 武汉:华中科技大学硕士学位论文,2013.

    [6]王宏宇. 网络不良图片识别技术研究[J]. 电脑知识与技术,2018 (12):195-196+199.

    [7]江英. 图片与文本过滤技术在信息监控中的应用研究[D]. 南昌:南昌大学硕士学位论文,2019.

    [8]网易易盾,深度学习图像算法在内容安全领域的应用[EB/OL]. (2019-08-30)[2020-02-27]. https://dun. 163. com/news/p/eaedbda67e54494e90e039479d3976af.

    [9]门鑫. 基于深度学习的视频内容识别和搜索算法研究[D]. 北京:北京邮电大学硕士学位论文,2019.