激励与规训：试论人工智能在视频领域的伪中立性

2022.09.14

张帅男

[内容提要]人工智能已经成为近些年来各个领域的主要应用之一，视频行业通过综合运用专业性的机器人、AI主播、多元化算法、大数据存储、机器审核等多种智能技术解放平台人员机械性重复性工作的双手，实现了对用户个性化的内容匹配推送，达到了多元化的渠道传播，有效地对用户的使用效果进行了收集和判定，并对整体的流程进行再造和优化。但是人工智能在激励视频领域发展的同时也凸显了一定的问题，其背后隐藏着技术所带来的偏向，偏向所带来的实质是平台与受众关系断裂潜在的危机。而技术持有方尝试通过重新提升对人工智能实践理念的认知，以人为本，尊重受众，也许会迎来新的转机。

[关键词]人工智能;视频领域;算法;科技反思

人工智能作为多种计算机技术的集合概念，其影响力不仅仅是停留在计算机领域，近年来以算法、大数据、机器学习等多种智能技术为代表的人工智能已经逐渐渗透到传媒领域，并因此产生了“人工智能+传媒”的应用热潮，应用范围覆盖文字、图片和视频领域。2019年新华智云8月26日发布了自主研发的25款媒体机器人，希望能用智能化的技术、媒体机器人来解决媒体人在新闻生产过程中的痛点，更快更好地采集和处理新闻资源。

一、激励：人工智能在视频领域的盛况

除了通过机器人减少媒体工作者的工作负担，互联网公司巨头们也率先向人工智能发起进攻，其中最具代表性的便是视频领域和新闻资讯类APP的智能算法技术。以短视频为例，平台通过算法采集用户的个人基本信息、页面逗留时间、视频标签类型、点赞与评论信息等，实现对用户画像的描摹，进而探究出用户的视频类型偏好，进行个性化推荐从而增强用户黏性。“抖音短视频”“西瓜视频”“微视”等短视频APP均是采用此种算法。除算法外，其他类型的人工智能技术也以多元化的组合方式对视频领域的内容创作、内容审核、渠道分发以及后续的受众效果反馈产生总体影响，实现对视频生产整个流程的优化和再造。

（一）千人千面，算法推荐

人工智能是指基于大数据、算法和云计算三项技术基础，开发用于模拟、延伸和扩展人的智能的理论和方法的新技术，是制造智能机器、可学习计算程序和需要人类智慧解决问题的科学和工程。依靠人工智能技术发展的短视频实现了平台和用户的双重解放。依靠算法，实现对用戶的精准捕捉。如果说传统的媒体无法实现对用户或受众一对一精准的了解，那么在应用了算法的视频行业则十分明确地锁定了每一位用户，了解每一位用户的精准信息和偏好，节省了平台去寻找用户的时间，让用户主动找到相应的视频平台。正如算法新闻公司捕捉个体出让的隐私信息，包括个人的地理位置、页面逗留时间、政治立场、关系数据等，为每个人建构一个“数字身份档案”，以此为基础来进行精准化、个性化的推送。

基于这样的算法技术，短视频平台实现了高匹配度的内容分发机制，基于数字档案的建立，平台可以快速根据视频内容的特点、标签、话题等要素实现对已关注受众和潜在受众的针对性分发。抖音短视频APP是这种算法的主要代表，抖音平台通过对发布者的粉丝数量、发布频率、视频内容质量给予一定的流量权重进行初始投放，在经过一定周期后测评投放效果，根据其热度的高低进行二次流量投放，这样极大的解放了平台方内容筛选人员的双手。而对于受众，基于人工智能的内容审核机制使他们在初次看到多元化视频内容的基础上满足了其猎奇心，而在“算法”的持续进攻下，猎奇心转变为了占有欲。算法清晰的了解了受众的视频偏好类型，在此基础上受众的使用黏性开始提升，视频行业的边际效益发挥到了最大。大数据的出现算法的出现缩短了视频内容达到目标受众的周期时间，提升了用户的受众黏性，而这也是各大短视频应用巨头用户活跃量不断提升的重要原因之一，为行业的发展注入了活力。而千人千面的算法也打破了传统的一对多内容分发方式，实现了对长尾理论的有效应用，最大限度地开拓了受众市场。

（二）智能专门化，应用机器人

在新华社所发布的25款智能机器人中有关处理视频的机器人包括视频包装机器人、直播剪辑机器人、视频防抖机器人、字幕生成机器人、智能配音机器人等多款机器人，这些机器人很好地协助了各大媒体内容的采集和生成，更有利于一次采集多元生成模式的实现。据了解，目前浙江、山东等地新闻人已在这些媒体机器人的协助下开展新闻资源的采集和处理。大至地震、台风等突发事件的报道，小至为视频添加字幕的日常工作，有了各种机器人的助力，使用者的普遍感受是“操作简单、提效明显、成果专业”。这些机器人大规模的实践与应用有效地解放了媒体工作者的硬性工作，激励了行业的产出效果，同时也赋予了媒体工作者更多策划选题和商讨创意的时间，推动了优质视频内容的生产。

在2019年8月的超强台风“利奇马”的报道中，浙江广电集团旗下的钱江都市频道新闻部用数据新闻机器人制作了多条数据新闻视频。专业化的机器人对于视频中所需的各个要素都能做到一对一服务，专业化的机器人对接提升了视频生成的整体时效，使传统媒体在视频内容的制作输出上提高了运作效率。不仅如此，专业化的AI剪辑软件程序也不断涌现，提升了普通受众制作视频内容的能力，进而激发了视频领域的活力。正如2019年OPPO手机品牌推出的Reno手机，其中自带的Soloop即录剪辑APP支持AI自动剪辑、AI自动添加字幕、智能转场、滤镜、音乐等实用性功能，对于视频后期制作助力不少。另外还有小米的CC9 Pro型号手机内置有Vlog智能视频剪辑功能，可以一键生成Vlog视频。而在2019年的国庆大阅兵现场，“索贝”牵手央视对现场的阅兵方阵进行了AI视频剪辑的实地操作。从大阅兵三军仪仗队进入视线开始，通过新闻云，AI引擎能够自动编辑前方70余个机位的画面内容，平均耗时90秒。以上种种案例已经说明智能化的程序从机器人到APP已经对视频领域全面发力，而情感化视频画面的识别和定位也将是该领域深度学习的下一个方向。

（三）虚拟主播可视化，建构沉浸化叙事

此外，由于海量数据背后存在着巨额的商业利益，大数据技术的视频应用方会冒着违规用户意愿的风险直接收集数据，从而为后续长期的视频平台精准定位制定发展策略。早在2018年YouTube平台就被曝收集了大量13岁以下儿童的数据，其中包含电话号码和地理位置等信息并追踪了他们在许多网站上的浏览习惯，且在没有获取许可的前提下利用这些数据提供精准的广告服务。人工智能的底线在于不违背用户、群体、社会的利益，且这些圈层是息息相关的。而数据作为物与物、物与人、人与人之间的连接不应该将用户玩弄于股掌之间，而是应该成为治理和维系视频领域良好秩序的纽带。

（三）虚拟的困境，沉浸的悖论

AI主播的出现大大提升了新闻节目处理紧急突发事故时的效率，基于文本输入和语音输出以及多重分身的智能技术减少了视频节目的出错率，但是就现阶段及未来长时间内AI主播只能运用于播报财经、体育等硬性新闻。而对于需要包含丰富情感的人文节目或者其他需要情感触点的新闻视频的录制都还只能却步，因为受众通过视频中的主播所了解到的不只是文字的表面意思，更是有与主播的情感交流和共鸣。AI主播长时间大范围的应用难免会引起受众的心里抵触，当受众得知新闻播报主持人为虚拟主播时短期的新鲜感不足以维持长期形成的信赖感和交流感，即无法触及受众心中的心理落点。

除了AI主播打造了形象化的视频叙事新主体，数据可视化视频以及VR、AR等可视化穿戴设备在视频领域也逐渐得到应用。受众通过穿戴这些可视化设备即可进行沉浸式的视频叙事体验，多感知性、沉浸性、交互性和构想性被认为是虚拟现实最为显著的典型特征。虚拟现实是融合了视觉、听觉、触觉、嗅觉、味觉等诸多感官的输入和输出的可交互系统，将能够给人们带来身临其境的感觉。华为公司于2019年9月26日发布的VR眼镜HUAWEI VR Glass，这比之前的VR系列眼镜重量更轻，体型更小，并且在手机等移动设备上即可投屏。这种沉浸式体验设备将拉近视频内容与体验者的距离，从而提升用户对视频内容的关注度。但是可穿戴设备在视频领域中的应用受制于现实的困境，技术的高门槛和视频内容制作的高成本导致该项技术只是星星点点展现，而并非大规模的市场化运作。在2013年《得梅因纪事报》制作了《丰收的变化》的VR新闻视频：其摄制组花费了3个月的时间进行不问断的拍摄制作，视频的录制时间将近320个小时，该报社花费近5万美元，有22人参与了该项目全程操作。而美国电影学会则认为，目前利用VR技术只适合拍摄短片，因为即便是小短片，其制作成本已经甚至高达上千万。而关于VR技术在新闻视频中的运用，斯坦福新闻组就建议记者只在以下叙事中考虑运用VR技术：难以涉足的地方或人们不愿意去的地方，某些亲自去过后比通过文章、照片和视频更容易理解故事的地方，你必须左右两边转动头部的地方。VR视频内容中还存在新闻伦理的矛盾，世界因为互联网而构建了拟态环境，VR技术则加剧了拟态环境的构建，而基于鲍德里亚的“拟像”理论，VR超真实技术的背后实则是符号和代码的操纵，受众的沉迷可能会成为VR技术随波逐流的拥趸，像提线木偶一样被摆弄，而失去了自身的意识。

三、科技反思：人工智能的实践理念

基于上述的分析可知，人工智能技术背后蕴含的可能性危机使得我们去思考人工智能的背后到底是什么？人工智能作为一种技术它的性质本应是中立的，但是为人所用就存在了或多或少的主观I生，追根到底，探究人工智能应用的本质即是探究人工智能背后的实践者与受众的关系，即人与人的关系。

（一）以人为本：人工智能平视受众

算法和大数据为基础的人工智能在视频领域的实践使得受众处于相对被动的地位。人工智能的技术本质是算法，算法的社会本质是权力。人工智能利用算法等技术将受众的兴趣爱好等个人信息和关联信息进行扫描、记忆、学习，引导受众沉浸于个人偏好的图像化叙事场景，致使受众逐渐失去了探究其他潜在性视频类型的机会和动力。看似宏观层面的千人千面算法推荐实则是个体受众的单人单面，不利于社会多元化议题的形成和讨论，也会在一定程度上对受众共识的形成造成挑战。

以抖音为代表的短视频平台应用的“精英算法”机制在于扶持绝大多数的头部账号，并且在推荐页面中将70%左右的流量都用于了这些账号下的视频作品，这实际上已经将受众放在了一个不平等的位置。短视频平台不应披着“个性化”的外衣实施“精英算法”的推荐，扶持绝大部分的头部造成其他用户视频内容的忽略。而“快手”同作为一款短视频应用，所采用的算法却是普惠的算法，头部账号的推荐流量不会超过总体推荐流量的30%，剩下的70%流量留给每一位用户，在这样相对公平的环境中，算法把受众放在了与自身平等的位置，是一种平视的关系。

（二）科技向善：人工智能让世界更美好

在新华社2019年8月26日的采访中，快手的CEO宿华表示：“快手本身是人们通过短视频来表达、交流的社区。快手不需要特意扶持签约的大v，快手上的大v就是在这个社区成长起来的普通人……人们每天的在线时长已经接近5到8小时，人与人之间的沟通有30%到40%是在线上进行的。所有的互联网企业都要认真地思考，我们能给这个世界带来什么，怎样保证我们带来的变化能让世界变得更好。”人工智能的出发点应该是为用户着想，忧用户之忧，想用户之想，让用户发自心底的认同，视频领域也应当如是。2019年9月5日，bilibili的CEO陈睿在《晚点Late Post》对其的采访中说道：“一个真正伟大的企业，考虑的应该是利他。”

2019年12月4日，浙江大學阿里巴巴分校和史蒂文斯理工学院的研究人员设计了一种方法，称为“按语言说话”（LIBS），该方法利用从语音识别器中提取的特征作为补充线索。他们说，它达到了业界领先的准确性，在字符错误率方面，比过去高出7.66%和2.75%。LIBS和其他类似的解决方案可以帮助那些听障人士观看缺少字幕的视频。据估计，全世界有4.66亿人患有失能性听力障碍，约占世界人口的5%。根据世界卫生组织的数据，到2050年，这一数字可能会超过9亿。研究人员描述道：“LIBS减少了对无关框架的关注。”“帧级知识提炼进一步提高了视频帧特征的可分辨性，使注意力更加集中。”

人工智能的运用应在专门化的阶段尽力地去解决用户的正当需求，在视频领域如此，其他领域亦是如此。技术的运用在了解用户的同时不应将用户置于“人为刀俎，我为鱼肉”的境况，而应通过引导受众去关注社会的多元议题。人工智能背后是人的操作，它以其自身的新鲜性、趣味性、科技性引导受众更加了解自己的同时也应更加地了解这个社会，在满足用户自身偏好的同时更应该尝试引领用户关注群体、社会的现象，增加公共空间交流的可能，这才应是人工智能的本质归宿。

四、结语

视频作为媒介迭代的产物，在当代社会更是因为具备了文本、声音、图像等丰富多样的元素成为受众所钟爱的媒介形式，当下短视频和长视频平台的火爆即是有利的证明。而人工智能的加入提升了该领域的运作效率，专门化的人工智能和多元化的辅助设备丰富了视频的呈现手段，也在一定程度上增强了用户黏度。但是其背后的技术伪中立特性使得视频领域在与人工智能的共处中与受众出现了潜在的矛盾，而只有学会处理好技术与人背后人与人的关系才能赢得受众内心的最终认同，而这也是以后人工智能在视频行业顺利发展必须解决的关键点。