声音媒体的智能化发展

    殷乐 朱豆豆

    【摘要】近年来,伴随新技术发展,“AI+音频”正成为线性广播、播客等声音产品的发展热点。声音媒体的智能化发展,不仅为用户带来了全新的听觉体验,改变了原有的音频传播方式,拓宽了音频的使用场景,更构建了声音与人的新关系。本文从新终端、新应用、新关系三个层面来解析声音媒体的智能化发展状况和态势。

    【关键词】声音媒体 智能化 智能音箱 播客

    【中图分类号】G206 【文献标识码】A

    与新技术发展、用户需求和使用场景的变化相对应,以广播为代表的声音媒体虽经起落但总体保持着生态的蓬勃发展,出现了播客等网络音频的数字升级。当前,人工智能(AI)的发展和广泛应用,为声音媒体的发展带来了新契机。调查报告称“传统的调幅/调频(AM/FM)收音机仍然是美国最受欢迎的大众传播媒介,但新的平台正在改变人们的音频体验”。① 这一改变不仅发生在美国,音频因智能技术而出现的新发展在全球皆有案例。本文结合各国实践来看声音媒体智能化发展的三个层面。

    一、新终端:智能音箱开启的新世界

    无论从媒体内容、用户还是产业发展来看,终端既是起点又是终点。终端变化是行业变革的体现,也促进了相应生态的改变。在声音媒体的发展中这一点尤其明显。

    以终端变化为脉络,我们可以把声音媒体分为三个阶段。第一阶段为电子终端,主要形态为调幅/调频收音机。收音机最受欢迎的时候是20世纪80年代,收音机将外部世界引进了私人生活领域,人们可以坐在家里了解外面的世界;第二阶段是数字终端,主要形态为台式电脑、平板电脑、手机等,播客在此时开始发展,个人基于互联网的音频内容发布,由线性单向传播走向网状多向传播;第三阶段是智能终端,主要形态为智能手机、智能音箱等,从与人的连接走向万物互联,其中流转的数据体量更大、速度更快、更为复杂,形态也更为丰富。其中尤为值得关注的就是智能音箱,智能音箱作为智能语音技术最具代表性的一种落地化产品,在基础性层面推动了声音媒体智能化发展。《福布斯》(Forbes)杂志在2017年即称,音频的未来是智能音箱。②

    智能音箱的革命性意义在于其对生活的嵌入:卧室、客厅、汽车……应用场景多元,信息、娱乐、生活服务……应用功能丰富,越来越多的用户以智能音箱开启和结束一天的工作和生活,③这将是广播电视所享受的又一次特殊待遇。究其原因,首先,语音输入比触摸屏或遥控器更为简便,易得性始终是受众媒介选择的首要原则;其次,智能音箱的背后都有语音助手作为支撑,如谷歌公司的智能音箱产品Google Home的Assistant、亚马逊公司Amazon Echo的Alexa、苹果公司Home Pod的Siri、微软公司Invoke的Cortana和我国国内的“天猫精灵”“小米助手”等。智能助手既使智能音箱有了人性化的交互意义,也使智能音箱具有了枢纽意义,以此为起点,可以实现对智能家居的控制,以此为终点,可以接收和参与各类媒体活动。路透新闻研究院《2018年数字新闻调查报告》显示,Amazon Echo和Google Home等语音激活数字助理继续快速增长,为新闻音频开创了新的机会。美国、德国和英国的使用量增长了一倍多,其中大约一半的人使用这些设备来获取新闻和信息。④2018年12月,谷歌公司与美联社等多家媒体合作测试语音新闻点播服务,当用户向Google Home智能音箱提问“有什么新闻”时,它会带来一份来自几家精选媒体的新闻简报。该功能使谷歌助理可以“在你想要听新闻的任何时间,比如早晨起床、上下班途中或者慢跑的时候,为你准备好你所喜欢的新闻并进行实时更新”。⑤

    世界卫生组织指出了智能音箱的重要性:“智能音箱已经成为美国消费者的主要产品,并对他们的日常行为带来巨大改变。”⑥阿里巴巴、京东、百度等公司都在2017年相继推出了智能音箱产品,当年市场销售量达到165万台。⑦2018年中国智能音箱市场热度持续火爆,仅在上半年销售量就达467万台。⑧随着新厂家的不断涌入、价格战的持续升级及更加丰富的产品种类,更加细化的市场已经开始布局,智能音箱正处于一个重要的发展节点。就下一步发展而言,智能音箱的应用场景和人工智能领域跨平台合作的探索仍有待于市场的检验,人工智能在音频处理应用尚存在很大的发展空间。而对音频和声音的处理和理解是一项非常复杂的任务,目前来看,除了谷歌公司的连续对话功能只需要执行一次“Hey Google”的语音命令外,大多数智能音箱的智能程度并不能令用户满意,每次语音命令都需要执行一次口令,步骤烦冗啰唆。此外,也有人担忧智能音箱会收集用户个人隐私,通过智能音箱来监听用户对话,认为商家会利用这一新渠道,为用户针对性打广告或做其他商业用途。⑨同时,中国的智能音箱发展中还存在传统广播与智能终端的结合度不够的问题,未来有待于进一步探索。

    二、新应用:从数字播客到智能播客

    与智能音箱相伴,播客也多被认为带来广播的复兴。播客发展之初,最常见的播放设备是电脑,随着越来越多新技术的出现并不断走向成熟,用户可以将音频文件同步下载到移动设备(如MP3播放器或手机)上。2005年,播客风靡全球,以至于《新牛津美语词典》宣布播客为“年度词汇”,但随后受图像时代的冲击及播客自身发展局限等原因的影响,播客的發展并没有风生水起,直至2007年苹果公司推出了第一批可以上网的智能手机iPhone之后情况才有所改观。苹果手机的诞生带来了“订书机”(Stitcher)、“公共电台”(Public Radio Play)等第一批播客应用程序的面世,随后众多播客应用程序陆续涌现并朝着“移动+平台”的方向发展。随着人工智能技术的引入,音频播客类节目作为口说耳听的伴随式消费体验,以智能面貌进入市场。国际音乐流媒体巨头“声破天”(Spotify)、“潘朵拉”(Pandora)竞相宣布进军智能播客市场,前者称可以实现播客在不同设备上的无缝播放,后者称可以通过复杂的算法将播客分类从而实现精准的个性化推送。调研报告显示,四年内,播客应用在“耳朵经济”份额中翻了两番。⑩在国内,2016年被称为播客等音频流媒体的爆发元年,形成了“喜马拉雅FM”“荔枝FM”“蜻蜓FM”三大应用程序鼎立的局面,他们加强与智能音箱深层连接,充分利用人工智能技术从数字播客走向智能播客。

    不仅播客,对于广播及其他数字音频等声音媒介而言,人工智能技术的应用对其有几个方面的影响。

    其一,自动化生产带来海量音频内容。人工智能技术正在加速音频内容的自动化制作,以音乐领域来看,脸书(Facebook)在2018年5月开发出能转换音乐配器风格的人工智能技术;?2018年12月,音乐人专用平台Landr在音频母带制作领域有了新突破,可以实现自动化的音乐制作。?这些智能技术在音乐产业中的发展使歌曲创作平民化,并使音乐制作更容易进行,同时也降低了音乐的制作成本,使得家庭录制和流媒体等趋势将音乐产业普及化。其他领域亦是如此。自动化制作会带来海量内容,播客出现之初,超越传统广播的一大特色即为所订阅音频内容的自动下载和同步播放,在人工智能时代,自动化生产的体量和速度将远超播客的自动下载,由此也进一步推动智能化声媒的发展。

    其二,智能推荐+个性化服务。智能音箱的普及,让音频播客能够做到和听众直接互动并按照用户需要提供音频内容。如谷歌公司推出了独立的播客应用,依据背后复杂的算法及庞大的数据支撑,不仅可以为用户推荐热门的播客节目,还可以根据个人的偏好和收听习惯来提供精准的個性化推荐。潘朵拉(Pandora)人工智能的个性化推荐不只是浅显地推荐用户感兴趣的内容,它还使用“音乐基因组计划”分析歌曲的数百种属性,以便根据个人的口味找到最符合心意的匹配。?2018年12月,数字媒体和在线营销方案的供应商Adobe公司推出的分析云(Adobe Analytics Cloud)开发了新的人工智能功能,帮助品牌商家追踪精确的用户流媒体使用习惯。这一新分析工具提供包括广告播放完成率在内的超过70个指标, 由此可以观察到用户一些最微妙的使用流媒体的习惯,进而为企业找到特定的受众群体,达到精准营销的目的。?

    其三,无缝跨平台收听。作为伴随式的收听方式,播客很好地迎合了人们碎片化时间的收听需求,但也容易造成受众注意力的高度分散,特别是对于一些时长较长的节目,基于场景的变化,用户在碎片化时间内很难收听完整节目。人工智能技术可以使人们在不同场合及不同设备下无缝收听。如在车内用智能车载系统收听的播客,下车后可以继续用手机播放,回到家仍可以用智能音箱继续收听。

    三、新关系:多层面突破边界创造新领域

    以三个层次来看声音媒体如何利用智能技术突破边界,创造新领域。

    首先是突破媒体形态的限制,各媒体形态之间转换自如。文字转音频。2018年9月,超级高保真音箱Super Hi-Fi人工智能公司与美联社合作,将美联社的每日全球新闻内容转换成基于音频形式的故事,可以无缝嵌入任何数字音乐服务伙伴,为流媒体音乐用户提供人工智能生成的音频新闻广播。这些新闻可以无缝连接到他们最喜欢的电台和播放列表中。该功能的实现使订阅用户无须离开自己喜爱的音乐频道或数字服务提供商,就能获得最新的头条新闻,从而延长用户参与的时间,并可以将歌曲之间的缝隙转化为相关和个性化的美联社新闻。?

    音频转表情动画。雷锋网学术频道“AI科技评论”出品的系列短视频《两分钟论文》(Two Minute Papers)在优兔(YouTube)上发布了一篇有关智能音频技术的论文,文章称可以实现根据讲话音频实时生成脸部动画,将其传给学习算法,让虚拟演员更真实地把语音讲出来。该技术可以完美地捕捉视频中的脸部运动并应用于各种场景中,如使机器人做出比以前更逼真的面部动画,完美模拟人类的疼痛、开心、惊讶等,使表情和情感更加丰富和自然。?

    视频转音频。2019年1月,奈飞(Netflix)通过“音频描述”功能将视频变为音频有声书形式。?“音频描述”为人们提供了通过“听”的形式来欣赏他们所喜欢的节目、电影或电视,而不是通过“看”的形式。人们可以在跑步、学习或开车等各种场景中通过手机“听”电影或电视,这种形式不仅适合视障人士,也适用于普通人,方便用户在任何地点将其伴随左右。目前,智能音频的发展尚处于初步阶段,未来“人工智能+音频”主导下的音频传播形态必定伴随音频生态系统的完善而丰富起来。

    其次是突破传统音频产业关系,加速跨界合作。移动终端的普及及智能技术应用重构了用户的收听行为,为用户构建了不同的场景化音频生态,也为音频产业的发展打开了全新的窗口。由于智能硬件的场景化或智能穿戴的便捷性满足了受众不同场景的需求,最大限度地整合了人们的碎片化时间,使人们可以搭载不同智能硬件在不同场景中随意收听喜欢的节目并且不受时间和地域的限制,于是,各大音频公司也开始注重多厂商合作,在共赢的前提下开展音频产业布局。如“喜马拉雅FM”自主研发的智能芯片,通过与不同商家的智能家居(如电视、冰箱等)相结合,使智能音频更多地深入到人们生活的不同场景和日常生活中。另外,人工智能的精准个性化推荐为音频跨界发展奠定了基础,如根据人工智能的信息抽取功能来分析受众的喜好,并进行精准化营销,实施“音频+电子商务”的运作模式等。总之,智能音频产业的未来将跳出传统音频行业的固有思维,实现多种可能。

    再次是人机交互走向深化。智能终端、智能助手的爆发直接促进了人机交流的深化,使得个性化推荐成为播客主推的分发方式,实现了智能问答、按需收听、人机直接对话等人机交互新形式。各国媒体多开始以人机交流来深化体验。2018年11月,《金融时报》将周末增刊的文字连载《隐藏的城市》(Hidden Cities)升级为播客栏目,通过虚拟现实(VR)技术、谷歌助手等,带领听众走入一场精心制作的城市音频之旅。《隐藏的城市》系列共包含9个节目,每个节目时长10分钟,德国首都柏林被作为该系列的第一期节目,在节目中,听众可以与讲述人进行实时互动,以全新的交互方式了解一个城市的文化、生活和风俗。?在配乐方面,为了给观众创造身临其境的听觉体验,音效师使用VR麦克风捕捉每个地点不同的环境声音,并将配乐与叙述、影片和音频同步结合,让观众感受到具体的发声地点。有称该形式开创了报业在“VR+城市漫游”领域的发展之路,节目为听众带来全新的高沉浸感和强临场感体验。

    英国广播公司(BBC)在2017年9月推出原创互动式广播剧《检查室》(The Inspection Chamber),也在互动音频领域进行了尝试,其研发部门和英国音频公司Rosina Sound合作,首先借助亚马逊语音助手Alexa播出,随后逐步与微软Ivoker、Google Home、苹果HomePod等设备展开合作,探索语音用户界面和智能音箱相结合所能带来的娱乐体验。《检查室》时长20分钟,观众在该剧播放过程中可以通过对话形式进行互动,目前问题还大都围绕着“你喜欢什么,冷的还是热的?”等简单选项。尽管如此,这部广播剧开创了一种与故事互动的新方式。传统互动小说的提问方式,需要人们通过选项参与其中,易于打扰读者的阅读体验,使人跳出正在发展的故事情节。而《检查室》可以帮助用户更好地置身于故事中,通过语音与故事中的人物直接展开对话,决定故事未来的发展走向。同时英国广播公司研发部门为该项目创建了一个故事引擎,允许同一个故事在不同的设备上同时播放,为用户开创了跨平台语音体验。这部广播剧开创了由广大受众参与和互动的音频类生成媒体,将用户引入到音频故事本身的创作中,以互动增添了内容的可塑性和多样性,大大激发了用户听的兴趣,满足了用户深度参与的需求。截至2019年2月,英国广播公司对一批测试用户的调查报告表明,听众对这种新型的有声对话广播剧有更高期待,期待它们在塑造故事方面有更大的影响力,能获得更好的沉浸式体验。英国广播公司称这些建议将会应用在下一个语音互动产品中。

    这种新型的智能人机互动形式,使话语权在传者与受者之间发生改变,并将二者角色高度交汇与融合,打开了人机交互的新局面,进而产生了新的权利关系及体验,受众在参与和互动中实现了自我赋权。

    总体而言,相对于视频来说,音频用声音作为传播信息的载体,资源占用少、可移动、生产和接收技术成本低,可以适应当今非结构化的工作空间,打破了虚拟交流及面对面交流之间的界限,与用户建立起更具个人情感的连接。在不断成熟的人工智能技术影响下,特别是对于5G网络带来的万物互联时代,音频未来的发展形态必定具有多种可能性。

    不能忽视的是,智能化声媒改变了传统叙事中的参与主体,颠覆性地赋权于大众,同时也在一定程度上带来了隐私泄露、话语环境混乱、网络管理难度增加等问题。因此,如何创造一个有效、健康的音频播客媒介传播机制和生態系统,更好地释放声音的魅力,是智能化声音媒体未来发展应该着重考虑的问题之一。

    注释

    ①Doug Hyde. New report: the Westwood One 2018 Audio scape: podcasting and smart speaker supercharge listening, August 13,2018, https://www.westwoodone.com/2018/08/13/new-report-the-westwood-one-2018-audioscape-podcasting-and-smart-speakers-supercharge-listening/.

    ②Rebecca Lerner. Smart Speakers Are The Future Of Audio, June 23, 2017, https://www.forbes.com/sites/rebeccalerner/2017/06/23/smart-speakers-are-the-future-of-audio/#23e8c85766a9.

    ③Nic Newman. The Future of Voice and the Implications for News, November 2018,https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2018-11/Newman%20-%20Future%20of%20Voice%20FINAL_0.pdf.

    ④路透新闻研究院 :《2018数字新闻调查报告》, Useit知识库,2018年6月21日。 https://www.useit.com.cn/thread-19464-1-1.html.

    ⑤Brian Heater. Google partners with media outlets to provide on-demand news audio, https://techcrunch.com/2018/12/06/google-partners-with-media-outlets-to-provide-on-demand-news-audio/.

    ⑥Podcasting, Smart Speakers Driving An Audio Renaissance, InsideRadio, October 3, 2018,http://www.insideradio.com/free/podcasting-smart-speakers-driving-an-audio-renaissance/article_4a848106-c6cb-11e8-b7fd-ef50c8741225.html.

    ⑦《GfK:中国智能音箱消费市场持续增长,2018年销量将达588万台》,GfK,2018年4月9日。https://www.gfk.com/zh/insights/news/gfk2018588/.

    ⑧《艾媒报告:2018~2019中国智能音箱行业及产品竞争力评价分析报告》,艾媒网,2019年1月15日。http://www.iimedia.cn/63405.html.

    ⑨孙洪:《智能音箱有“后门”?探索用户隐私数据背后隐藏的商业价值》, 凤凰科技,2018年6月28日。 https://www.ithome.com/html/it/367429.htm.

    ⑩Edison Research:The podcast consumer 2018, April 19,2018, https://www.edisonresearch.com/podcast-consumer-2018/.

    ?Daniel Rothma. The promise of AI in audio processing, December 26, 2017, https://towardstatascience.com/the-promise-of-ai-in-audio-processing-a7e4996eb2ca.

    ? Sebastian Andreas Lesch. Artificial intelligence in music production, Technik Journal, July 25, 2018, https://technikjournal.de/2018/07/25/artificial-intelligence-in-music-production/.

    ? David Deal . Why AI Is the Future of Music, Superhype Blog, April 12, 2017, https://superhypeblog.com/music/why-ai-is-the-future-of-music.

    ? Amy X. Wang. Spotify and Pandora Will Know Precisely How You Listen, RollingStone, September 25, 2018, https://www.rollingstone.com/music/music-news/adobe-analytics-spotify-and-pandora-now-know-exactly-how-you-listen-728621/.

    ? Business Wire. Super Hi-Fi Collaborates with The Associated Press to Bring AI-Generated Audio Newscasts to Streaming Music Subscribers,September 19, 2018, https://www.businesswire.com/news/home/20180919005241/en/Super-Hi-Fi-Collaborates-Press-Bring-AI-Generated-Audio.

    ? Paul F Christiano & Jan Leike. Deep Reinforcement Learning from Human Preferences, July 13, 2017, https://arxiv.org/pdf/1706.03741.pdf.

    ? Patrick Loftus. People Are Turning Netflix Videos into“Audiobooks”with the Audio Description Feature, 3PlayMedia, December 6, 2017, https://www.3playmedia.com/2017/12/06/people-are-using-the-audio-description-feature-on-netflix-to-listen-to-video/.

    ?Catherine Goacher. FT launches first interactive audio experience, in partnership with Google,November 9, 2018, https://aboutus.ft.com/en-gb/announcements/ft-launches-first-interactive-audio-experience-in-partnership-with-google/.

    ?《“肥沃狩猎场”:“金融时报”发现播客会吸引付费用户》,全媒派, 2018年11月19日。http://www.jintiankansha.me/t/6CDua7zoOv.

    ? Chris Barraclough. The Inspection Chamber: How to play the BBCs interactive sci-if show on your Alexa speaker,November 8, 2017, https://recombu.com/digital/article/bbc-the-inspection-chamber-on-alexa-how-to-play-and-review.

    Henry Cooke. The Inspection Chamber, September 6, 2017, https://www.bbc.co.uk/rd/blog/2017-09-voice-ui-inspection-chamber-audio-drama.

    Henry Cooke. User Testing The Inspection Chamber, June 29, 2018, https://www.bbc.co.uk/rd/blog/2018-05-the-inspection-chamber-user-study.

    【作者殷乐系中国社会科学院新闻与传播研究所研究员、博士生导师,朱豆豆系中国社会科学院大学(研究生院)新闻学与传播学系博士研究生】

    (本文编辑:李静)