视频直播的高能时刻,AI帮你一键识别|EPJ Data Science

2021-11-22 12:27:33, BMC 中国


本文来自“BMC科研永不止步”,文章仅代表作者观点,与“科研圈”无关。


原文作者:Meeyoung Cha & Kunwoo Park

翻译作者:Miao YU

【译者注:近年来,各类视频直播平台的兴起吸引了大量用户,催生了巨大的娱乐市场。直播过程中精彩片段(Highlight)或史诗时刻(Epic Moments)的自动识别和提取,对生成标签、视频分类及内容推荐等方面都是至关重要的。】


如何在视频直播的内容中发现那些难忘的或“史诗般的”时刻?Meeyoung Cha和Kunwoo Park在这篇博客中介绍了他们最近在EPJ Data Science上发表的工作(DOI: 10.1140/epjds/s13688-021-00295-6),该研究使用了深度学习模型来识别这些直播中的史诗时刻。

图片来源: Jack B, Unsplash

现在,流媒体直播已经成为一种流行的互联网文化。TikTok和Twitch等平台的月活跃用户已超过6000万至1.4亿。事实上,任何人都可以在这些平台上发布内容,这使得识别视频中的有趣时刻变得非常困难,因为这些看起来平凡而冗长的视频数量非常庞大。


在 EPJ Data Science 上发表的一项新研究中,我们展示了人工智能(AI)如何帮助视频编辑们快速发现直播内容中的有趣片段。


识别史诗时刻的判断依据包括观众在聊天信息中的反应、视频帧的结构、观看次数和流媒体信息。其中,表情符号和观众的反应是指导人工智能算法的关键因素。


我们利用深度学习算法从多模态数据中提取“史诗时刻(Epic Moments)”的特征,然后根据学习到的特征去推荐各种情景下的有趣视频片段,包括胜利(victory)、有趣(funny)、窘迫(awkward)和尴尬(embarrassing)时刻。


通过用户研究进行测试后发现,该人工智能推荐算法在识别史诗时刻方面可以达到与专家建议相媲美的程度。

使用推荐的史诗片段剪辑作为指导数据

为了训练算法,我们需要能够代表“epicness”的指导数据。在Twitch上,有人工制作的“(有趣片段)剪辑”或“Twitch 精彩时刻”,这些视频是由主播和观众提供的,时长在5秒至60秒。


图1是一段时长11分55秒的直播内容示例,其中有两个片段被列为“推荐片段”,分别为53秒和30秒。

图1. 流媒体直播的有趣片段示例。每个片段分别获得了21次观看和17万次观看。通过收集这些片段,我们可以构建一种算法来自动检测“史诗时刻”。© The Authors (2021)

第二个片段达到了170000多次观看,说明这个片段的内容更符合“史诗时刻”。该图还显示了用户对所选视频片段的反应。表情符号或特定的Twitch符号在聊天中很常见。

我们收集了200万用户推荐的视频片段和相关的用户对话记录,以了解构成史诗时刻的“要素”。在本研究中,我们将“史诗般的时刻”定义为:令人愉快的、对一段长视频内容的简短总结。


史诗时刻(Epic Moments)与视频亮点(Video Highlights)相似,即它们都是长视频的简短总结,但两者的功能却是不同的。史诗时刻代表着“令人愉快的”时刻,而精彩时刻本质上是指“信息丰富的”。

作为史诗时刻线索的社交信号

我们发现表情和用户反应在寻找史诗时刻的过程中起着关键作用。


利用t-分布随机邻居嵌入(t-SNE)识别用户聊天中出现的表情,将聚类结果绘制在二维视图中(图2)。


不同的颜色表示集群类别,图中展示了与各个情感集距离最近的五个示例单词标记。我们可以在Twitch上看到类似的表情功能。

图2. 每个子集的表情及相关文本示例。(上图)是每个表情嵌入向量,(下图)是示例表情及相关文本标记。由t-SNE绘制,通过表情集和词向量之间的距离选择相关标记。© The Authors (2021)

通过以上思路,我们构建了一个“可解释性多模态检测(Multimodal Detection with INTerpretability,MINT)”深度学习模型,该模型融合并分析了聊天、视频元数据和视频观看次数计算等关键功能。


这三个方面的综合特征捕捉到了史诗时刻的不同方面,将这些线索结合在一起可以得到更好的预测结果。


另外一项用户研究也证实,算法推荐与人类推荐的视频一样有趣。


此外,算法推荐涉及各种情景,如失败的游戏时刻、有趣的舞蹈动作、游戏期间的意外翻盘和非游戏时刻等,如图3所示。

图3. 关于史诗时刻算法推荐的示例。MINT模型可以发现(a)失败,(b)有趣,(c)胜出,和(d)自由说唱(非游戏时刻)。© The Authors (2021)

随着越来越多的人花时间在互联网上观看直播内容,人工智能推荐算法可以帮助编辑和观众发现史诗般的时刻。


对MINT算法代码和用于训练的剪辑数据集感兴趣的研究人员,可以在我们的GitHub页面上找到更多信息https://github.com/dscig/twitch-highlight-detection


点击图片 阅读论文

Meeyoung Cha & Kunwoo Park


Meeyoung Cha是韩国基础科学研究所(IBS)的首席研究员和韩国高级科学技术院(KAIST)的副教授。她的研究方向是数据科学,重点是对与社会相关的信息传播过程进行建模。


Kunwoo Park是韩国崇实大学(SSU)人工智能融合学院的助理教授。他的研究兴趣是通过数据科学方法和社会数据解决社会问题。

点击“阅读原文”阅读博客原文

Algorithms Suggest Epic Moments in Live Streaming

BMC是施普林格∙自然旗下机构。作为开放获取出版先锋,BMC不断推出一系列高质量的同行评议期刊,包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊,以及Malaria Journal、MicrobiomeBMC系列期刊等专门刊物。BMC以“科研永不止步”为信条,致力于不断创新,以更好地满足作者群体的需要,确保所发表论文的完整性,并积极推广开放研究。


备注:本文来自“BMC科研永不止步”,凡本公众号转载、引用的文章、图片、音频、视频文件等资料的版权归版权所有人所有,如因此产生相关后果,将由版权所有人、原始发布者和内容提供者承担,如有侵权请尽快联系删除。


点个“在看”,下次更新不错过⇣⇣


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2022 ANTPEDIA, All Rights Reserved