
多模态视频畸形理罢黜务开云kaiyun,又有新打破!
"畸形意会"是指在视频监控、自动驾驶等场景中,行使模子发现视频中的畸形内容,从而预判危急,以便实时作念出有策划。
来自华中科大等机构的商讨东谈主员,提倡了新的视频畸形意会模子 Holmes-VAU,以及干系数据集。
与通用多模态大模子对比,Holmes-VAU 在各式时序粒度的视频畸形意会上都展现出显赫上风。

为了兑现怒放寰宇的多模态视频畸形意会(VAU),已有的 VAU benchmark 惟有短视频的 caption 标注或长视频的 instruction 标注,忽略了视频畸形事件的时序复杂性。
为同期促进模子对短视频的感知才智和对长视频的推理才智,作家提倡了一种高效半自动数据引擎并构建了 HIVAU-70k 数据集,包含超 7 万视频畸形理罢黜务的多时序程序指示数据。
同期作家提倡了一种基于畸形分数的时序采样器,从长视频中动态寥落采样关节帧到后续多模态大模子中,显赫普及了畸形分析的准确性和推理成果。
多层级视频畸形意会指示数据集
针对视频畸形理罢黜务 ( Video Anomaly Understanding ) ,以往的一些畸形视频指示数据集主要有两方面问题:
数据集结的视频时长较短,导致模子枯竭对长视频的畸形意会才智;
即便包含长视频,也枯竭对长视频的细粒度和结构化的标注,导致模子的畸形意会空间难以对王人。
为此,作家提倡了一个大型多模态指示数据集 HIVAU-70k,其中包含多种时辰粒度的视频畸形标注,由粗到细折柳为:
video-level:未编订长视频,包括视频中整个畸形事件的文本描述分析;
event-level:从长视频中编订出的畸形事件片断,包括单个畸形事件的文本描述分析;
clip-level:从 event 中进一步编订出的视频片断,包括视频片断的文本描述。
HIVAU-70k 中的指示数据包括视频描述、畸形判断、畸形描述和畸形分析等任务,为视频畸形意会多模态大模子提供了丰富各样的数据起头。

这么的多层级指示数据集是如何构造的呢?从一个未编订的长视频启动,需要循序进程以下三个门径:
分层视频解耦(Hierarchical Video Decoupling):将 video-level 视频中的畸形事件标注并编订出来,获取 event-level 视频 , 再对 event-level 视频进一步平均切分获取 clip-level 视频;
分层解放文本瞩目(Hierarchical Free-text Annotation):关于 clip-level 视频,使用东谈主工或 caption model 获取 clip caption;关于 event-level 视频,归并所包含的 clip-level caption 和畸形类别,指示 LLM 获取事件追想;关于 video-level 视频,归并所包含的事件追想和畸形类别,指示 LLM 获取视频追想;
档次化指示数据构建(Hierarchical Instruction Data Construction):针对不同层级的视频十分文本标注,想象不同的任务,构造任务干系的问题并与文本瞩目组合,获取最终的指示数据。

与其他干系的数据集比拟,HIVAU-70k 不仅稀少量上的上风,还提供了多粒度的文本标注以实时序上的畸形鸿沟标注。

动态寥落采样的视频畸形意会模子
长视频畸形意会在使用大型谈话模子(LLMs)或视觉谈话模子(VLMs)时,常因帧冗余问题而受到终局,导致畸形检测的准确性变得复杂。
以往的 VAU(视频畸形意会)要领难以聚焦畸形。
举例,密集窗口采样要知晓增增加数冗余帧的筹画量,而均匀帧采样要领常常错过关节畸形帧,使其应用鸿沟局限于短视频。
为此,作家提倡了 Anomaly-focused Temporal Sampler ( ATS ) ,并将其集成到 VLM 中,通过在 HIVAU-70k 上的指示微调,构建了 Holmes-VAU 模子。
畸形帧频繁比平常帧包含更多信息,并推崇出更大的变化,基于这一不雅察,作家想象了一种采样战术,在畸形分数较高的区域采样更多帧,同期在分数较低的区域减少采样。
为兑现非均匀采样,作家提倡了一种"密度感知采样器"(density-aware sampler),用于从总计 T 个输入帧中禁受 N 个帧。
具体来说,作家将畸形分数 S 视为概率质地函数,并领先沿时辰维度积蓄它们,获取积蓄漫步函数(CDF),记为 S_cumsum:
接着,在积蓄轴上均匀采样 N 个点,并将这些点映射到积蓄漫步 S_cumsum 上。相应的时辰轴上的 N 个时辰戳会被映射到最接近的帧索引,最终变成采样的帧索引蚁集 G。

△Holmes-VAU 模子框架图
下入展示了测试集上的畸形分数和采样帧的可视化终局。这些终局标明了 ATS 的准确畸形检测才智,最终输入到多模态大模子的采样帧也集结于畸形区域。

△Anomly-focused Temporal Sampler ( ATS ) 畸形分数及采样帧显露图履行终局畸形推感性能评估
作家在 HIVAU-70k 的测试集上,将模子输出的推理文本与瞩倡导简直文本进行比较,筹画了包括 BLEU、CIDEr、METEOR 和 ROUGE 等策划来商酌模子输出的畸形意会文实质地。
与通用多模态大模子对比,Holmes-VAU 在各式时序粒度的视频畸形意会上都展现出显赫上风。

在多层级标注中,对不同层级指示数据集的组合,不错不雅察发现,单一层级的标注只可普及单一层级任务的性能。
不同层级的标注组合不错互相补充,兑现从 clip-level 的基础视觉感知 , 到 event-level 单一畸形事件的分析,再到 video-level 的万古序畸形追想和推理等方面的全面普及,达到更细粒度和完好的多模态畸形空间对王人。

关于非均匀采样器的作用,作家也对比了不同帧采样样子,包括本文提倡的 ATS、之前列法用的 Top-K 采样和 Uniform 采样。
终局标明在换取的采样帧数下,ATS 展现出更优厚的长视频畸形意会才智,这是由于 Top-K 采样过于集结在畸形帧,忽略了视频凹凸文的参考,Uniform 采样则容易忽略关节的畸形帧。
而作家提倡的 ATS 则灵验归并了这两者的上风,关切畸形帧的同期,好像保留部分凹凸文帧的采样。

定性比较
下图对比了 Holmes-VAU 和其他 MLLM 输出的畸形分析文本,Holmes-VAU 推崇出更准确的畸形判断和分析才智,同期对长视频也推崇出更完好的畸形追想才智。

△Holmes-VAU 和其他 MLLM 的畸形分析文实质地对比
论文:
https://arxiv.org/abs/2412.06171
代码:
https://github.com/pipixin321/HolmesVAU
一键三连「点赞」「转发」「着重心」
接待在批驳区留住你的念念法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 形貌主页蚁集,以及磋磨样子哦
咱们会(尽量)实时陈说你

� � 点亮星标 � �
科技前沿进展逐日见开云kaiyun