开云kaiyun其中包含多种时辰粒度的视频畸形标注-kaiyunApp下载入口|kaiyun

16 2026-05
开云kaiyun其中包含多种时辰粒度的视频畸形标注-kaiyunApp下载入口|kaiyun

发布日期：2026-05-16 18:36 点击次数：77
多模态视频畸形理罢黜务开云kaiyun，又有新打破！
"畸形意会"是指在视频监控、自动驾驶等场景中，行使模子发现视频中的畸形内容，从而预判危急，以便实时作念出有策划。
来自华中科大等机构的商讨东谈主员，提倡了新的视频畸形意会模子 Holmes-VAU，以及干系数据集。
与通用多模态大模子对比，Holmes-VAU 在各式时序粒度的视频畸形意会上都展现出显赫上风。
为了兑现怒放寰宇的多模态视频畸形意会（VAU），已有的 VAU benchmark 惟有短视频的 caption 标注或长视频的 instruction 标注，忽略了视频畸形事件的时序复杂性。
为同期促进模子对短视频的感知才智和对长视频的推理才智，作家提倡了一种高效半自动数据引擎并构建了 HIVAU-70k 数据集，包含超 7 万视频畸形理罢黜务的多时序程序指示数据。
同期作家提倡了一种基于畸形分数的时序采样器，从长视频中动态寥落采样关节帧到后续多模态大模子中，显赫普及了畸形分析的准确性和推理成果。
多层级视频畸形意会指示数据集
针对视频畸形理罢黜务 ( Video Anomaly Understanding ) ，以往的一些畸形视频指示数据集主要有两方面问题：
数据集结的视频时长较短，导致模子枯竭对长视频的畸形意会才智；
即便包含长视频，也枯竭对长视频的细粒度和结构化的标注，导致模子的畸形意会空间难以对王人。
为此，作家提倡了一个大型多模态指示数据集 HIVAU-70k，其中包含多种时辰粒度的视频畸形标注，由粗到细折柳为：
video-level：未编订长视频，包括视频中整个畸形事件的文本描述分析；
event-level：从长视频中编订出的畸形事件片断，包括单个畸形事件的文本描述分析；
clip-level：从 event 中进一步编订出的视频片断，包括视频片断的文本描述。
HIVAU-70k 中的指示数据包括视频描述、畸形判断、畸形描述和畸形分析等任务，为视频畸形意会多模态大模子提供了丰富各样的数据起头。
这么的多层级指示数据集是如何构造的呢？从一个未编订的长视频启动，需要循序进程以下三个门径：
分层视频解耦（Hierarchical Video Decoupling）：将 video-level 视频中的畸形事件标注并编订出来，获取 event-level 视频 , 再对 event-level 视频进一步平均切分获取 clip-level 视频；
分层解放文本瞩目（Hierarchical Free-text Annotation）：关于 clip-level 视频，使用东谈主工或 caption model 获取 clip caption；关于 event-level 视频，归并所包含的 clip-level caption 和畸形类别，指示 LLM 获取事件追想；关于 video-level 视频，归并所包含的事件追想和畸形类别，指示 LLM 获取视频追想；
档次化指示数据构建（Hierarchical Instruction Data Construction）：针对不同层级的视频十分文本标注，想象不同的任务，构造任务干系的问题并与文本瞩目组合，获取最终的指示数据。
与其他干系的数据集比拟，HIVAU-70k 不仅稀少量上的上风，还提供了多粒度的文本标注以实时序上的畸形鸿沟标注。
动态寥落采样的视频畸形意会模子
长视频畸形意会在使用大型谈话模子（LLMs）或视觉谈话模子（VLMs）时，常因帧冗余问题而受到终局，导致畸形检测的准确性变得复杂。
以往的 VAU（视频畸形意会）要领难以聚焦畸形。
举例，密集窗口采样要知晓增增加数冗余帧的筹画量，而均匀帧采样要领常常错过关节畸形帧，使其应用鸿沟局限于短视频。
为此，作家提倡了 Anomaly-focused Temporal Sampler ( ATS ) ，并将其集成到 VLM 中，通过在 HIVAU-70k 上的指示微调，构建了 Holmes-VAU 模子。
畸形帧频繁比平常帧包含更多信息，并推崇出更大的变化，基于这一不雅察，作家想象了一种采样战术，在畸形分数较高的区域采样更多帧，同期在分数较低的区域减少采样。
为兑现非均匀采样，作家提倡了一种"密度感知采样器"（density-aware sampler），用于从总计 T 个输入帧中禁受 N 个帧。
具体来说，作家将畸形分数 S 视为概率质地函数，并领先沿时辰维度积蓄它们，获取积蓄漫步函数（CDF），记为 S_cumsum：
接着，在积蓄轴上均匀采样 N 个点，并将这些点映射到积蓄漫步 S_cumsum 上。相应的时辰轴上的 N 个时辰戳会被映射到最接近的帧索引，最终变成采样的帧索引蚁集 G。
△Holmes-VAU 模子框架图
下入展示了测试集上的畸形分数和采样帧的可视化终局。这些终局标明了 ATS 的准确畸形检测才智，最终输入到多模态大模子的采样帧也集结于畸形区域。
△Anomly-focused Temporal Sampler ( ATS ) 畸形分数及采样帧显露图履行终局畸形推感性能评估
作家在 HIVAU-70k 的测试集上，将模子输出的推理文本与瞩倡导简直文本进行比较，筹画了包括 BLEU、CIDEr、METEOR 和 ROUGE 等策划来商酌模子输出的畸形意会文实质地。
与通用多模态大模子对比，Holmes-VAU 在各式时序粒度的视频畸形意会上都展现出显赫上风。
在多层级标注中，对不同层级指示数据集的组合，不错不雅察发现，单一层级的标注只可普及单一层级任务的性能。
不同层级的标注组合不错互相补充，兑现从 clip-level 的基础视觉感知 , 到 event-level 单一畸形事件的分析，再到 video-level 的万古序畸形追想和推理等方面的全面普及，达到更细粒度和完好的多模态畸形空间对王人。
关于非均匀采样器的作用，作家也对比了不同帧采样样子，包括本文提倡的 ATS、之前列法用的 Top-K 采样和 Uniform 采样。
终局标明在换取的采样帧数下，ATS 展现出更优厚的长视频畸形意会才智，这是由于 Top-K 采样过于集结在畸形帧，忽略了视频凹凸文的参考，Uniform 采样则容易忽略关节的畸形帧。
而作家提倡的 ATS 则灵验归并了这两者的上风，关切畸形帧的同期，好像保留部分凹凸文帧的采样。
定性比较
下图对比了 Holmes-VAU 和其他 MLLM 输出的畸形分析文本，Holmes-VAU 推崇出更准确的畸形判断和分析才智，同期对长视频也推崇出更完好的畸形追想才智。
△Holmes-VAU 和其他 MLLM 的畸形分析文实质地对比
论文：
https://arxiv.org/abs/2412.06171
代码：
https://github.com/pipixin321/HolmesVAU
一键三连「点赞」「转发」「着重心」
接待在批驳区留住你的念念法！
— 完 —
学术投稿请于责任日发邮件到：
ai@qbitai.com
标题注明【投稿】，告诉咱们：
你是谁，从哪来，投稿内容‍
附上论文 / 形貌主页蚁集，以及磋磨样子哦
咱们会（尽量）实时陈说你
� � 点亮星标 � �
科技前沿进展逐日见开云kaiyun

开云kaiyun其中包含多种时辰粒度的视频畸形标注-kaiyunApp下载入口|kaiyun

热点资讯

相关资讯