将近一千个反现实视频建立了一个“不可能”的
作者: BET356官网在线登录 点击次数: 发布时间: 2025-04-04 10:00

Bai Zechen是新加坡国立大学展览实验室学习的医生。他的研究方向主要包括在视频理解和多模式模型中。他发表了许多有关CVPR,ICCV,Neurips,ICLR和其他会议的文章。他曾在Amazon AI和Bytedance和Baidu的研究实习生担任应用科学家。新加坡国立大学的展览实验室研究员Zhai获得了博士学位。来自北京大学的主要模型安全研究的主要方向。新加坡国立大学青年教授福布斯30岁以下30岁以下的亚洲大学校长PI Mike Zheng Shou建立和LED表演实验室。当物理,生活,地理和社会法律减少时,多模型模型(LMM)是否可以认识到它们的“不可能”吗?随着人工技术NAN情报合成视频(AIGC)的快速发展,我们输入了由AI领导的视频创建时间。当前的AI视频生成技术可能是现实的模仿现实世界,但仍然有一个巨大的空间来探索“反现实”场景。 NUS的团队提出了不可能的视频概念,该视频违反了身体,生活,地理或共同的感知,并建立了IPV板凳,这是一种全新的基准测试,用于审查AI模型在生成和对“反现实”视频中的理解中的限制。纸张标题:不可能的视频链接链接:https://arxiv.org/abs/2503.14378 Project HomePage:https://showlab.githlab.ioio/impossible-videos/ code/code code code source source:https://github.com/showlab/sphowlab/impossible- vishoshugging脸部: https://huggingface.co/datasets/showlab/mimpossibles不易见的视频,包括在物理,生物学,地理和社会标准下的不可能的情况,为什么不可能的视频很重要?当前的大多数合成视频数据库都模仿了现实世界,忽略了现实世界中无法发生的抗现实主义场景。我们试图回答两个基本问题:1。现有的一代可以视频世代的效果提出了高质量的“不可能”的促进视频? 2。现有的视频理解模型可以识别和解释“不可能”的视频?不可能的视频研究是驱动:更强的AI推理功能。更深入地了解AI,社会和常识的物理学。 AI内容生成的更安全和受控的功能。 IPV板凳:我们构建了IPV板凳的第一个不可能的视频基准,这是一个基准分配的四个主要领域(物理,生物学,地理,社会,社会),总共14个类别,用于评估发电和理解视频模型。共有260个文本标志,902个高质量AI生成的视频以及反事实事件的相应注释。与其他现有基准数据集相比,IPV板凳具有更丰富,更广泛的数据和标签模式。不可能的视频分类基准统计数据分析的统计数据关键结果1。分析视频模型的视频模型具有260个文本通过IPV板凳,我们尝试了多个主流开源和封闭的视频生成模型来源,例如Openai Sora,Kling,Hilong和Bp。跟随。发现:大多数模型发现很难开发与“不可能”的感受相匹配的高质量视频。最佳性能摩尔牛1还会产生高质量的“不可能”视频,仅在37.3%的情况下符合技巧,大多数模型的成功率都吸引了20%。该模型具有视频质量和信号的不平衡功能。业务模型的视觉质量较早,但是很难严格遵循文本信号来产生“不可能”的事件。尽管诸如Mochi 1之类的开放资源模型的视觉质量较低,但信号表明以下功能比封闭的资源模型强。有两个局限性影响一代的能力:1)“不可能”的文本信号,例如数据不超出分布,可以很容易地导致工件并导致视频质量下降。2)过度遵守现实法律限制了模型的创造力。视频生成模型中,每个视频生成模型的结果都失败了。 (第1部分)Mochi 1:一辆汽车在一条乡间小路上开车,突然开始离开地面并飞向天空。 。对AI视频理解的基本模型的评论使用了902个高质量的视频和相应的手动注释。我们已经建立了三个不同的任务,以评估超呈现的基本多模式理解模型。达到理解图像的能力,包括:1)AI开发的视频判断(判断),2)“不可能”事件识别任务(选择的多项选择,MC),3)“不可能”的事件描述(自然语言,开放)。事件认同活动的“不可能”的示例“不可能”的事件六示例法官描述在需要时域线索时进行判断。我们将“不可能”事件分为两类:空间和时间。这可以发现实验结果的分析,现有模型显示了对“不可能”事件的一定程度的理解。在事件(MC)标识的不可能的工作中,现有模型在不可能的事件与其他选择之间的差异中表现出巨大的潜力。但是,在对任务的开放描述中,没有选择的线索(打开),直接进行推理和解释视频中“不可能”事件的模型仍然很困难。了解视频的物理定律更加困难,并且了解生物学,社会和地理视频相对容易。您已经存在的Delo仍然存在时间域域的缺点。该模型在时域活动中的性能明显低于域活动。视频理解模型在不同类别的任务中的性能。关于领空和域活动时间的视频理解模型的性能是视频的第一个不可能的基准:提供标准的审核系统。新的挑战:从角度看对现实世界法律模型的理解。未来的重点:当前的多模式模型在对事件,时间域推理,反事实生成等“不可能”的理解方面仍然面临重大挑战。参考文献[1] Huang,Ziqi等。 VBENCH:通用视频模型的综合基准套件。 IEEE/CVF计算机视觉和模式识别的程序。 2024。[2] YE,Junyan等。 Loki:使用大型多模型模型的合成数据检测的综合基准。 ARXIV预印型ARXIV:2410.09732(2024)。 [3] Kong,Weijie等。 Hunyuanvideo:大型视频生成模型的系统框架。 ARXIV预印型ARXIV:2412.03603(2024)。 [4] Bai,Zechen,Hai CI和Mike Zheng Shou。不可能的视频。 ARXIV预印型ARXIV:2503.14378(2025)。