线上赌钱app大全-登录入口-赌钱赚钱app并在带有文本疑望的长视频上进行微调-线上赌钱app大全-登录入口
新闻
你的位置:线上赌钱app大全-登录入口 > 新闻 > 赌钱赚钱app并在带有文本疑望的长视频上进行微调-线上赌钱app大全-登录入口
赌钱赚钱app并在带有文本疑望的长视频上进行微调-线上赌钱app大全-登录入口
发布日期:2026-05-21 05:07    点击次数:130

赌钱赚钱app并在带有文本疑望的长视频上进行微调-线上赌钱app大全-登录入口

AI 也能生成传神的《》动画片了!长度不错达到 63 秒赌钱赚钱app,剧情也不错从荣达成。

当地时期 4 月 8 日,来自英伟达、好意思国斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校、得克萨斯大学奥斯汀分校的探求东谈主员,基于测试时考试(TTT,Test-Time Training)生成了多个《猫和老鼠》的动画视频。

他们在预考试的 Transformer 模子中添加了测试时考试层并对其进行微调,借此生成了具有强时期一致性的《猫和老鼠》一分钟动画片。

探求东谈主员示意,每个视频都是由模子一次性径直生成的,莫得经过裁剪、拼接或后经管,每个故事也都是全新创作的。

那么,上述视频到底是奈何生成的?探求东谈主员示意,如今的 Transformer 模子在生成一分钟视频方面仍然靠近挑战,因为自注意力层在经管长陡立文时遵守低下。诸如 Mamba 层之类的替代决策在经管复杂的多场景故事时阐发欠安,因为它们的荫藏情状阐发力较弱。

为此,他们使用了测试时考试层,其荫藏情状自己不错是神经鸠合,从而具备更强的抒发智力。当在预考试的 Transformer 中加入测试时考试层,使其约略左证文天职镜剧本生成一分钟的视频。

探求中,他们从一个预考试的扩散 Transformer(CogVideo-X 5B)入手,正本其只不错 16 帧每秒的速率生成 3 秒的短片断,或以 8 帧每秒的速率生成 6 秒的短片断。

但是,探求东谈主员添加了从新开动化的测试时考试层,并对该模子进行微调,以便左证文天职镜剧本生成一分钟的视频。

他们将自注意力层适度在 3 秒的片断内,以便将探求本钱保抓在可控限制内。通盘这个词考试经过运行在 256 个英伟达 H100 上,相配于破费了 50 小时的考试时长。

为了快速进行迭代,探求东谈主员基于约 7 小时的《猫和老鼠》动画片,并辅以东谈主工标注的分镜剧本,整理了一个文本到视频的数据集。

动作见识考证,本次探求中的数据集侧重于复杂、多场景、长镜头且充满动态动作的叙事。而关于视觉和物理信得过感方面,此前东谈主们也曾赢得权贵进展,是以本次探求未作要点强调。

从宏不雅层面来看,本次方法仅仅在预考试的扩散 Transformer(Diffusion Transformer)上添加了测试时考试层,并在带有文本疑望的长视频上进行微调。

他们选择了事先添加测试时考试层、然后再进行微调的方法,这种方法原则上适用于任何骨干架构。

探求中,他们聘请扩散 Transformer 动作初步演示,因为它是视频生成中最流行的架构。由于在视频上预考试扩散 Transformer 的本钱过高,是以探求东谈主员从 CogVideo-X 5B 的预考试搜检点入手。

他们将视频贪图为包含多个场景,每个场景包含一个或多个 3 秒的片断,并选择 3 秒片断动作文本与视频配对的最小单元,之是以这么作念的原因有三个:

第一,原始预考试的 CogVideo-X 的最大生成长度为 3 秒。第二,在《猫和老鼠》的剧蚁集,大大都场景的时长至少为 3 秒。第三,以 3 秒为一段构建多阶段数据集最为浮浅。

在推理阶段,探求东谈主员按照以下三种体式中的任何一种,以精细进程递加的规则来编写长视频的文本教唆。

• 体式 1:用 5-8 句话节略综合情节。

• 体式 2:用大要 20 句话精细式样情节,每句话大致对应 3 秒的片断。

• 体式 3:分镜剧本。每一个 3 秒钟的片断都由一段 3 到 5 句话来式样,内容包含配景形态和镜头移动等细节。一个或多个段落构成的剧本组,会被严格地界定为属于某些场景,况且要使用要津词“<场景入手>”和“< 场景终端 >”。

在微协调推理中,文天职词器的推行输入经久选择体式 3,体式之间的调整由 Claude 3.7 Sonnet 按 1→2→3 的规则履行。

为了生成时期较长的视频,探求东谈主员针对每个 3 秒的片断都零丁使用疏导的法子。

具体而言,给定一个包含 n 段落的体式 3 的分镜剧本,领先生成 n 个序列片断,每个片断都包含从相应段凄凉求的文本标志以及后续的视频标志。

然后,将通盘 n 个序列片断连结在一皆,从而酿成输入序列,这时序列中包含交错罗列的文本 tokens 和视频 tokens。

关于 CogVideo-X 来说,它选择自注意力层来针对每段最长 3 秒的视频进行全局序列经管。但是,面对长视频时,其所选择的全局注意力机制会权贵缩短遵守。

为了幸免加多自注意力层的陡立文长度,探求东谈主员将其经管限制贬抑在每个 3 秒片断内,使各 n 个序列片断约略零丁进行注意力策动。

由于测试时考试层约略高效地经管长陡立文序列,因此他们选择全局形态来经管通盘这个词输入序列。

解任大说话模子的方法作念法,探求东谈主员将修订架构的陡立文长度分为五个阶段,并将其膨胀至一分钟。

具体来说,他们先在《猫和老鼠》的 3 秒片断上针对通盘这个词预考试模子进行微调。

在此阶段,新的参数终点是测试时考试层和门控机制中的的参数,会被赋予更高的学习率。

接下来,探求东谈主员折柳对 9 秒、18 秒、30 秒以及最终的 63 秒的视频进行微调。

为了幸免模子在预考试经过中渐忘过多的寰球学问,探求东谈主员仅对测试时考试层、门控层和自注意力层进行微调,且在这四个阶段中使用较低的学习率。

在原始视频的考中上,他们聘请了从 1940 年至 1948 年间刊行的 81 集《猫和老鼠》,每集时长约 5 分钟,通盘集数加起来时长约 7 小时。

然后,探求东谈主员在原始视频上运行一个视频超分辨率模子,从而为数据集生成视觉后果更强的视频,这些视频的分辨率均为 720×480。

接着,他们让东谈主工标注员将每个片断领悟为场景,然后从每个场景中索求 3 秒长的片断。

接下来,探求东谈主员让东谈主工标注员为每个 3 秒的片断撰写一段精细的式样,然后径直针对这些片断进行微调。

为了创建数据,探求东谈主员将连气儿的 3 秒片断拼接成 9 秒、18 秒、30 秒和 63 秒的视频,并附上相应的文本疑望,通盘考试视频的标注均选择上文的体式 3。

关于 GPU 而言,要想高效地终端测试考试层-多层感知器(TTT-MLP,Test-Time Training-Multi-Layer Perceptron),就需要进行独特贪图,以便诳骗其内归档次结构。

英伟达 GPU 架构中的中枢策动单元是流式多经管器(SMs,Streaming Multiprocessors),其功能类比于 CPU 中的单个中枢。

GPU 上的通盘流式多经管器分享一个相对较慢但容量较大的全局内存(即 HBM,High Bandwidth Memory),然后每个流式多经管器都有一个快速但容量较小的片上内存(即 SMEM,Shared Memory)。

GPU 上 SMEM 与 HBM 之间的常常数据传输会权贵缩短举座遵守。而 Mamba 和自注意力层通过诳骗内核交融时代,不错减少这类数据的传输。

其中枢念念想是将输入和开动情状加载到每个 SMEM 中,十足在片上进行策动,况且只将最终输出写回 HBM。

但是,TTT-MLP 的荫藏情状即双层 MLP 函数 f 的权重矩阵 W(1) 和 W(2),由于体积过大无法存储于单个流式多经管器的分享内存中。

为了减少每个流式多经管器所需的内存,探求东谈主员使用张量并行机制,将 W(1) 和 W(2) 在流式多经管器之间进行分片。

由于大型多层感知器层不错被分片并跨多个 GPU 的高带宽存储器上进行考试,因此探求东谈主员将相通的念念路用于多个流式多经管器的分享内存中,将每个流式多经管器视为一个 GPU 的类比。

探求东谈主员诳骗英伟达 Hopper GPU 架构的溜达式分享内存特色,终端了流式多经管器间的全局归约操作,进而权贵擢升了遵守。

动作一种通用原则,若是一个模子架构 f 不错通过方法张量并行机制在 GPU 之间进行分片,那么当 f 用作荫藏情状时,相通的分片政策也不错用于流式多经管器之间。

不外,本次探求的 TTT-MLP 内核受限于寄存器溢出和异步指示的次优排序。改日,通过缩短寄存器压力以及建筑编译器感知更强的异步操作决策,其履行遵守或能得到进一步擢升。总的来说,本次方法有望用于生成更长、更复杂视频,也许下一代儿童将能看上由 AI 生成的动画连气儿剧?现在看来,这一设计并非莫得终端的可能。

参考贵府:

https://test-time-training.github.io/video-dit/

https://x.com/arankomatsuzaki/status/1909336661743550555

运营/排版:何晨龙