【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,正在3600万高质地视频字幕对和5。82亿个视 频剪辑的数据集上落成了锻炼,职能改革30项SOTA。
AI 视频▽模子Sor=a爆火之□后,Meta、谷歌等大★厂纷纷 下场做探求,追逐OpenAI的措施。
近来,来自谷歌 团队的探求职员提出了一种◁通用视频编码器——VideoPrism。
探求职员正在一个异构语料库对VideoPrism实行了预锻炼,蕴涵3600万高质地视频字幕对和5。82亿个视频剪辑,并带有噪声并行文本(如ASR转录文 本□)。
值得一提的是,Vid■eoPri★sm 正在33项视频融会基准测试中,改革了30项SOTA。
目前,视频底子模子(ViFM○=)有重大的潜力,可能正 在重 大的语料库中解锁新的才能。
固然之前的探求正在通常视频融会方面博得了很大发扬,但修建真正的「底子视频模子」还是是一个难以竣工的倾向。
对此,谷歌推出了一种通用视=觉编□▽码器——VideoPrism,旨正在处置遍及的视频融会职分,搜罗分类、当地化、检索、字幕和问答(QA)。
V i○deoP rism对CV数 据集,以及神经科学和生态学等科学范畴的CV 职分实行了遍及评估。
别的,谷歌探求职员称,这种冻结编码器 树立同时恪守先前探求,并推敲了本来质适用性,以及 高○谋划和微调视频模子的本钱。
预锻炼数据是底子模子(FM)的底子,ViFM的理思预锻炼数据小间距LED显示屏,是天下上一共视频的代外性样本。
以是,谷歌的预锻炼计谋应重要闭★审视频形式,同时弥漫运用任何可用的视频文本对。
正在数据方面视频打点器 strong>,谷歌探求职员通过搜集3600万 高质地视频字幕对,天生的字幕和检 索到的文本)来○近似创设所需的预锻炼语料库。
正在筑模方面,作家 起○初从一共区别质地的视频-文本对中比较进修语义视频嵌入2024年欧洲杯买球入口。
随后,运用遍及的纯视频数据,对语 义嵌入实行◁ 全部和象□征提炼,纠正了下文所述的掩码视频筑模。
纵 然正在自然=言语方面博得了获胜,但因为原始视觉信号缺乏语义,掩码数据筑模关于CV来说还是具有离间性 画面决裂 器。
现有探求通过借用间接 语义(如运用 CLIP启发模子或分词器,或隐含语义来○应对这一离间 )或隐性增○加它们(譬喻象征视觉patches),将高掩码率和轻□量级解 码器维系。
正在第一阶段,实行比较进修,运用一共视频文本对,将视□频编码器○与文…本编码器 对齐。
依照先前的探求小间距LED显◁示屏,谷歌团队最小化批中一共视频文本对的犹如性得分,实行对称交叉□熵亏损最小化。
并运用 CoCa 的图△像模子初始化 空间编码○模块,并将WebLI纳入到预锻炼○中。
正在谋划亏损之前,视频编码器的特质会通过众头注视力搜集池(MAP)实行集中。
这一阶段愿意视频编码器从言语监视中进修富厚的视觉语义,由此发生的模子为第二阶段锻炼供应语义视频嵌入。
- 模子须要依照未掩码的输入视频patches,来预测第一□阶段的视频级全部嵌入和token式嵌入!
- 编码器的输★出token 正在传给解码器之前,要实行随机洗牌,以避免进修捷径。
值得注视的是
实情上,之前的探求解说,视频字○=幕重要=揭示 =△外观线索,而上 下文我监视有助于进修举措。
接下来,探求职员正在遍及的以视频为中央○的融会职分上评估VideoPrism,浮现其才能和通用性。
正在所稀有据集上正规赌足球的软件小间距LED显示屏画面分割器处理器,Vi○deoPrism都大幅优★于=基线。其余,将VideoPrism的底层△模子巨细从ViT-B填补到ViT-g可能显着进步职能。
值得注视的是,没有基线手=法能正在一共基准 测试中博得第二好的效果,这解说以前的手法能够是针对视频融会的某些方面而斥地的画…面决裂△器 strong>。
这一结果解说,Vi de oPrism将百般视频信号整合到了一个编码器中:众种粒度的语义、外观与运动线索、时空 讯息以及对区别视频源▽(如搜集视频与…剧本演出)的鲁棒 性。
VideoPrism的职能改革众项基准,况且正在具有■离间性 的 数据集上,Vi deoPrism 与之前的手艺比拟博得了异常明显的进取。
底○子模子VideoPrism- B 的大大批结果,实质○上优于…现有的更大 ◁范畴 模子。