igao 为爱寻找激情,的暖心故事,回忆温馨时光,感受平凡生活中的真挚

k1体育麻将胡了

igao 为爱寻找激情 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页电脑软件三亚大暴雨致街道积水严重 → igao 为爱寻找激情 v3.938 安卓免費版

igao 为爱寻找激情

igao 为爱寻找激情

  • 电脑版下载
猜你喜欢
标签: igao 为爱寻找激情 男男被 到爽 捆绑
详情
先容
猜你喜欢
相关版本

igao 为爱寻找激情截图Q8X2R7L1T4J5M9B6W3

  • igao 为爱寻找激情 v139.0.7258.143 绿色版 0
  • igao 为爱寻找激情 v139.0.7258.143 绿色版 1
  • igao 为爱寻找激情 v139.0.7258.143 绿色版 2
  • igao 为爱寻找激情 v139.0.7258.143 绿色版 3

内容详情

igao 为爱寻找激情

MiniMax海螺视频团队不藏了!

首次开源就揭晓了一个困扰行业已久的问题的谜底——

为什么往第一阶段的视觉分词器里砸再多算力 ,也无法提升第二阶段的天生效果?

翻译成明确话就是 ,虽然图像/视频天生模子的参数越做越大、算力越堆越猛 ,但用户现实体验下来总有一种玄妙的感受——这些重大的投入与产出似乎不可正比 ,模子离完全真正可用总是差一段距离 。

So why?问题 ,或许率就出在视觉分词器(Tokenizer)这个工具身上了 。

当算力不再是谜底时 ,真正需要被重新审阅的 ,着实是天生模子的“起点” 。

在目今主流的两阶段天生框架中(分词器+天生模子) ,业界已经在视觉分词器的预训练上投入了大宗算力与数据 ,但一个尴尬的事实是:

这些本钱 ,险些没有线性地转化为天生质量的提升

而MiniMax海螺视频团队 ,不止挑战了这一现实——用实验证实“Tokenizer的scaling能够提升模子性能” 。

更要害的是 ,还带来了一款开箱即用、专为“下一代天生模子”打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training(以下简称VTP) 。

只需换上这个视觉分词器 ,即可在不改变下游主模子(如DiT)任何训练设置的情形下 ,实现端到端天生性能的倍数级提升 。

下面详细来看——

古板Tokenizer的缺陷:更好的重修≠更好的天生

要明确VTP保存的意义 ,首先我们需要回到更基础的问题上——

Tokenizer是什么?它又为何云云要害?

以AI生图为例 ,目今主流的生图模子险些清一色接纳了“两阶段”天生框架:

第一阶段(压缩):使用视觉Tokenizer(如VAE)这个组件 ,将原始图像压缩并映射到一个潜在空间(latent space)中;第二阶段(还原天生):再由以扩散模子为焦点的天生器(如DiT) ,在这个潜在空间中学习漫衍 ,并逐步还原、天生最终图像 。

用一张图来形容这个历程be like(先压缩后还原):

而Tokenizer ,就是在第一阶段中认真压缩图片信息的组件 。

若是没有这个组件 ,扩散模子就得直接在数百万像素组成的原始像素空间中举行“去噪”和天生——其盘算重漂后和内存开销将是天文数字 。

因此 ,Tokenizer称得上是让模子能够在消耗级显卡上运行起来的“要害元勋” 。

除此之外 ,Tokenize历程所得的低维潜在表征 ,其质量直接决议了最终天生图像的语义保真度、细节富厚度以及整体真实性 ,以是业界也普遍以为——

从某种水平上来说 ,Tokenize险些决议了后续天生模子的上限 。

基于此 ,人们在研究怎样提升下游天生模子的质量时 ,也不约而同地将重点放在了“怎样精准复刻原始像素”上 ,即要求模子将压缩后的潜在特征(latent)尽可能精准地还原为原始图像 。

而问题 ,也正出在这里 。

古板Tokenizer在追求“像素级重修”时 ,往往会太过着迷于捕获图像的局部纹理、噪点等低层信息 ,从而忽视了天生使命真正依赖的高层语义与整体结构 。

这就像学渣为了应付考试 ,只想着死记硬背种种试题 ,却完全不明确问题背后的知识点与逻辑结构 。效果真正到了需要闻一知十、解决新问题的时间 ,一下就傻眼了 。

在论文中 ,海螺视频团队将这一征象界说为“预逊放问题”(Pre-training Scaling Problem):

更好的像素级重修精度并不可带来更高质量的天生效果

如图所示 ,古板仅基于“重修”目的训练的Tokenizer(灰线) ,随着算力投入增添 ,模子的天生性能不但没有提升 ,反而逐渐趋于饱和甚至略微下降 。(ps:gFID权衡天生质量 ,越小越好)

由此 ,论文得出第一个要害发明:重修做得越好 ,天生反而可能越差 ;谎灾 ,古板VAE所依赖的纯重修训练范式 ,在面向天生使命时保存根天性局限 。

那么 ,VTP是怎样破局的呢?

VTP破局之道:从像素级重修到强调“明确力”的主要性

事实上 ,VTP并非横空出生 ,而是海螺视频团队在恒久实践中重复试错与认知迭代的产品 。

一些早期探索:从易学性到通用表征学习

在早期事情VA-VAE中 ,团队注重到:

有些“压缩后的特征”能让后续的扩散模子学得又快又好 ,而另一些则不可 。

基于此 ,他们提出了“易学性”这一看法——即差别的潜在表征(latents)关于下游天生模子的学习难度截然差别 ,并期望通过优化latent的某些“友好特征”(如匀称性、频域漫衍等)来间接改善天生效果 。

然而实践发明 ,这些要领虽有一定效果 ,却未触及实质 。按团队自己的话来说就是:

实验将易学性等价为可准确盘算的简单指标(例如频域漫衍、匀称性、scale稳固性、低秩效应等等)有些过于理想了 ,这些指标可能和易学性有一定关联 ,但远不是所有 。

就是说 ,当优化目的被限制在少数可丈量指标上时 ,模子往往只是学会了在特定指标上“刷分” ,而没有从基础上学会明确图像的结构与语义(实质上仍未脱离“重修”领域) 。

△在VA-VAE中 ,团队曾实验将易学性对应到latent漫衍的“匀称性”

而经由一连反思 ,团队逐渐意识到VA-VAE和厥后的许多实验 ,其深层目的并非仅仅是优化几个指标 ,而是在试图让latents具备某些更高级的“结构” 。其背后逻辑在于:

若是某种latents关于图像中的实体、位置关系具有高度结构化的表达 ,那么这种结构化表达关于下游diffusion建模来说也会更精练、更容易 ,这些方面的天生效果也自然会更好 。

这就好比另一种层面上的“大道至简”——当模子真正掌握了物体、关系与语义这些视觉天下的实质纪律时 ,它能应对的使命自然也就越多了(以稳固应万变) 。

因此 ,与其为“易学性”设计懦弱的署理指标 ,不如直接让Tokenizer去学习人类视觉系统自己所依赖的那种高度结构化、语义化的通用表征 。

事实像CLIP、DINOv2这样的现代通用表征学习要领 ,正是在大规模数据上自动化地学习了这种“人类对齐”的视觉表达 ,才在多种下游使命中体现出强盛的泛化能力 。

至此 ,团队的研究重心正式从“像素级重修”转向了强调理解力的“通用表征学习” 。

VTP:回归“压缩即智能”实质

基于这一认知转变 ,VTP的设计原则变得异常清晰 。团队体现:

我们应该融合所有已知有用的表征学习要领来构建一个Tokenizer

详细而言 ,VTP这次率先实现了从只练“重修”到“明确、重修、天生”的联合优化 。

一是通过图文比照学习 ,建设高层语义明确 。

在训练时 ,团队会给模子看大宗图像-文本配对数据(如“一只猫在沙发上”与对应图片) ,然后要求图片的特征向量和文字的特征向量尽可能靠近 。

这和之前的CLIP思绪一脉相承 ,但目的更聚焦 。CLIP追求的是广义的图文匹配能力 ,而VTP则要求Tokenizer在压缩图像为紧凑的潜在编码时 ,必需保存与文本对齐的语义结构 。

这意味着 ,天生模子后续吸收到的每一个潜在体现 ,自己就已经是“有语义的”——它不但是一堆像素的压缩 ,而是携带了“猫”、“沙发”等看法及其关系的结构化表达 。和以往相比 ,“语义注入”被提前到了压缩阶段 。

二是通过自监视学习 ,掌握空间结构与视觉知识 。

在VTP框架中 ,自监视学习?橥ü笛诼胪枷窠#∕IM) 和自蒸馏(DINO气概) ,“迫使”模子去明确图片的空间关系和物体结构 。

这个历程会“逼着”Tokenizer往返覆差别问题:

通过自蒸馏回覆:抛开详细的像素细节 ,这张图片最焦点的视觉主题或看法是什么?(全局语义)通过MIM回覆:凭证你看到的“冰山一角” ,你能推断出整个“冰山”的形状和结构吗?(结构推理)二者协同回覆:为了识别图片主题或从局部重修整体 ,哪些视觉线索是决议性、不可缺失的?(聚焦焦点)

这一套流程走下来 ,模子对图像的明确便不再停留在像素层面 ,而是构建起了却构化的视觉认知 。

三是通过重修 ,保存须要的底层视觉细节 。

VTP依然保存了重修目的 ,但它的定位爆发了转变——其作用不再是“越准越好” ,而是确保潜在空间中仍然保有天生所需的纹理、颜色与边沿等细节信息 。

这三重目的并非伶仃举行 ,而是通过一个统一的多使命损失函数举行联合优化:

最终 ,VTP获得的不是一个在某个指标上“特殊优异”的压缩器 ,而是一个自带明确能力、对天生模子很是友好的视觉Tokenizer 。

这里也增补一个细节:为什么他们不像许多事情一样直接使用现有的CLIP或DINOv2作为Tokenizer ,而非要投入重大算力重新预训练一个?

其焦点思索在于两点(团队原话如下):

表征真的很主要 ,我们想要做到很极致 。在我们的视角下表征包括了自监视、比照学习、甚至是重修(这些只是已知较量成熟的要领 ,现实上理想的表征远不止这些) ,市面上没有一个能够很好地融汇这些要领的模子 ,我们需要自己训练一个 ;诒碚鞯腡okenizer计划具备scaling的潜力 ,预训练是最合理的实现方法 。若是直接使用已有模子蒸馏或者迁徙 ,会由于setting过于重大而破损scaling的性子 ,也会受限于已有的模子规格而无法做充分的论证 。

以是 ,选择“重新最先”的VTP ,着实际体现事实怎样呢?

首次展示了Tokenizer的Scaling Law

归纳综合而言 ,团队通过VTP得出了两大概害发明:

明确力是驱动天生的要害因素视觉Tokenizer也具备明确的Scaling Law

先说第一点 。

VTP用实验证实 ,若是只做重修的话 ,投入资源越多天生反而可能越差 。

下图中 ,代表重修能力的rFID从2.0降至0.5 ,重修效果变好;但代表天生能力的gFID从55.04升至58.56 ,天生效果变差 。

而一旦注入“明确力”(即引入CLIP图文比照/SSL自监视使命) ,模子的天生质量(gFID)会随着明确能力(Linear Probe)的提升而同步变好——

二者泛起显着的正相关 ,且这种提升会随着训练盘算量增添一连推进 。相比之下 ,缺少“明确力”的古板AE Only计划 ,其天生质量和明确能力很快陷入障碍 。

更进一步 ,团队在一律算力下比照了差别组合 ,证实“CLIP+SSL+AE”的联合训练方法上限最高 ,天生与明确指标均最优 。

基于此 ,团队训练的VTP在明确、重修、天生方面均交出了不错的答卷——

在ImageNet上的零样天职类准确率抵达78.2% ,凌驾了原版CLIP的75.5% ,已经具备强通用视觉明确能力;在重修能力上凌驾了Stable Diffusion的VAE , rFID低至0.36;在天生能力上凌驾了此前的刷新要领VA-VAE ,gFID低至2.81 。

更要害的是 ,在抵达相同天生质量的条件下 ,VTP的训练收敛速率比LDM快5.7倍、比VA-VAE快4.1倍 ,大幅降低了训练本钱 。

这一系列体现配合印证了团队的判断:Tokenizer的“语义明确力”而非纯粹的像素重修精度 ,才是驱动天生性能与效率提升的焦点动力 。

再说第二点 ,也是更具突破性的一点 。

团队在实验中发明 ,VTP首次展示了Tokenizer的Scaling Law ,即天生性能可以随预训练中投入的盘算量、参数目和数据规模有用增添 。

仅从算力维度比照 ,在不改动下游DiT标准训练设置的条件下 ,纯粹将Tokenizer的预训练盘算量放大 ,VTP就能为最终天生效果带来65.8%的性能提升 ,且提升曲线仍未触顶 。

反观古板自编码器(AE) ,其性能在仅投入约1/10盘算量时便已饱和 ,且继续增添算力不但收益微乎其微 ,甚至可能导致天生质量倒退 。

以上发明批注 ,接下来除了在主模子上投入更多参数/算力/数据之外 ,还可以通过Tokenizer的scaling来提升整个天生系统的性能 。

这个结论 ,乍一看可能会让人有点转不过弯:什么时间 ,Tokenizer也最先谈scaling了?

在大模子语境里 ,“Scaling Law”险些自然只属于主模子——参数更大、数据更多、算力更猛 ,性能就该继续往上走 。至于Tokenizer ,则恒久被视作一个“前置?椤 ,主打一个够用就行 ,做完重修使命就退场 。

但VTP的泛起却改变了这一现实 ,团队体现:

VTP在latents易学性和通用表征学习之间建设起了明确关联 ,从而第一次将Tokenizer作为scaling的主角 ,展现出周全的scaling曲线和扩展偏向

就是说 ,若是Tokenizer只是被用来精准复刻像素 ,那么无论怎么堆算力 ,提升都将很快见顶;而一旦Tokenizer学到的是具备语义结构、对下游更友好的通用表征 ,事情就完全纷歧样了 。

好比对整个行业来说 ,由于VTP在Tokenizer层面就已经统一了语义对齐、结构认知和细节表达 ,因此其产出的视觉表征自然具备多使命协同的潜力 。

这有点像先把天下翻译成了一种统一、结构化的“视觉语言” 。

一旦这套语言确定下来 ,下游无论是明确使命(如分类、检测) ,照旧天生使命(如图像合成、编辑) ,都不再需要各自“重新学怎么形貌这个天下” ,而只是站在统一套底层表达之上 ,做差别的事情 。

从这个角度看 ,VTP自然适适用来构建“明确-天生统一模子” 。正如团队所言:

Tokenizer层面的统一 ,是更实质的统一

也因此 ,此次VTP的开源就不但单只是提供了一个组件那么简朴了 。

其更大的价值或许在于 ,它为整个行业提供了一条新的、且被实验证执行之有用的路径——

在主模子之外 ,Tokenizer同样是一个值得恒久投入、且具备明确scaling回报的焦点环节 。

现在 ,VTP的论文和模子权重已经果真 ,下手能力强的朋侪也可以实验体验下:

换一个视觉Tokenizer ,模子性能就能变得纷歧样的feeling(手动狗头) 。

【传送门】代码:https://github.com/MiniMax-AI/VTP论文:https://arxiv.org/abs/2512.13687v1模子:https://huggingface.co/collections/MiniMaxAI/vtp

相关版本

    多平台下载

    • PC版

      igao 为爱寻找激情 v8.286 安卓最新版

    • Android版

      igao 为爱寻找激情 v2.816.3485 最新版

    审查所有0条谈论>网友谈论

    揭晓谈论

    (您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

    审查所有0条谈论>>

    相关软件
    中国三级成年人十八岁网站 欧美一区二区综合网 亚洲中文视频 爆乳女神 ▌麻酥酥▌91 丁香五月激情综合免费视频 秋霞在线视频免费观看 无线免费黄色视频 性交黄色网站 黄片成年免费看 能看的三级网站 国产手机在线观看一级一黄色视频 人成视频在线观看网址 黄色片人人人操操操操 国产真人裸乳爆 白浆少年阿宾 欧美黄网免费 牛奶灌肠 视频 国产91久久久综合 国内视频精品内射 三级片资源首页 亚洲福利在线精品一区 黄色A片电影网站免费观看 玖玖色在线 伴娘扒开腿㊙️免费视频 女生下面喷水视频 日本、欧美一级人成在线视频 熟女鸡AV 狼色在线视频一区二区 国产女做a精品视频网站 综合,精品,欧美,日韩 日韩一区精品 闫盼盼被操 丰满的岳 愉情日本片 国产91一区二区三区 激烈 抽插亚洲懂色 黄色视频区一级二级图片 巩俐露100‰奶头 超会喷水的淫娃 狂插a片在线观看 美欧黄色网站 影音先锋AV网站你懂得 色色色色色天天 BBIXX免费视频在线观看 免费看黄色视频网页 色丫丫导航-成人导航 毛片一级不卡免费 正在播放美人女高中生被轮奸操哭 日本三级婬视频大全 日本熟妇乱人伦A片免费高 欧美熟女国产第一页 久久国产视频s 在线视频欧美激情二区 国内自拍视频免费专区 艹逼色色视频 巨乳人妻教師泽井芽衣 亚洲色在线ri99AV 色色色色色色色网络 国产一级黄色片网站免费无毒 黄电影一级视频 一出一进一爽一粗一大动态图 数学课代表哭着跟我说别生了 熟女网站 视色4s视频在线观看 日韩在线新网站 最新亚洲日本国产三级片电影 人人色人人橾人人色人人橾 性黄色网站 农夫导航自拍 插儿媳鲜嫩逼逼 国产爽片网址 性欧美❌❌潮喷水口 女生扒开尿口让男生捅 台湾AA在线 igao少妇 精品拍拍 女人久久久www免费人成看片 性欧美ⅩXXXX极品少妇 原神羞羞18禁网站。 欧美老妇爱操 91天美丶密桃丶果冻 毛色毛片免费看 国模一级毛片免费 天堂网wwwww www.肏逼.com 女同自慰一区二区三区 99国产精品久久一区 草莓榴莲未满十八岁 真实稀有小马拉大车视频 日韩a级毛片 分分操超碰在线 观看亚洲视频 日韩毛片中文免费视频 欧美精品视频在线免费观看 欧美性爱大全 漫画 羞羞进入免费在线看 粗口变态辱骂调教91 免费黄色网址, 欧美性爱特色特黄一级视频 www女被❌❌喷水噜噜噜软件 成年黄网站18禁 久久久精品日韩免费观看 欧美在线视频你懂的 特色A片黄色性爱毛片一级片中文播放网址 欧美日韩一区二区视频播放 在线免费观看不卡a片 灌醉迷晕系列在线播放视频 黄片AV免费线上观看 白浆天堂视频 A片毛在线视频免费观看在线播放 动漫美女被艹不用下载 很污的毛片视频网址一区 国内原创,我为人人论坛 国产老师插的好爽的视频在线看 影音先锋女人鲁色资源网 无码伊人 gv在线观看一二区 日本公与妇在线观看 欧美 播放 宋雨琦全肉黄文小说 www.0531fb.com 涩久久
    热门网络工具
    网站地图