首页
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态(即 KV cache)以阻止重复盘算,但 KV cache 的显存占用随着上下文长度的增添而膨胀,带来显著的内存瓶颈。
已往两年,关于 KV cache 的优化事情爆炸式增添,包括调理、迁徙、压缩等战略层出不穷。然而,现有综述主要聚焦于 LLM 推理或效劳的整体效率,大多仅将 KV cache 作为其中一个子?樽骷蛞致。
近期,来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述,从MLSys 的头脑出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析,并将相关资源整理成了一连维护的 Awesome 资源库,利便研究者与从业职员快速定位与落地。
论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和明确,作者们首先在综述中界说了sKis的界线:在推理效劳阶段,以 KV cache 为焦点优化工具,在不依赖模子重训或结构修改的条件下,提升吞吐、延迟等焦点系统指标。
从「系统行为」看 KV Cache
聚焦于 sKis,该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺:不是按详细流程、框架、算法来划分,而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合战略。
执行与调理(时间维度):KV 什么时间被会见和盘算?该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略,接纳流水线来掩饰延迟,或者凭证差别硬件的特征适配操作等。安排与迁徙(空间维度):KV 放在那里、怎样迁徙?该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中,或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存(结构维度):KV 长什么样?该分类关注数据体现。这是现在最拥挤的赛道,包括量化、驱逐等论文麋集的子领域,旨在直接镌汰 KV cache 的物理体积。
基于上述三个维度,该综述将现有事情归纳为 7 个二级种别,详细包括:以 KV 为中心的调理(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨盘算装备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存治理(KVRM)。
该论文不但详细梳理了每个维度下的差别类型和手艺要领,还为每一类提炼了要害要点、局限与权衡,给出了可落地的适用指导。
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文举行了全局交织剖析,从而归纳了7 大概害视察,并引发了6 大开放挑战。
首先,作者们对文献举行了跨行为共现剖析,以展现差别维度的 KV 行为之间的内在联系和协同模式;别的,作者们深入剖析了KV 行为和优化目的的作用关系,并统计了文献中对相关优化指标的现实关注情形。
基于以上两类交织剖析,作者们展现了目今领域的7 大概害视察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于要害视察,作者们进一步提炼了6 大开放挑战,例如在追求效率的同时,我们虽然常;峁刈⒌蕉云渲柿康挠跋,可是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个视察和挑战都给出了详细的剖析和思绪,期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了利便社区追踪这一飞速生长的领域的最新希望,论文作者同步维护了一个 Awesome 气概的资源库,收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地点:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向,接待在 GitHub 上 star 支持,或者来客栈一起补全与更新!
《级A片一二三区》,《Q8X2R7L1T4J5M9B6W3》精东影业
“成熟女人AA片”
性爱一级A片
……
01月21日
“小静秋 中国”LPL季后赛名单确定
↓↓↓
01月21日,让春运自驾之路更畅通,吃鸡扒视频完整版高清,亚洲国产淫色视频,xx视频在线观看免费不卡,儿童男童网站U蓝
01月21日,【党外人士话复兴】院士卢柯:科研的“游戏”永不结束,老师让我 了一夜,国产美女裸体网站,久久国产福利一区二区精品,小黄豆crm免费在线波萝
01月21日,AIGC媒体应用标准联盟技术分享及工作交流会召开,国产真实乱人伦视频,国产精品18禁播放,国产酒店约大学生情侣宾馆,wwweee
01月21日|(文化新纪行)“保下来”更要“活起来” 苏州古城焕新机|91人人干|www.亚洲第一页|538在线国内精品视频|91久久精品国产亚洲
01月21日|【小新的Vlog】打卡正定小商品夜市 感受“梦中情市”魅力|妲己被 到爽妲己羞羞漫画|16岁破解版免费观看下载|国产在线一级毛片在线直接看|抖音9.1破解版官方版下
01月21日|前三季度山西运城“新三样”产品出口2554.85万元|国产黄色视频:|猎奇重口|久久东京热|欧美大吊一级性交片……
01月21日,重庆2023年GDP迈上3万亿元新台阶 专家解读:“3万亿”如何炼成?,全国AV网址,性爱视频社区,欧美 国产 亚洲 另类,777看黄片
01月21日,中国杂技团摘冠第15届匈牙利布达佩斯国际马戏艺术节,黄色网站AA级,国产黄片免费视频,欧美一级特黄大片做受大屁股,天天影视插插综合网日韩
01月21日|秦岭四宝科学公园就“录制节目影响游客游览体验一事”进行道歉|热人人精品免费,japanesehdtvxxxx,japanesehdtvxxxx,18禁黄网站网址免费|日韩久草|黄页视频免费看在线观看|小网站在线观看
01月21日,昂贵的“保护伞”保不了安全(两岸观察漫评),黄色片日韩一区二区,黄 色 免 费 成 人 A片,www.日本xx,国产毛片久久久久久国产毛片
01月21日,直播间成夏日旅行“任意门” 在线“云”游成常态,国内自拍最新,在线免费观看黄色视频h,手机版真实免费黄色网站,国产AV一区二区
01月21日,以爱点亮人生 《老式喜剧》迎新一轮演出,灌满白浆欧美,www.色色网.com,在线看片a,揉我奶 啊 嗯高潮孕妇男男小说
01月21日|宁夏银川:房地产在售项目来访量、成交量环比增长48%、66%|美国高清无码免费看bb|欧美老女人视频在线|作爱视频在线播放|伊人久久免费视频
01月21日|采访中国全国两会的外国记者——“把中国的故事讲给更多人听”|老女人一区三区视频|国产肏干视频|小箩莉无套内谢第一次|freeporm
01月21日|“海马斯”火箭炮抵台 国台办回应:“倚美”只会“害台”|zaixianoumeichengren|第一区免费在线观看|青少年GaYGAYS 免费|网站www黄在线免费观看
米歇尔:投特朗普就是投票反对女性,麦琳喊杨子宝贝|外籍人士:新疆现代化建设经验值得学习|殴美1级二级3级四级视频|伊人在在线视频|91看片在线观看无码片|jizz1314国产
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
台湾7月CPI同比增2.52% 估8月蔬果价格续上涨
假枇杷干频现电商店铺,随机购买5款仅2款为真
国台办发言人陈斌华答记者问
在长春见青春!长春假日游线上线下玩到爆!独家调查河南大学大礼堂失火事件 最新回应→
塔里木油田荣获中国工业碳达峰“领跑者”企业荣誉称号
中国首套深海湿插拔连接器通过海试
哈马斯称已向调解方提交对加沙地带停火提议的回应
【新闻特写】通道内外的高频词
国际申诉专员高峰论坛2024在港举行 共论挑战与未来
常昊评汪顺等人模仿花游:给满分!
国内免费久久久久久久久
夜
我要看全毛板黄色电影
66j8影院在线视频
啊啊啊啊啊啊国产一区
黄色av日韩在线网址
最全偷窥盗摄网站
国产精品 欧美激情 在线播放
亚洲最黄色网站
欧美性爱看看

闽公网安备 35010302000113号