首页
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态(即 KV cache)以阻止重复盘算,但 KV cache 的显存占用随着上下文长度的增添而膨胀,带来显著的内存瓶颈。
已往两年,关于 KV cache 的优化事情爆炸式增添,包括调理、迁徙、压缩等战略层出不穷。然而,现有综述主要聚焦于 LLM 推理或效劳的整体效率,大多仅将 KV cache 作为其中一个子?樽骷蛞致。
近期,来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述,从MLSys 的头脑出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析,并将相关资源整理成了一连维护的 Awesome 资源库,利便研究者与从业职员快速定位与落地。
论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和明确,作者们首先在综述中界说了sKis的界线:在推理效劳阶段,以 KV cache 为焦点优化工具,在不依赖模子重训或结构修改的条件下,提升吞吐、延迟等焦点系统指标。
从「系统行为」看 KV Cache
聚焦于 sKis,该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺:不是按详细流程、框架、算法来划分,而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合战略。
执行与调理(时间维度):KV 什么时间被会见和盘算?该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略,接纳流水线来掩饰延迟,或者凭证差别硬件的特征适配操作等。安排与迁徙(空间维度):KV 放在那里、怎样迁徙?该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中,或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存(结构维度):KV 长什么样?该分类关注数据体现。这是现在最拥挤的赛道,包括量化、驱逐等论文麋集的子领域,旨在直接镌汰 KV cache 的物理体积。
基于上述三个维度,该综述将现有事情归纳为 7 个二级种别,详细包括:以 KV 为中心的调理(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨盘算装备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存治理(KVRM)。
该论文不但详细梳理了每个维度下的差别类型和手艺要领,还为每一类提炼了要害要点、局限与权衡,给出了可落地的适用指导。
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文举行了全局交织剖析,从而归纳了7 大概害视察,并引发了6 大开放挑战。
首先,作者们对文献举行了跨行为共现剖析,以展现差别维度的 KV 行为之间的内在联系和协同模式;别的,作者们深入剖析了KV 行为和优化目的的作用关系,并统计了文献中对相关优化指标的现实关注情形。
基于以上两类交织剖析,作者们展现了目今领域的7 大概害视察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于要害视察,作者们进一步提炼了6 大开放挑战,例如在追求效率的同时,我们虽然常;峁刈⒌蕉云渲柿康挠跋,可是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个视察和挑战都给出了详细的剖析和思绪,期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了利便社区追踪这一飞速生长的领域的最新希望,论文作者同步维护了一个 Awesome 气概的资源库,收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地点:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向,接待在 GitHub 上 star 支持,或者来客栈一起补全与更新!
《色五月二月色色色色》,《Q8X2R7L1T4J5M9B6W3》蜜 桃 黄 片AV软件
“日韩人成视频区国产日韩区”
桃花源(原:小黄人)最新版
……
01月24日
“日本黄色大码视频在线看片”发现裸辞并不会重启人生
↓↓↓
01月24日,外交部副部长孙卫东在东亚合作系列高官会后接受媒体采访,91国自精品,成人 高潮片免费樱桃视频,馃憴mofos馃憴賮賶賱賶賲.,欧美一级毛多水多的肥婆
01月24日,开机率断崖式下跌,电视机如何重回客厅“C位”?,精品久久久国产视频,欧美在线伊人,最新国产福利导航,亚洲小说图
01月24日,中消协舆情报告点名直播电商“低俗”“虚假比价”等问题,黄色网站手机在线播放视频,宝贝~腿打开一点我轻一点视频,钙片1069官网,亚洲日韩精品欧美一区二区一
01月24日|2024金山岭长城半程马拉松赛开跑 逾千名中外选手参赛|国产免费无遮挡又黄又爽网站|操逗你网|美女扒开腿让男生桶爽真人视频|loveme捉迷藏动漫
01月24日|一场满满中国元素的快闪,在巴黎塞纳河畔上演|7x7x7x7任意槽ci2023进口视频|黄片无码高清在线观看视频|免费A级不卡毛片观看|免费的网站妖精视频在线观看
01月24日|中欧班列“东通道”通行量突破2000列|可以直接免费观看的av网站|免费av在线播放网址|放屁A片|小蓝彩虹男孩视频……
01月24日,韩正会见英国汇丰集团主席杜嘉祺,变态另类一区二区三区不卡,黄片在线观看,㓜交H调教h文学校,欧美91av
01月24日,中亚国家挖掘农业增长潜力(国际视点),国产精品毛片嫩草影院,精品一区三级片区偷拍视频网站大门,18岁以下禁止观看黄色,久久另类图片视频小说
01月24日|重庆新贯通一连续刚构桥 最高墩柱达192米|女人18毛片A级女人18水真多|国产国产在线视频|5555性爱网|女人影库
01月24日,中央组织部、司法部联合举办全国青年党员律师培训班,玖玖视频免费在线观看,www天天干,可以免费看黄片的软件,影音先锋人妻啪啪aV资源网站
01月24日,美欧相继出台涉华经贸限制措施 中国贸促会:坚决反对,久久国产色Av免费,男生女生重口网站免费观看,日韩二级黄片,甜心御梦子免费全集在线观看第三季
01月24日,戴龙成当选侨乡莆田市市长,被粗大的 捣出白浆,800AⅤ800在线800视频800,免费黄色网站在线观看官方亚洲,狼友小视频在线观看
01月24日|《罗莎·卢森堡》新书发布 德国学者讲述欧洲左翼女性革命家的一生|久久99国产精一区二区三区|亚洲一区精品无码色|性爱大屌丰满爽视频|免费的乱伦视频网站
01月24日|中国地震台网自动测定:中国台湾附近发生4.4级左右地震|日韩美a∨无码中文字幕|100款禁用流氓软件|18+网站官方版|里番肉肉无遮挡全彩3d视频
01月24日|两部门:严厉打击网络中盗墓、探墓、非法鉴定等相关违法违规短视频和直播活动|免费观看欧美视频|正在播放极品白嫩真实面试|日韩欧美综合亚洲欧美|poren720直播
樊振东马龙陈梦退出澳门赛,候车厅凌晨不让进 长沙南站致歉|北京龙庆峡冰灯冰雪嘉年华开幕|三级黄色毛片视频|福瑞黄片|WWW. 99r鈪拔扁叅.C0m|老色鬼18岁少女
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
厚植为民情怀,千方百计解决群众的烦心事
香港实施管制即弃塑胶餐具及产品法例 业界:“走塑”成本不转嫁消费者
中国用事实揭穿西方“中国威胁”谎言
东西问|干春松:东西方文明如何更好地“借鉴彼此”?
新疆乌什县发生7.1级地震 应急管理部启动三级应急响应
5400余名中外选手竞逐2024天津生态城半程马拉松
精彩!两场七局大战,孙颖莎、马龙世界杯夺冠
西藏那曲:酥油花“绽放”藏传佛教寺院琼科寺
“十四冬”主题MV、宣传片发布
古董车修复工匠创新工作室上海揭牌 推动经典车保护与修复
🔞少妇❌❌❌cg搔首弄姿视频
国产老师插的好爽的视频在线看
亚州BBBBBBBBB在线
欧美天天干
国产三级无码一区二区三区
人人操人人曰人人湿
男人猛躁女人秘 免费看
成人做爰88片免费观看
免费A级毛片av无码国内
欧美亚洲日韩国产人成在线观看

闽公网安备 35010302000113号