首页
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达宣布最新版CUDA 13.1,官方直接定性:这是自2006年降生以来最大的前进。
焦点转变是推出全新的CUDA Tile编程模子,闪开发者可以用Python写GPU内核,15行代码就能抵达200行CUDA C++代码的性能。
新闻一出,芯片界传奇人物Jim Keller连忙发问:
英伟达是不是亲手终结了CUDA的“护城河”?若是英伟达也转向Tile模子,AI内核将更容易移植到其他硬件上。
Jim Keller加入设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次究竟改了什么?为什么会被以为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要明确这次更新的意义,得先回首一下古板CUDA编程有多折磨人。
已往20年,CUDA一直接纳SIMT(单指令多线程)模子,开发者写代码时,需要手动治理线程索引、线程块、共享内存结构、线程同步,每一个细节都要自己操心。
想要充分使用GPU性能,特殊是用上Tensor Core这类专用?,更是需要深挚的履历积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后界说在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就似乎NumPy之于Python。
英伟达为此构建了两个焦点组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层笼统,确;赥ile编写的代码能在差别代际的GPU上运行,从目今的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功效新增的Grouped GEMM API在MoE(混淆专家模子)场景下能实现高达4倍加速cuSOLVER的批处置惩罚特征剖析在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能剖析支持,可以把性能指标直接映射回cuTile Python源代码。
现在CUDA Tile仅支持Blackwell架构(盘算能力10.x和12.x),开发重点集中在AI算法上。英伟达体现未来会扩展到更多架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
要害就在于Tile编程模子不是英伟达独吞的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程笼统。
已往CUDA难以移植,很洪流平上是由于SIMT模子与英伟达硬件深度绑定,开发者要针对详细的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模子自然具有更高的笼统条理。当开发者习惯了“只管界说Tile运算,硬件细节交给编译器”这种头脑方法后,理论上统一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也思量了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建设在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目的是英伟达自家的差别代GPU,而非竞争敌手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁徙到下一代英伟达GPU,但要迁徙到AMD或Intel的平台上,依然需要重写。
不管护城河是加深照旧削弱,有一点是确定的:GPU编程的门槛确着实大幅降低。
已往能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥若晨星。
CUDA Tile和cuTile Python买通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大宗数据科学家和AI研究者以后可以直接上手写高性能GPU代码,不必再等HPC专家来资助优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《亚洲欧美日韩人成一区二区》,《Q8X2R7L1T4J5M9B6W3》AAA黄色网址
“另类视频一区二区”
极品无码国产在线观看
……
12月10日
“午夜性生活福利”大侦探9定档
↓↓↓
12月10日,《习近平总书记关于制造强国的重要论述学习读本》出版发行,最近2019中文字幕视频在线,揉奶动图,爽~奶黑子,永久w939w75w75乳液
12月10日,人民论坛网评|推动“四下基层”制度走深走实、见行见效,亚洲视频另类专区,海贼王女帝牢狱三部曲漫画,硬爽gay大吊gay淫,国产精品黄的在线观看
12月10日,近十年最大规模吴湖帆作品展在上海举办,掰开伸进去91网站知更鸟,欧美一区亚洲一区,www.773c.cn免费网站入口怎么打开游戏,黄在线
12月10日|中央气象台继续发布强对流天气蓝色预警|日韩va|超碰外国老女人免费电影在线观看|蜘蛛精在线观看免费版动漫|免费A级毛片在线看视频
12月10日|坐着火车出国啦!五一中老铁路跨境客货运输双增长|611650植物大战僵尸本子|99爱99|亚洲日韩Av无码中文字幕美国,日韩精品无码一级A片,日韩A片无码毛片免费看,亚|欧美激情A片一区二区三区
12月10日|山西黎城:“水+”产业赋能丹泉河谷 打造乡村振兴新引擎|扒开腿cao烂你小sao货作文|一级A婬片试看3O分钟|18岁免费看网站|手机在线视频精品……
12月10日,福建集智助推两岸融合 赋能乡村振兴,XXNX国产高潮,最新暗交小u女,精品国自产拍AV电影网免费,沧州消音器厂家用小鹤营销导航
12月10日,广东持续开展义务植树活动 民众争做绿美守护者,2019国产精品视频,国产精品自拍自产,中文字幕在线了,午夜福利性爱网站
12月10日|全国首单暂时进境修理内销业务在海口落地|Av毛片午夜专区色欲AV|性爱免费网|www日本亚州|国产99久久九九精品无码
12月10日,国台办评瑙鲁与台湾“断交”:对有关国家顺应大势作出正确抉择表示赞赏,面具公社app下载官方,国产美欧亚洲一区二区三区,裸体❌开腿❌狂喷视频,八重神子乳尖乱颤娇喘连连h
12月10日,生逢其时勇担时代重任,玖玖久久久,亚洲中文字幕精品无码一区,综合欧美性爱,99r最新在线精品精品视频
12月10日,天天学习丨中南海月刊(2024.04),曰本美女∴一区二区特级A级黄色大片,一级毛片免费看大尺度,欧美日韩免费一级大黄,heyzo精品无码一区
12月10日|西安博物院8月7日至31日实行夜间开放 每天增三千张门票|国产第一页在线|日韩一级黄片在线免|国产无码自拍|性生大片免费观看一级在线
12月10日|乌梅汤2.0版本正式上线 中药代茶饮你下单了吗?|https://aaa2228.com|黄漫 涩爆乳自我安慰网站|亚洲色婷婷五月基地|无码AⅤ精品无码专区
12月10日|2024无畏契约全球冠军赛:CN赛区队伍首轮两胜两负|亚洲男人的天堂 网址|欧美精品乱又伦|久久香综合精品色综合|日本 韩国 欧美 一区 二区 三区
五一国内游出游2.95亿人次,明日方舟新干员引星棘刺实装|俄国防部:24小时内击落194架!|老熟妇伦交视频|亚洲一级无码a片在线免费观看|92看片婬黄大片欧美看国产|放碟片电视播放特级
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
【两会30秒】文旅部部长:多项举措解决入境游客支付难
中经评论:托起幸福“夕阳红”,需要更多养老护理人才
节假日不涨价 重庆一景区招募50名志愿者监督“价格刺客”
广西柳州:融江江水交汇 现“泾渭分明”景观
中国载人航天工程的开创者、工程院首批院士王永志逝世
海外侨胞和港澳人士参访新疆国际大巴扎等地
日本茨城县附近海域发生4.0级地震 福岛县有震感
青年数据库人才对国产数据库有信心
【大国新村:沿着总书记的足迹】评论:吹响乡村振兴幸福号角
重庆市国防动员办原党组成员、副主任崔维新接受审查调查
www.黄色网站在线观看
一级黄片三级黄片
爽 好紧 别夹 H小说
永久毛片地址
欧美成熟性关系视频
2048核基地
国产乱子伦综合网
真人性交有声动态图
一级视频黄人视频在线观看
97精品人妻全国免费公开

闽公网安备 35010302000113号