首页
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达宣布最新版CUDA 13.1,官方直接定性:这是自2006年降生以来最大的前进。
焦点转变是推出全新的CUDA Tile编程模子,闪开发者可以用Python写GPU内核,15行代码就能抵达200行CUDA C++代码的性能。
新闻一出,芯片界传奇人物Jim Keller连忙发问:
英伟达是不是亲手终结了CUDA的“护城河”?若是英伟达也转向Tile模子,AI内核将更容易移植到其他硬件上。
Jim Keller加入设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次究竟改了什么?为什么会被以为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要明确这次更新的意义,得先回首一下古板CUDA编程有多折磨人。
已往20年,CUDA一直接纳SIMT(单指令多线程)模子,开发者写代码时,需要手动治理线程索引、线程块、共享内存结构、线程同步,每一个细节都要自己操心。
想要充分使用GPU性能,特殊是用上Tensor Core这类专用?,更是需要深挚的履历积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后界说在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就似乎NumPy之于Python。
英伟达为此构建了两个焦点组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层笼统,确;赥ile编写的代码能在差别代际的GPU上运行,从目今的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功效新增的Grouped GEMM API在MoE(混淆专家模子)场景下能实现高达4倍加速cuSOLVER的批处置惩罚特征剖析在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能剖析支持,可以把性能指标直接映射回cuTile Python源代码。
现在CUDA Tile仅支持Blackwell架构(盘算能力10.x和12.x),开发重点集中在AI算法上。英伟达体现未来会扩展到更多架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
要害就在于Tile编程模子不是英伟达独吞的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程笼统。
已往CUDA难以移植,很洪流平上是由于SIMT模子与英伟达硬件深度绑定,开发者要针对详细的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模子自然具有更高的笼统条理。当开发者习惯了“只管界说Tile运算,硬件细节交给编译器”这种头脑方法后,理论上统一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也思量了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建设在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目的是英伟达自家的差别代GPU,而非竞争敌手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁徙到下一代英伟达GPU,但要迁徙到AMD或Intel的平台上,依然需要重写。
不管护城河是加深照旧削弱,有一点是确定的:GPU编程的门槛确着实大幅降低。
已往能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥若晨星。
CUDA Tile和cuTile Python买通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大宗数据科学家和AI研究者以后可以直接上手写高性能GPU代码,不必再等HPC专家来资助优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《欧美制服被草》,《Q8X2R7L1T4J5M9B6W3》未满十八禁止18以下免费的AV
“欧美日韩亚洲国产”
欧美一区二区美女
……
12月14日
“女人性生活黄色网站(”我爸为米哈游工作系列吊图
↓↓↓
12月14日,外交部副部长邓励会见英国外交发展部国务大臣特里维廉,欧美人妻❌❌❌❌OOOO,情爱视频网址,亚洲精品图片,HD x x xHD tu be8 x x xHD
12月14日,台湾青年走进漫博会:不仅研学参观也要“买买买”,国产目拍亚洲精品二区91,超帅男男Gay自慰出精,青年老师黄色日片男人日高兴,仓井空
12月14日,飞天网评:敲响重拳纠治形式主义官僚主义的雷鸣战鼓,国产又黄又粗又硬又爽的视频,翁媳乱轮日韩毛片,济南宋刘村足疗店,大黑塔被绳子绑起来图片
12月14日|(文化新纪行)“保下来”更要“活起来” 苏州古城焕新机|大丁丁插女人阴部视频|老师对准肉茎坐下裙子遮住|日日操人人草|操逼的黄色视频一级二级毛片
12月14日|浙江象山统一战线成员爱心接力30小时 卖完3000箱柑橘|女生 伸出|人人草最新免费在线观看视频|黄色网站一级二级三级|成人插拔com
12月14日|ATP年终总决赛小组赛次轮:阿尔卡拉斯、兹维列夫获胜|国产分类自拍|看国产三级操逼片免费的|白浆爆操|chinagay插gay无套gay……
12月14日,“小菌子”撑开“就业伞” 湖南首个食用菌专业助力千亿产业,精品 91,日韩操人妻,92国产精品,一级大片黄色网站a片电影,毛片
12月14日,应急管理部部署推进国家区域应急救援中心工程建设,99re免费在线,人C交Z〇○Z〇○ⅩⅩ人妖,国产一国产一级毛片视频美国,又粗又硬爽个够免费视频无码
12月14日|四川康定山洪泥石流318国道受灾段将于8月7日管控放行|欧美性爱激情网站|xemsex裸体瑜伽|91无码精品人妻一区二区|蜜桃传媒下载
12月14日,“青山”变“金山” 浙江温州首次跨市域林业碳汇交易完成,中文日本黄色视频大全,日韩精品第六页,黄色网站a透的视频泛黄,色妺在线视频导航
12月14日,【澜湄印象】探访泰国廊开府水生动物博物馆 寻湄公河鱼类之踪,九九免费看视频,网站黄色免费,欧美精品综合第一页,国产羞羞的视频
12月14日,一边向以色列供武一边援助加沙 美国行径遭国际社会广泛批评,国产在线观看1,黄美女,免费看Av黄片,国产精品色熟女
12月14日|国足0比1不敌卡塔尔 亚洲杯小组赛零进球出线形势不容乐观|亚洲免费黄色一级片|自拍偷拍2020|秘书办公室国产a国产片免费|aigao在线视频
12月14日|香港安徽联谊总会回乡团走进合肥 了解安徽前沿科技发展|深夜欧美日韩网站a|涩涩视频免费观看|欧洲性爱干干操操操|人人人人操两性视
12月14日|俄罗斯总统普京与朝鲜外务相崔善姬举行会谈|欧美一级激情操逼aaa黄|一级a特黄色片|女人的逼逼被男人的大鸡巴插|姐姐主动打开双腿让我c
绍兴一医院眼科套取医保资金2000万,曹利国冲击古典式摔跤金牌|波音预测未来20年全球航空货运机队将增至3900架货机|99re免费在线视频|久久特黄大片|∏0pH0B1080phd365|天天射天天干天天色
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
云南昆明:“圆通花潮”春意浓
福建永春首发“绿票” 深化集体林权改革
遇见福建:汀州古城成冰雪世界
【讲习所中国与世界】习近平:中国始终是“全球南方”的一员,永远属于发展中国家
协定存款频迎调整 银行揽储收紧
浙江温州警方通报一汽车碰撞4辆电动车:造成3人受伤
寰宇漫笔|中欧需要架起更多的“桥”
秘鲁,是个怎样的国家?
感受大运河魅力,2024北京城市副中心马拉松开跑
【巴黎奥运会】张雨霏:希望下届奥运会中国队男女混合泳接力登顶世界第一
学生妹人人干Av
www.xx性xx
18岁黄色网站进入口
日本三级香港三级人妇狠狠爱
久久综合久久一
91久久国产视频
色色综合天天色
亚洲最大一区二区视频
欧美一级A片色视频在线观看
人人操人人看人人舔

闽公网安备 35010302000113号