首页
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达宣布最新版CUDA 13.1,官方直接定性:这是自2006年降生以来最大的前进。
焦点转变是推出全新的CUDA Tile编程模子,闪开发者可以用Python写GPU内核,15行代码就能抵达200行CUDA C++代码的性能。
新闻一出,芯片界传奇人物Jim Keller连忙发问:
英伟达是不是亲手终结了CUDA的“护城河”?若是英伟达也转向Tile模子,AI内核将更容易移植到其他硬件上。
Jim Keller加入设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次究竟改了什么?为什么会被以为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要明确这次更新的意义,得先回首一下古板CUDA编程有多折磨人。
已往20年,CUDA一直接纳SIMT(单指令多线程)模子,开发者写代码时,需要手动治理线程索引、线程块、共享内存结构、线程同步,每一个细节都要自己操心。
想要充分使用GPU性能,特殊是用上Tensor Core这类专用?,更是需要深挚的履历积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后界说在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就似乎NumPy之于Python。
英伟达为此构建了两个焦点组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层笼统,确保基于Tile编写的代码能在差别代际的GPU上运行,从目今的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功效新增的Grouped GEMM API在MoE(混淆专家模子)场景下能实现高达4倍加速cuSOLVER的批处置惩罚特征剖析在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能剖析支持,可以把性能指标直接映射回cuTile Python源代码。
现在CUDA Tile仅支持Blackwell架构(盘算能力10.x和12.x),开发重点集中在AI算法上。英伟达体现未来会扩展到更多架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
要害就在于Tile编程模子不是英伟达独吞的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程笼统。
已往CUDA难以移植,很洪流平上是由于SIMT模子与英伟达硬件深度绑定,开发者要针对详细的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模子自然具有更高的笼统条理。当开发者习惯了“只管界说Tile运算,硬件细节交给编译器”这种头脑方法后,理论上统一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也思量了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建设在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目的是英伟达自家的差别代GPU,而非竞争敌手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁徙到下一代英伟达GPU,但要迁徙到AMD或Intel的平台上,依然需要重写。
不管护城河是加深照旧削弱,有一点是确定的:GPU编程的门槛确着实大幅降低。
已往能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥若晨星。
CUDA Tile和cuTile Python买通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大宗数据科学家和AI研究者以后可以直接上手写高性能GPU代码,不必再等HPC专家来资助优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《欧美胖熟妇bbbbbbb》,《Q8X2R7L1T4J5M9B6W3》在线观看福利影院
“AV视屏在线免费”
扁豆曰本熟妇不卡无码一、二区在线费看
……
12月12日
“国产视频啪啪啪”追踪者游戏W 职权骚扰的上司是我的前女友
↓↓↓
12月12日,旅新大熊猫“叻叻”启程回国 预计16日深夜抵达成都,操欧美老妇女,喝尿+伺候+桌下含尿,欧美性交黄视频人与兽性黄色视频,4455vw亚洲毛片基地
12月12日,以色列总理反对建立巴勒斯坦国 引多方不满,台湾一级Av,美杜莎被 到爽被爆视频qq群,又大又粗又长又硬黄毛片,贝蕾亚裸体
12月12日,倒计时一周年 成都世运会口号、吉祥物正式发布,堕落芙莉莲3.0汉化版最新内容,免费A级c片观看,A级在线免费看一欧洲,18 乳液啪啪红桃免费网站
12月12日|王毅同埃及外长舒凯里举行会谈 双方就巴以冲突深入沟通|18禁推特下载|亚洲欧美国产啊啊|国色天香HD仙踪林|亚洲国产一区二区三区亚瑟
12月12日|“五一”假期海南离岛免税购物金额5.47亿元|又黄又爽的视频网站|人人操人人摸99|XXXⅩ96HD|91亚洲欧美国产专区一区
12月12日|宁夏姚磨村入选2024世界旅游联盟——旅游助力乡村振兴案例|又黄又爽又色|国产激情精品|91免费观看视频|中文专区欧美三级在线线……
12月12日,河南郸城“泥人张”作品登上澳门邮票,国产黄色激情网,老女人 网站,午夜影院福利社,激情五月婷婷久久
12月12日,从源头治理农村留守儿童沉迷手机现象,亚洲国产天堂女人的天堂午夜看片,国产自偷一区二区三区,校花被我c到娇躯颤抖,性爱电影网欧美
12月12日|广东去年新收一审行政案件和行政非诉审查案件“双下降”|裸体 露出 走光 羞耻 真空|欧美aaa级在线免费观看|www.爆乳|少妇大叫好爽受不了午夜视频
12月12日,两会受权发布|中国人民政治协商会议第十四届全国委员会第二次会议政治决议,国产一区二区亚洲福利,黄片AAAAA,宋雨琦洗热水澡视频,国产清纯在线一区二区三区www
12月12日,“快递新规”落地居民取件体验如何?记者实地走访,小黄片mm,在线视频操老阿姨老熟妇性爱实录,黄色在xian视频网站,无遮挡裸光屁屁打睾丸
12月12日,广东省政协委员热议大湾区建设:加快大湾区规则机制“软联通”,三级小说图片,亚洲一区二区,知更鸟全光抱枕图片,妲己3D同人18 AV黄漫网站
12月12日|【东西问】黄桂秋:广西歌圩文化为何能唱响海内外?|一级片在线免费|国产福利精品一区|嫩小摇的饺子|原神温迪 同人漫画
12月12日|六部门发文明确:进一步加强适老化无障碍出行服务 优先给老年人安排下铺|www..yj234.com|免费无码A片一区二三区色欲Av|69.xxxx|狼狼综合久久综合88亚洲
12月12日|安徽黄山:烟雨徽州旅游热|18🈲🈲🈲🈲呦|91色视在线网站免费观看|边境玩越南小女孩纪实|日欧美在线
间谍过家家 第二季,吉动女生举报吉大男生偷拍|外交部:反对有关国家在非法侵占的中国南沙岛礁上开展非法建设活动|狼色视频|久久国产电影a片|欧美笫1页|在线观看黄色视频永久免费观看AA啊aa
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
(两会观察)从两会八个高频词看中国
“有偿咨询”需警惕 浙江公布侵犯商业秘密典型案例
珠海“头号工程”如何转动城乡巨变的齿轮
成都:“智能炒菜机”入驻餐厅 餐饮业或将迎来变革?
海上风电、沙地光伏,“撂荒地”如何成为清洁能源“发电厂”?
2024重庆·大足龙水湖马拉松鸣枪起跑 环湖赛道吸引跑友竞速
太阳鸟时评:外贸“风景独好”,中国经济韧性足
最高检发布《关于全面深化检察改革、进一步加强新时代检察工作的意见》
香港涉外法律人才代表团访问大湾区内地城市
中国驻韩大使馆提醒在韩中国公民加强安全防范
26uuu在线
爱爱又爱爱97大神视频
曰批全过程免费视频观看软件
国产A片欲色AV
18 网址
黑土吃鸣人的大钢筋
小 戳进 无遮挡
国产A√操追
男女刺激视频无遮挡
韩国三级片免费观看入口

闽公网安备 35010302000113号