kaiyun全站网页版登录英伟达此次利用单个配备八块Blackwell架构B200 GPU的英伟达DGX系统,在英伟达评价为“超大规模、最先进的“DeepSeek-R1模型上,实现每用户每秒可处理超过250个token的性能,或每秒最大吞吐量超过30000个token。


英伟达于2025年1月30日在面向开发者的网站上发布NVIDIA NIM微服务版的DeepSeek,之后,英伟达不断通过优化推理生态,刷新DeepSeek-R1模型的吞吐量。英伟达声称,自1月以来,DeepSeek-R1 671B模型的吞吐量已被提高了约36倍,相当于每token的成本降低了约32倍。
据悉,英伟达此次发布的GB300是全球首个288GB HBM3E GPU,FP4推理性能可达去年发布的GB200的1.5倍,峰值可达15PFLOPS。将在2025年下半年出货。
此外,英伟达还发布了用于加速AI模型推理的分布式推理服务库NVIDIA Dyamo,据称,在GB200 NVL72架构上运行Dyamo推理,能使DeepSeek-R1模型的吞吐量提升30倍。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
巴特勒加盟17战15胜:核心PK24+8+10完胜字母哥 率勇士保住第六
巴特勒加盟17战15胜:核心PK24+8+10完胜字母哥 率勇士保住第六
“外观重大改变”:OPPO Pad 4 Pro 平板取消居中后置摄像头设计
惠普推出 Omen 16 Slim 游戏本,至高 Ultra 9 285H + RTX 5070
镜头记录下双胞胎的打架瞬间,一个打的英勇一个一招制敌,网友:这就是狠人从来不多说一句话
宝妈分享自家小宝的视频,上厕所都没学会的年纪掌控住了节奏,网友:不回头宝宝,一回头姥姥
女生拿镜头记录,两个萌娃一个比一个会抢镜头,网友:他俩还真是难分伯仲啊