近来,联想集团宣告根据联想问天 WA7780 G3服务器,内职业界初次完成单机布置DeepSeek-R1/V3 671B大模型,以低于职业公认1TB显存(实践768GB)承载多并发用户流通体会,能够彻底满意千人企业的运用需求,为职业树立了企业级大模型布置新基准。
作为全球重视的焦点,很多企业正准备在本地化布置DeepSeek大模型。但是,在落地施行过程中用户遍及面对以下要害决议计划难题:单机能否布置满血版DeepSeek R1?所需最低装备是什么?怎么保证高并发与吞吐量下的优质体会?怎么防止收购圈套?
联想此次打破为公司能够供给科学选型攻略。针对职业公认1TB显存是千亿参数大模型运转基线的布景下,联想我国基础设施事务群和研究院ICI实验室组成的联合攻关团队经过专家并行优化、智能访存架构晋级及PCIe 5.0全互联架构立异,大幅度的提高了显存利用率,以此来完成了功能的提高。
据了解,联想问天 WA7780 G3服务器在2月初已完成单机768GB GPU显存条件下布置DeepSeek 671B R1和V3满血模型,并能满意中小企业的并发需求。从而经过联想万全异构智算渠道的访存优化,专家并行调用战略等技能优化手法,完成了单机一个月内并发才能增加10倍,一起还提高了每路用户的TPOT、TTFT等归纳功能体会。
联想的这一立异效果提示了设备选型的新维度,也提示企业审慎评价各种测试数据,摒弃对总吞吐量和总并发数等目标的片面追求,而应从运用者实在的体会动身,重视这些目标背面的躲藏信息,如数据精度等。实践上,假如将数据精度从FP8转为int8或int4(即量化),虽能明显改进功能体现(如更高并发量和高吞吐量),但会献身成果的准确性,明显这不是用户所希望的。
需求特别指出的是,高吞吐量和高并发量也并不等同于运用者实在的体会好。若服务器GPU卡装备不高,部分通讯瓶颈或许引发呼应推迟使体会降级,这正是联想着力处理的难点之一。
毫无疑问,联想技能打破将有用破除大模型落地瓶颈,明显加快大模型在企业的落地进程。未来,联想我国基础设施事务群与联想研究院ICI实验室将继续携手协作,依托两边联合打造的联想万全异构智算渠道对DeepSeek渠道从AI预练习、后练习到推理的全流程进行继续优化,为客户奉献出功能更佳、性价比更高的产品和处理方案,以加快DeepSeek大模型的落地,推进新一轮生产力革新。