国产大语言模型 DeepSeek 现在的热度可以说是非常高,它还引发了业界对 AI 大模型应用的更多畅想,今年 1 月发布了 DeepSeek-R1 人工智能大型语言模型,适用于数学、编码和逻辑等任务,性能对标 OpenAI o1,随后在全球范围内掀起了一股热潮,成为了行业的焦点。
至于 DeepSeek V3 和 DeepSeek R1 两种模型的区别,大家请看以下 DeepSeek R1 的自己的回答:
1. 模型定位
DeepSeek V3:作为通用型智能助手,更注重广泛场景的适应能力,例如知识问答、多轮对话、文本生成等通用任务。
DeepSeek R1:属于优化迭代版本,可能在响应效率、特定任务(如代码生成、数据分析)或垂直领域(如金融、客服)的针对性表现上进行了增强。
2. 功能侧重
V3 强调平衡性,适合日常交互和多样化需求。
R1 可能针对实时性、复杂任务处理或行业需求进行了专项优化(具体需参考官方说明)。
3. 技术迭代
R1 作为后续版本,可能基于 V3 的反馈数据进行了模型调整,例如优化推理速度、降低资源消耗或提升特定场景的准确性。
使用较为常见的 int4 量化模型的话,8B 以下的用最为常见 8GB 显存显卡就能跑了;14B 模型的大小是 9GB;所以得用 10GB 显存的显卡,32B 模型大小是 20GB,需要 24GB 显存的显卡;70B 模型的大小是 43GB,这已经不是单张消费级显卡能跑的东西了,需要那些 48GB 显存的专业卡,用普通显卡的话至少得上双卡。
而 llama.cpp 开源库里面包含一个基准测试工具 llama-bench,可用来测试各种硬件上的 LLM 推理性能,接下来我们就要用它来跑跑 NVIDIA 和 AMD 两家的旗舰显卡运行 DeepSeek R1 蒸馏模型的速度如何。
本次测试跑了 DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B 和 DeepSeek-R1-Distill-Qwen-32B 这三个模型,测试平台使用酷睿 i9-14900K 搭配微星 Z790 CARBON WIFI II 主板,考虑到 32B 模型可能会占用大量内存,所以用了 DDR5-6400 32GB*2 套装。
测试使用的显卡包括 RTX 5090、RTX 5090 D、RTX 4090、RTX 4090 D 以及 AMD 的 RX 7900 XTX,这些 NVIDIA 显卡全部都使用 CUDA 来运行,而 RX 7900 XTX 则会测试使用 Vulkan 和 ROCm 时的情况。
可能在纯 CUDA 环境下大语言模型推理是吃不满 RTX 5090 和 RTX 4090 的算力的,导致测试出来它们和 RTX 5090 D 和 RTX 4090 D 一点差距都没有,如果能跑 TensorRT 就可能有区别,当然也有可能是瓶颈是显存带宽。RX 7900XTX 在跑 7B 和 8B 模型时使用 Vulkan 是比 ROCm 更快的,但跑 32B 模型时就是 ROCm 更快。
在运行小型 DeepSeek 蒸馏模型的时候,RTX 5090 D 的每秒输出 Tokens 比上代 RTX 4090 D 速度快 40% 以上,如果是较大的 DeepSeek-R1-Distill-Qwen-32B 模型的话速度会快 55% 之多。对比 RX 7900XTX,RTX 4090 D 要比它快 40% 以上,而最新的 RTX 5090 D 甚至是它的两倍之多。
造成这原因,GPU 核心算力是一个因素,RTX 5090 D 的算力在这三张卡里面最强这点毋庸置疑,而 RTX 4090 D 本身算力也要比 RX 7900XTX 高一大截,但从 RTX 5090 与 RTX 5090 D、RTX 4090 与 RTX 4090 D 性能没差距来看,使用 CUDA 去推理其实没有完全发挥出 GPU 的 AI 算力。
另外一个关键因素是显存的带宽,在这三张显卡里面 RX 7900XTX 的显存带宽是最低的,只有 960Gbps,而 RTX 4090 D 的显存位宽和 RX 7900XTX 同是 384bit,但使用了速度更快的 GDDR6X 显存,所以带宽更高有 1053Gbps,而 RTX 5090 D 更是配备了 512bit 的 GDDR7 显存,带宽高达 1792Gbps,跑 LLM 推理是非常吃显存带宽的,RTX 5090 D 能比 RTX 4090 D 快这么多的原因很大一部分就是带宽的关系。
至于是否采用 PCIe 5.0 接口,这并不是单卡推理负载的瓶颈,在加载模型时确实与接口带宽有些关系,但此时瓶颈通常是在你的 SSD 上而不是显卡这边。
个人想本地部署 DeepSeek R1 671B 模型基本是不用想的,这种基本上只能在服务器上面跑,但在本地跑小型化后的蒸馏模型是没问题的,DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B 这两个体积较小的适合显存只有 8GB 的显卡部署,而且由于比较小的关系所以跑起来速度也很快,然而也是由于较小的关系它们也只是属于能用的范畴,而使用 12GB 显存显卡的朋友可以跑 DeepSeek-R1-Distill-Qwen-14B 这个模型,对于 LLM 来说通常是参数越多给出的答案越精确越全面。
想要真正好用的还得 DeepSeek-R1-Distill-Qwen-32B 这种有 320 亿参数的模型,当然这就得上比较高级的显卡了,最好的选择自然是最新的 RTX 5090 D,输出 tokens/s 非常的高,而上代旗舰 RTX 4090 D 的速度其实也不差,表现均优于 AMD 的 RX 7900 XTX,这自然和 NVIDIA GPU 本身算力更强的有关,RTX 4090 D 本身的 AI 算力就比 RX 7900 XTX 高得多,而 RTX 5090 D 的显存带宽比它们俩高得多,自然性能也更好。
不同大小的 DeepSeek R1 蒸馏模型的显卡推荐表如下:
而且 NVIDIA 的软件适配性比 AMD 的更好,目前支持 CUDA 的软件非常多,这次跑的 llama.cpp 运行的也是 CUDA,AMD 这些年来也在推自己的 ROCm,我们这次也跑了,但用 ROCm 的表现并不一定比通用 API Vulkan 更好,这就挺尴尬的,AMD 在软件方面的支持确实没 NVIDIA 好,而且 NVIDIA 对于 AI 内容有性能更好的 TensorRT,日后这些 AI 软件能升级支持 TensorRT 的话定能发挥出更好的性能。
超能网公众号
扫码关注我们,浏览热门硬件评测
随时查看最新天梯榜
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:xinmeigg88@163.com
本文链接:http://www.dbeile.cn/news/8475.html