【图片】deepseek 671b 4bit 本地化实战_deepseek吧

deepseek吧关注：116,761贴子：230,121

1 2 3 下一页尾页
76回复贴，共3页
，跳到页

deepseek 671b 4bit 本地化实战

硬件配置如图。花费74000人民币。
系统：win server 2022
模型装载：im studio
模型加载设定：上下文数值10000，可以满足一次性写2000-3000字文章的要求。
gpu卸载：默认2
CPU thread pool size：默认12
模型保存在内存打开
评估批处理大小默认512
专家默认数8
其他全部关闭
chat客户端：cherry studio（默认有很多助手提示词包括魅魔）
测试速度3.9-4tps
bios设置：smt关
512axm 关
nsp＝1
win➕r 输入 MSConfig，在引导中高级选项选处理器个数32。

送TA礼物

IP属地:北京

来自iPhone客户端1楼2025-03-07 14:33回复

现在问题来了，win系统下安装kt构架，在编译到flash att这步卡住了，转圈一小时。不知道哪里出问题了。
cuda tools安装的是12.4
Python3.12
torch2.6
---
现在想安装Ubuntu lts，win下划了1t出来作为u系统的安装区，用rifus刻录好u盘Iso后，u盘引导可以出Ubuntu的安装logo，然后在进入选择硬盘的画面出来前就卡住了，键盘没有死机，但是就是啥东西都不出来。这下两条路都堵死了。

IP属地:北京

来自iPhone客户端2楼2025-03-07 14:42

cpu核心为啥采用12。你这不是96核吗

IP属地:河南

来自iPhone客户端3楼2025-03-07 17:39

收起回复

用qwq 32b啊

IP属地:江苏

来自Android客户端4楼2025-03-07 18:43

收起回复

个人觉得deepseek写长篇还是挺智障的

IP属地:浙江

5楼2025-03-07 20:03

可以用量化版本。参数设置cpu没发挥出来。

IP属地:重庆

来自Android客户端6楼2025-03-07 21:44

你这个配置跑kt肯定没问题。多试试

IP属地:重庆

来自Android客户端7楼2025-03-07 21:45

收起回复

来总结今晚的战报了。哎，没有花钱的不是。小黄鱼上氪了380多找了个大佬。
大佬给出的方案是，win系统下bug太多很难跑的通，于是虚拟了个Ubuntu，一切都在虚拟机下搞定，就这么简单。擦~
ktransformers编译完全后。
conda activate kt
#激活一下kt
export HF_ENDPOINT="https://hf-mirror.com"
PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True ktransformers \
--model_path deepseek-ai/DeepSeek-R1 \
--gguf_path /home/dministrator/models/DeepSeek-R1-Q4_K_M \
--max_new_tokens 8192 \
--cpu_infer 92 \
--cache_q4 true \
--force_think \
--temperature 0.6 \
--top_p 0.95 \
--host 127.0.0.1 \
--port 6006
#设置kt拉取deepseek r1 671b 4bit模型，然后就是上下文数默认32k，一次性最大生成tokens数8192tokens，推理使用cpu核心数92，开启深度思考，开启本地127.0.0.1:6000端口的api调用
这就完事了，接着随便用什么chat客户端里找类似openai的api调用，复制上面的ip端口/v1 ，秘钥随便写，这就搞定了。如果调用不了，那就看看本地的接入防火墙端口是不是没打开6000的端口。
测试下来，速度在6-7tps。。。在win下基本算是能用了

IP属地:北京

8楼2025-03-08 03:23

收起回复

ktransformers到底是个啥，有些人说是优化工具有些人说框架，都对。个人的感觉是这就是个类似ollama，lm的模型装载库。
kt这个库不光可以优化deepseek，其他很多开源模型也在逐渐支持，但是它好像是不能同时装载ds和文本向量化模型的。
装载ds的时候可以看到kt把ds分割成60层，然后把推理的层挨个交给内存装载，而内存因为设定交互的原因（类似组raid硬盘）也可以将一层模组绑定在一条内存栈内（我是这么理解的，可能不对），然后用CPU去带动内存上的模型推理运算。剩下的只有一两层需要长上下文相关的模型放在了gpu上运算。
同im一样，可以分层装载模型的设定，只是im是可视化操作，kt是命令行操作，im没有指定CPU也要干推理的活，kt指定了，im可以可视化一键设置局域网内开放端口调用api，kt只能通过命令行实现局域网内开端口api调用功能。
明明这些可以做到集成可视化窗口的，偏偏做成了Linux下命令行的风格。要我说kt才是老黄家计算显卡的杀手，有了kt，制约大模型推理速度的不再是昂贵的计算显卡成本了，只剩下：内存够不够大，内存mbt频率够不够快，CPU速度够不够快，CPU线程带宽够不够快。我组个12条4800的ddr5 64g条总共也才2万，和一张4090差不多价，但是怎么都比a100便宜的多吧，

IP属地:北京

来自iPhone客户端9楼2025-03-08 07:48

收起回复

结论就是在win下性能不行？

IP属地:河南

来自Android客户端11楼2025-03-08 12:43

收起回复

多少钱

IP属地:江苏

来自Android客户端12楼2025-03-08 13:33

不知道顶配的 mac studio M3 ultra 能不能跑

IP属地:广东

来自iPhone客户端13楼2025-03-08 13:40

收起回复

七万都可以买m3u 512g了，15torkn已经可以用了

IP属地:广东

来自Android客户端14楼2025-03-08 20:03

收起回复

强，是我仰望的程度，插个眼

IP属地:江西

来自Android客户端15楼2025-03-10 00:48

win下的kt构架671b 4bit，上下文6000，10tps，
对比同型号配置的ubuntu下kt构架671b 4bit，上下文6000，速度是14tps。
win下严重缩水。

IP属地:北京

16楼2025-03-10 09:50

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 3 下一页尾页
76回复贴，共3页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

deepseek 671b 4bit 本地化实战

登录百度账号

扫二维码下载贴吧客户端