deepseek吧 关注:116,761贴子:230,121

deepseek 671b 4bit 本地化实战

只看楼主收藏回复

硬件配置如图。花费74000人民币。
系统:win server 2022
模型装载:im studio
模型加载设定:上下文数值10000,可以满足一次性写2000-3000字文章的要求。
gpu卸载:默认2
CPU thread pool size:默认12
模型保存在内存打开
评估批处理大小默认512
专家默认数8
其他全部关闭
chat客户端:cherry studio(默认有很多助手提示词包括魅魔)
测试速度3.9-4tps
bios设置:smt关
512axm 关
nsp=1
win➕r 输入 MSConfig, 在引导中高级选项选处理器个数32。


IP属地:北京来自iPhone客户端1楼2025-03-07 14:33回复
    现在问题来了,win系统下安装kt构架,在编译到flash att这步卡住了,转圈一小时。不知道哪里出问题了。
    cuda tools安装的是12.4
    Python3.12
    torch2.6
    ---
    现在想安装Ubuntu lts,win下划了1t出来作为u系统的安装区,用rifus刻录好u盘Iso后,u盘引导可以出Ubuntu的安装logo,然后在进入选择硬盘的画面出来前就卡住了,键盘没有死机,但是就是啥东西都不出来。这下两条路都堵死了。


    IP属地:北京来自iPhone客户端2楼2025-03-07 14:42
    回复
      广告
      立即查看
      cpu核心为啥采用12。你这不是96核吗


      IP属地:河南来自iPhone客户端3楼2025-03-07 17:39
      收起回复
        用qwq 32b啊


        IP属地:江苏来自Android客户端4楼2025-03-07 18:43
        收起回复
          个人觉得deepseek写长篇还是挺智障的


          IP属地:浙江5楼2025-03-07 20:03
          回复
            可以用量化版本。参数设置cpu没发挥出来。


            IP属地:重庆来自Android客户端6楼2025-03-07 21:44
            回复
              你这个配置跑kt肯定没问题。多试试


              IP属地:重庆来自Android客户端7楼2025-03-07 21:45
              收起回复
                来总结今晚的战报了。哎,没有花钱的不是。小黄鱼上氪了380多找了个大佬。
                大佬给出的方案是,win系统下bug太多很难跑的通,于是虚拟了个Ubuntu,一切都在虚拟机下搞定,就这么简单。擦~
                ktransformers编译完全后。
                conda activate kt
                #激活一下kt
                export HF_ENDPOINT="https://hf-mirror.com"
                PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True ktransformers \
                --model_path deepseek-ai/DeepSeek-R1 \
                --gguf_path /home/dministrator/models/DeepSeek-R1-Q4_K_M \
                --max_new_tokens 8192 \
                --cpu_infer 92 \
                --cache_q4 true \
                --force_think \
                --temperature 0.6 \
                --top_p 0.95 \
                --host 127.0.0.1 \
                --port 6006
                #设置kt拉取deepseek r1 671b 4bit模型,然后就是上下文数默认32k,一次性最大生成tokens数8192tokens,推理使用cpu核心数92,开启深度思考,开启本地127.0.0.1:6000端口的api调用
                这就完事了,接着随便用什么chat客户端里找类似openai的api调用,复制上面的ip端口/v1 ,秘钥随便写,这就搞定了。如果调用不了,那就看看本地的接入防火墙端口是不是没打开6000的端口。
                测试下来,速度在6-7tps。。。在win下基本算是能用了


                IP属地:北京8楼2025-03-08 03:23
                收起回复
                  广告
                  立即查看
                  ktransformers到底是个啥,有些人说是优化工具有些人说框架,都对。个人的感觉是这就是个类似ollama,lm的模型装载库。
                  kt这个库不光可以优化deepseek,其他很多开源模型也在逐渐支持,但是它好像是不能同时装载ds和文本向量化模型的。
                  装载ds的时候可以看到kt把ds分割成60层,然后把推理的层挨个交给内存装载,而内存因为设定交互的原因(类似组raid硬盘)也可以将一层模组绑定在一条内存栈内(我是这么理解的,可能不对),然后用CPU去带动内存上的模型推理运算。剩下的只有一两层需要长上下文相关的模型放在了gpu上运算。
                  同im一样,可以分层装载模型的设定,只是im是可视化操作,kt是命令行操作,im没有指定CPU也要干推理的活,kt指定了,im可以可视化一键设置局域网内开放端口调用api,kt只能通过命令行实现局域网内开端口api调用功能。
                  明明这些可以做到集成可视化窗口的,偏偏做成了Linux下命令行的风格。要我说kt才是老黄家计算显卡的杀手,有了kt,制约大模型推理速度的不再是昂贵的计算显卡成本了,只剩下:内存够不够大,内存mbt频率够不够快,CPU速度够不够快,CPU线程带宽够不够快。我组个12条4800的ddr5 64g条总共也才2万,和一张4090差不多价,但是怎么都比a100便宜的多吧,


                  IP属地:北京来自iPhone客户端9楼2025-03-08 07:48
                  收起回复
                    结论就是在win下性能不行?


                    IP属地:河南来自Android客户端11楼2025-03-08 12:43
                    收起回复
                      多少钱


                      IP属地:江苏来自Android客户端12楼2025-03-08 13:33
                      回复
                        不知道顶配的 mac studio M3 ultra 能不能跑


                        IP属地:广东来自iPhone客户端13楼2025-03-08 13:40
                        收起回复
                          七万都可以买m3u 512g了,15torkn已经可以用了


                          IP属地:广东来自Android客户端14楼2025-03-08 20:03
                          收起回复
                            强,是我仰望的程度,插个眼


                            IP属地:江西来自Android客户端15楼2025-03-10 00:48
                            回复
                              广告
                              立即查看

                              win下的kt构架671b 4bit,上下文6000,10tps,
                              对比同型号配置的ubuntu下kt构架671b 4bit,上下文6000,速度是14tps。
                              win下严重缩水。


                              IP属地:北京16楼2025-03-10 09:50
                              回复