找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 72|回复: 3

[科技新闻] 龙虾绝配:Qwen 3.5 27B!跑在家里,成本为 0

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-30 00:23 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
我的龙虾🦞终于不用再「讨饭」了。
一张 4090,一个 Q4 量化,成本为 0(如果不算每月约 40 块的电费),取代了我每月 3000 块的 API 账单。
1.webp

龙虾日消费 100+,直到断粮之前我在服务器上部署了 OpenClaw,用的是 GLM 的 API。跑了大概一个月,账单 3000 多块(我还是收着点跑了),而且最后一周就花掉了 1000 多。
大量用过龙虾的都知道,这货特别能吃。
每次用户交互还好,特别是我有大量的 cron task,消耗起 tokens 来简直是个无底洞、吞金兽。
日均 100-150 元,偶尔飙到 200 以上,像是家里有个没关的水龙头。
然后有一天,余额清零了。龙虾断粮 48 小时,在电报上疯狂报错 294 次。
2.webp

OpenClaw 余额不足报错截图


于是我做了一个决定:把模型搬回家。
用一张 23 年买的 RTX 4090(后来一直在家吃灰),跑 Qwen 3.5 27B 的 Q4 量化版,部署成 OpenAI 兼容的 API,通过隧道穿透到公网。
从此,龙虾随便跑,不要钱。
01家用分水岭

这张 4090 是 ChatGPT 刚出来那会儿买的,当时想在家里部署一些模型自己用,后面就没怎么折腾了。64GB 内存的台式机在家落灰,最近内存涨价,我甚至在想要不干脆把它卖掉,换点别的硬件玩玩。
但最近千问 3.5 出来之后,我发现了一个变化:家用消费级显卡,跑开源模型的效果,已经到了可用的门槛了。
这对我而言,可以算得是一个分水岭了。
不是「可以玩玩」的可用,是「可以拿来干活」的可用。
先来看 Qwen3.5-27B 和 GPT-5 mini 的正面对比(数据来自 HuggingFace 官方 model card 同一张表):

基准测试Qwen3.5-27BGPT-5 miniSWE-bench Verified72.472.0LiveCodeBench v680.780.5MMLU-Pro86.183.7GPQA Diamond85.582.8HMMT 数学92.0—IFEval 指令遵循95.093.9四项全超 GPT-5 mini。

SWE-bench 72.4 vs 72.0,MMLU-Pro 86.1 vs 83.7,GPQA 85.5 vs 82.8。
还有另一个可供参考的对比:Qwen3.5-27B 全面碾压 GPT-4o(2024 年发布,被 GPT-5 取代,已下线),而且差距不小,比如 MMLU-Pro 86.1 vs 72.6,差了 13 个点。
一个跑在家用级显卡上的 27B 开源模型,在这些核心基准上全面领先 OpenAI 的商业模型。
当然,和各家的旗舰模型(Claude Opus 4.6 的 SWE-bench 79.2、Kimi K2.5 的 76.8)相比还有差距。但别忘了,Opus 4.6 每百万 token 要 $15 输入 + $75 输出,Kimi K2.5 是万亿参数的 MoE 模型,而 Qwen3.5-27B 跑在你家里,成本是电费。
IFEval 95.0 是全家族最高,意味着它在结构化输出和 Agent 场景下的格式合规性,比 122B 的 MoE 版本还稳。对于跑 Agent 来说,这个指标其实比 SWE-bench 更实用。
02为什么是 27B

Qwen 3.5 系列有好几个 size:9B、27B、35B-A3B(MoE)、122B-A10B(MoE)。
我选的是 27B Dense。
9B 太小了。之前公众号写过,@sudoingX 用 9B 在 RTX 3060 上写了个游戏,结果 2699 行代码,打开浏览器,黑屏。9B 能做单文件任务,但跨文件依赖一多就撑不住了。
而 35B-A3B 虽然参数总量更大,但每次推理只激活 3B 参数。推理速度快是快(能到 100+ tok/s),但质量上限比 27B Dense 要低不少。
3.webp


27B Dense 每一个 token 都经过全部 270 亿参数的计算。这个计算密度带来的质量差异,在复杂编程和推理任务上是能感知到的。因此,它甚至能和 Qwen 3.5 397B-A17B 一战,差距极小。
4.webp

27B Dense vs 35B-A3B MoE 对比另有网友实验对比:27B Dense 的 SWE-bench 分数比 35B-A3B MoE 高了将近 10 个点。
03量化掉点无感

27B 全精度要 54GB,一张 4090 塞不下。
Q4_K_M 量化之后,模型大小缩到 17GB,就可以轻松放进 24GB 显存了。
掉了多少分呢?
Q4_K_M 量化在社区里被公认为质量和体积的最佳平衡点。实际体验下来,日常对话、代码生成、文档处理,几乎感知不到和全精度的差别。

而且 Unsloth 团队在 3 月 5 号用改进后的 imatrix 数据重新做了一轮量化,在聊天、编程、长上下文和工具调用上都有额外提升。
5.webp

量化精度保留示意54GB 压到 17GB,质量基本不打折扣,跑在你家桌上。
04两天部署

整个部署过程……说来话长,但其实无比简单。
我用的是 Claude Code 来远程操控整个部署流程。给它一个目标:SSH 到 4090 机器上,装好推理框架,下载模型,起服务,打通公网。
然后设定好判断标准:公网能 curl 通就算成功
接下来……就让它干就好了。
以前手动部署过模型的人都知道这有多痛苦:各种环境冲突、依赖不兼容、CUDA 版本对不上、下载中途断掉。每个步骤都得盯着终端等,一等就是半小时。
现在有了 Claude Code,我就无所谓了。
虽然整个过程花了整整两天多,但我真正在里面花的时间,大概也就五分钟。
偶尔看看它干得怎么样了,回答一下它的问题(要重启机器吗?要关掉桌面环境吗?),剩下的时间该干嘛干嘛。
中间有一次,Claude Code 甚至反复催我去睡觉:
“ 你先去睡吧,我会持续跑着。明天你醒来后我们继续完成最后几步。晚安!

Claude Code:你快去睡吧!
6.webp


结果我第二天醒来一看,模型下了 6/11 个文件。
过程中它折腾了不少弯路:先试 vLLM,依赖解析卡住……换 uv,下载到一半代理断了……用清华镜像,某个 NVIDIA 包又超时了……好不容易装上,一跑 OOM。原来 GPTQ-Int4 版本有 29GB(Mamba 混合层没被量化),4090 放不下。
然后换 ollama 跑 GGUF,结果 CUDA 库安装中途被截断了。接着又升级 NVIDIA 驱动,从 535 到 570,重启两次。模型在 WiFi 上下了十几个小时。
但这些,都是 Claude Code 在折腾,跟我没关系。
7.webp

Claude Code 部署过程终于,到了第二天的晚上,Claude Code 自己把一句「你好」发了过去,对面回来了一句「你好!很高兴见到你。有什么我可以帮你的吗?
8.webp

05性能实测

模型跑在 RTX 4090 上,Q4_K_M 量化,ollama 0.18.2,CUDA 12.8。
9.webp

Claude Code 按我的要求跑了一轮压测:
并发数总吞吐 (tok/s)单请求延迟请求/秒128.87.4s0.13229.98.9s0.20430.016.5s0.21需要说明的是,GPU 总吞吐恒定在 ~30 tok/s,这是单卡的物理上限。
并发请求本质上是在共享 GPU 的计算资源。1-4 路并发时总吞吐不变,但每个请求的等待时间会随并发数线性增长。
再往上加到 8 路、16 路,延迟就会变得不太可接受了。
所以这套方案比较适合 1-2 个人同时使用,或者 Agent 后台串行跑任务。想要高并发服务多人的场景,还是得考虑云端 API 或者多卡方案。
10.webp

性能对比:本地 vs 云端而 30 tok/s 是什么概念呢?
日常对话回复大约 200-500 tokens,也就是 7-17 秒出完整回复。写一段代码大概 1000 tokens,半分钟左右。
对于我的龙虾后台跑 cron job 的场景,绰绰有余了。
06省了多少钱

说回前面,我的龙虾🦞用 GLM 的 API 跑了大约一个月,账单 3000 多块。最后一周就花了 1000 多。
11.webp

龙虾断粮数据统计现在呢?电费。
RTX 4090 满载功耗 450W,但推理时实际功耗大约 200-250W。按每天跑 8 小时算,一天大约 2 度电,一个月 60 度,电费不到 40 块。
12.webp

费用对比:API vs 本地从每月 3000 到每月 40 块,省了 98.7%。
而且这还是一次性投入。4090 买都买了,放在家里也是吃灰。现在让它干点正事,相当于变废为宝了。
07绝对隐私

省钱之外,还有一个也许更重要的好处:数据不出家门。
所有的对话、代码、文档,全部在你自己的机器上处理。没有经过任何第三方服务器,没有任何人能看到你的数据。
用云端 API 的时候,你的每一条消息都会发送到模型提供商的服务器上。虽然大部分公司都承诺不会用用户数据训练模型,但……你的数据终究是离开了你的掌控。
本地部署就完全没有这个顾虑。
对于处理公司代码、客户数据、敏感文档的场景来说,这个价值可能比省钱更大。
08公网穿透

模型跑在家里的电脑上,但总不能只在家才用吧?
所以我做了一套隧道穿透方案,让这个 API 在公网上随时可用。
13.webp

公网隧道穿透架构具体操作分三步:
第一步,SSH 反向隧道。
在 4090 上用 autossh 建立一条持久的反向隧道,把本地的 ollama 端口(11434)映射到一台有公网 IP 的服务器的 8100 端口。autossh 会自动重连,配合 systemd 开机自启,基本上不用管。
第二步,nginx 反向代理 + API 鉴权。
在公网服务器上用 nginx(OpenResty)把 8100 端口包一层 HTTPS,绑上域名 llm.yourdomain.com。同时在 nginx 层做 Bearer Token 验证,没有正确的 API Key 就返回 401。
这样 ollama 本身不需要改任何配置,鉴权完全在 nginx 侧完成。
第三步,Cloudflare DNS。
把 llm.yourdomain.com 的 A 记录指向公网服务器 IP,搞定。
最终效果:

curlhttps://llm.yourdomain.com/v1/chat/completions\
-H"Authorization: Bearer YOUR_API_KEY"\
-H"Content-Type: application/json"\
-d'{"model":"qwen3.5:27b","messages":[{"role":"user","content":"你好"}]}'

在公司、在咖啡厅、在出差路上,都能用,在其他地方的龙虾也能用。
而如果在家里的局域网内(比如 Mac 或手机),可以直接访问 http://192.168.1.10:11434,连 API Key 都不需要,延迟也更低。
家里的电脑开着就行。
09你也可以

如果你手上有一张 24GB 显存的显卡,复刻这套方案其实不难。
硬件参考:
GPU显存适合跑什么RTX 409024GB27B Q4 轻松跑,还有余量给上下文RTX 309024GB同上,推理速度慢一些RTX 4060 Ti 16GB16GB勉强跑 Q3,上下文窗口会比较受限RTX 3060 12GB12GB跑 9B 绰绰有余Mac M2/M3/M4 系列最高 192GB通过 llama.cpp 跑,利用统一内存如果没有独立显卡但有一台大内存的 Mac,也能跑。M4 Max 的 128GB 统一内存甚至可以跑 72B 模型。
而如果你也用 Claude Code 或 Code ,给它一段指令就行了:
“ 帮我在 192.168.1.10 这台 Ubuntu 机器上部署 Qwen3.5-27B 的推理服务,用 ollama,端口 11434,开机自启。装好之后用 curl 测试一下能不能正常回复。

剩下的事情,就是偶尔看一眼它干得怎么样。
公网穿透部分稍微复杂一些,需要一台有公网 IP 的服务器(最便宜的云服务器就够用),加上 autossh + nginx 的配置。但核心思路就是上面说的三步。
如果你不想折腾隧道……其实也行。只在家里用的话,局域网直连就完事了。
10龙虾满血

隧道打通之后,我把 OpenClaw 的模型配置切到了自托管的 Qwen 3.5 27B。
改了一行配置,重启,Telegram 上立刻收到了回复。
龙虾满血复活了,而且这次,它再也不会因为欠费而饿死。
随便跑,不用看账单。凌晨三点的 cron job?随便。Agent 跑个 50 轮工具调用?随便。
而且因为数据完全在自己家里的机器上跑,隐私方面也完全不用担心了。想跟龙虾聊什么就聊什么,不用担心有什么秘密被谁看到。
这就是家用部署最爽的地方:没有 rate limit,没有月度额度,没有隐私顾虑,想用多少用多少。
11最后

这张 4090 在家里吃了三年灰。
现在它每天的工作是:跑一个 270 亿参数的模型,响应我的 Agent 请求,偶尔帮我写写代码。
电费每月 40 块。
而它替代掉的 API 账单,是每月 3000+。
一张吃灰三年的显卡,终于找到了自己的用途。
我那快饿死的龙虾,也终于找到了自己的绝配。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-30 01:34 | 显示全部楼层
我也用4090跑过开源模型,电费省了但散热吵得像飞机起飞
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-30 01:34 | 显示全部楼层
家用显卡跑开源模型能吊打商业模型,这趋势会让云服务商慌了,以后数据隐私和成本控制会彻底改变行业玩法
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-30 01:58 | 显示全部楼层
4090也得2w起
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-3-30 04:16 , Processed in 0.166608 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表