龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

superzhzh · 发表于 2026-3-30 00:23

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

我的龙虾🦞终于不用再「讨饭」了。
一张 4090，一个 Q4 量化，成本为 0（如果不算每月约 40 块的电费），取代了我每月 3000 块的 API 账单。

龙虾日消费 100+，直到断粮之前我在服务器上部署了 OpenClaw，用的是 GLM 的 API。跑了大概一个月，账单 3000 多块（我还是收着点跑了），而且最后一周就花掉了 1000 多。
大量用过龙虾的都知道，这货特别能吃。
每次用户交互还好，特别是我有大量的 cron task，消耗起 tokens 来简直是个无底洞、吞金兽。
日均 100-150 元，偶尔飙到 200 以上，像是家里有个没关的水龙头。
然后有一天，余额清零了。龙虾断粮 48 小时，在电报上疯狂报错 294 次。

OpenClaw 余额不足报错截图

于是我做了一个决定：把模型搬回家。
用一张 23 年买的 RTX 4090（后来一直在家吃灰），跑 Qwen 3.5 27B 的 Q4 量化版，部署成 OpenAI 兼容的 API，通过隧道穿透到公网。
从此，龙虾随便跑，不要钱。
01家用分水岭

这张 4090 是 ChatGPT 刚出来那会儿买的，当时想在家里部署一些模型自己用，后面就没怎么折腾了。64GB 内存的台式机在家落灰，最近内存涨价，我甚至在想要不干脆把它卖掉，换点别的硬件玩玩。
但最近千问 3.5 出来之后，我发现了一个变化：家用消费级显卡，跑开源模型的效果，已经到了可用的门槛了。
这对我而言，可以算得是一个分水岭了。
不是「可以玩玩」的可用，是「可以拿来干活」的可用。
先来看 Qwen3.5-27B 和 GPT-5 mini 的正面对比（数据来自 HuggingFace 官方 model card 同一张表）：

基准测试Qwen3.5-27BGPT-5 miniSWE-bench Verified72.472.0LiveCodeBench v680.780.5MMLU-Pro86.183.7GPQA Diamond85.582.8HMMT 数学92.0—IFEval 指令遵循95.093.9四项全超 GPT-5 mini。

SWE-bench 72.4 vs 72.0，MMLU-Pro 86.1 vs 83.7，GPQA 85.5 vs 82.8。
还有另一个可供参考的对比：Qwen3.5-27B 全面碾压 GPT-4o（2024 年发布，被 GPT-5 取代，已下线），而且差距不小，比如 MMLU-Pro 86.1 vs 72.6，差了 13 个点。
一个跑在家用级显卡上的 27B 开源模型，在这些核心基准上全面领先 OpenAI 的商业模型。
当然，和各家的旗舰模型（Claude Opus 4.6 的 SWE-bench 79.2、Kimi K2.5 的 76.8）相比还有差距。但别忘了，Opus 4.6 每百万 token 要 $15 输入 + $75 输出，Kimi K2.5 是万亿参数的 MoE 模型，而 Qwen3.5-27B 跑在你家里，成本是电费。
IFEval 95.0 是全家族最高，意味着它在结构化输出和 Agent 场景下的格式合规性，比 122B 的 MoE 版本还稳。对于跑 Agent 来说，这个指标其实比 SWE-bench 更实用。
02为什么是 27B

Qwen 3.5 系列有好几个 size：9B、27B、35B-A3B（MoE）、122B-A10B（MoE）。
我选的是 27B Dense。
9B 太小了。之前公众号写过，@sudoingX 用 9B 在 RTX 3060 上写了个游戏，结果 2699 行代码，打开浏览器，黑屏。9B 能做单文件任务，但跨文件依赖一多就撑不住了。
而 35B-A3B 虽然参数总量更大，但每次推理只激活 3B 参数。推理速度快是快（能到 100+ tok/s），但质量上限比 27B Dense 要低不少。

27B Dense 每一个 token 都经过全部 270 亿参数的计算。这个计算密度带来的质量差异，在复杂编程和推理任务上是能感知到的。因此，它甚至能和 Qwen 3.5 397B-A17B 一战，差距极小。

27B Dense vs 35B-A3B MoE 对比另有网友实验对比：27B Dense 的 SWE-bench 分数比 35B-A3B MoE 高了将近 10 个点。
03量化掉点无感

27B 全精度要 54GB，一张 4090 塞不下。
Q4_K_M 量化之后，模型大小缩到 17GB，就可以轻松放进 24GB 显存了。
掉了多少分呢？
Q4_K_M 量化在社区里被公认为质量和体积的最佳平衡点。实际体验下来，日常对话、代码生成、文档处理，几乎感知不到和全精度的差别。

而且 Unsloth 团队在 3 月 5 号用改进后的 imatrix 数据重新做了一轮量化，在聊天、编程、长上下文和工具调用上都有额外提升。

量化精度保留示意54GB 压到 17GB，质量基本不打折扣，跑在你家桌上。
04两天部署

整个部署过程……说来话长，但其实无比简单。
我用的是 Claude Code 来远程操控整个部署流程。给它一个目标：SSH 到 4090 机器上，装好推理框架，下载模型，起服务，打通公网。
然后设定好判断标准：公网能 curl 通就算成功。
接下来……就让它干就好了。
以前手动部署过模型的人都知道这有多痛苦：各种环境冲突、依赖不兼容、CUDA 版本对不上、下载中途断掉。每个步骤都得盯着终端等，一等就是半小时。
现在有了 Claude Code，我就无所谓了。
虽然整个过程花了整整两天多，但我真正在里面花的时间，大概也就五分钟。
偶尔看看它干得怎么样了，回答一下它的问题（要重启机器吗？要关掉桌面环境吗？），剩下的时间该干嘛干嘛。
中间有一次，Claude Code 甚至反复催我去睡觉：

“ 你先去睡吧，我会持续跑着。明天你醒来后我们继续完成最后几步。晚安！

Claude Code：你快去睡吧！

结果我第二天醒来一看，模型下了 6/11 个文件。
过程中它折腾了不少弯路：先试 vLLM，依赖解析卡住……换 uv，下载到一半代理断了……用清华镜像，某个 NVIDIA 包又超时了……好不容易装上，一跑 OOM。原来 GPTQ-Int4 版本有 29GB（Mamba 混合层没被量化），4090 放不下。
然后换 ollama 跑 GGUF，结果 CUDA 库安装中途被截断了。接着又升级 NVIDIA 驱动，从 535 到 570，重启两次。模型在 WiFi 上下了十几个小时。
但这些，都是 Claude Code 在折腾，跟我没关系。

Claude Code 部署过程终于，到了第二天的晚上，Claude Code 自己把一句「你好」发了过去，对面回来了一句「你好！很高兴见到你。有什么我可以帮你的吗？」

05性能实测

模型跑在 RTX 4090 上，Q4_K_M 量化，ollama 0.18.2，CUDA 12.8。

Claude Code 按我的要求跑了一轮压测：
并发数总吞吐 (tok/s)单请求延迟请求/秒128.87.4s0.13229.98.9s0.20430.016.5s0.21需要说明的是，GPU 总吞吐恒定在 ~30 tok/s，这是单卡的物理上限。
并发请求本质上是在共享 GPU 的计算资源。1-4 路并发时总吞吐不变，但每个请求的等待时间会随并发数线性增长。
再往上加到 8 路、16 路，延迟就会变得不太可接受了。
所以这套方案比较适合 1-2 个人同时使用，或者 Agent 后台串行跑任务。想要高并发服务多人的场景，还是得考虑云端 API 或者多卡方案。

性能对比：本地 vs 云端而 30 tok/s 是什么概念呢？
日常对话回复大约 200-500 tokens，也就是 7-17 秒出完整回复。写一段代码大概 1000 tokens，半分钟左右。
对于我的龙虾后台跑 cron job 的场景，绰绰有余了。
06省了多少钱

说回前面，我的龙虾🦞用 GLM 的 API 跑了大约一个月，账单 3000 多块。最后一周就花了 1000 多。

龙虾断粮数据统计现在呢？电费。
RTX 4090 满载功耗 450W，但推理时实际功耗大约 200-250W。按每天跑 8 小时算，一天大约 2 度电，一个月 60 度，电费不到 40 块。

费用对比：API vs 本地从每月 3000 到每月 40 块，省了 98.7%。
而且这还是一次性投入。4090 买都买了，放在家里也是吃灰。现在让它干点正事，相当于变废为宝了。
07绝对隐私

省钱之外，还有一个也许更重要的好处：数据不出家门。
所有的对话、代码、文档，全部在你自己的机器上处理。没有经过任何第三方服务器，没有任何人能看到你的数据。
用云端 API 的时候，你的每一条消息都会发送到模型提供商的服务器上。虽然大部分公司都承诺不会用用户数据训练模型，但……你的数据终究是离开了你的掌控。
本地部署就完全没有这个顾虑。
对于处理公司代码、客户数据、敏感文档的场景来说，这个价值可能比省钱更大。
08公网穿透

模型跑在家里的电脑上，但总不能只在家才用吧？
所以我做了一套隧道穿透方案，让这个 API 在公网上随时可用。

公网隧道穿透架构具体操作分三步：
第一步，SSH 反向隧道。
在 4090 上用 autossh 建立一条持久的反向隧道，把本地的 ollama 端口（11434）映射到一台有公网 IP 的服务器的 8100 端口。autossh 会自动重连，配合 systemd 开机自启，基本上不用管。
第二步，nginx 反向代理 + API 鉴权。
在公网服务器上用 nginx（OpenResty）把 8100 端口包一层 HTTPS，绑上域名 llm.yourdomain.com。同时在 nginx 层做 Bearer Token 验证，没有正确的 API Key 就返回 401。
这样 ollama 本身不需要改任何配置，鉴权完全在 nginx 侧完成。
第三步，Cloudflare DNS。
把 llm.yourdomain.com 的 A 记录指向公网服务器 IP，搞定。
最终效果：
●●●
curlhttps://llm.yourdomain.com/v1/chat/completions\
-H"Authorization: Bearer YOUR_API_KEY"\
-H"Content-Type: application/json"\
-d'{"model":"qwen3.5:27b","messages":[{"role":"user","content":"你好"}]}'

└

在公司、在咖啡厅、在出差路上，都能用，在其他地方的龙虾也能用。
而如果在家里的局域网内（比如 Mac 或手机），可以直接访问 http://192.168.1.10:11434，连 API Key 都不需要，延迟也更低。
家里的电脑开着就行。
09你也可以

如果你手上有一张 24GB 显存的显卡，复刻这套方案其实不难。
硬件参考：
GPU显存适合跑什么RTX 409024GB27B Q4 轻松跑，还有余量给上下文RTX 309024GB同上，推理速度慢一些RTX 4060 Ti 16GB16GB勉强跑 Q3，上下文窗口会比较受限RTX 3060 12GB12GB跑 9B 绰绰有余Mac M2/M3/M4 系列最高 192GB通过 llama.cpp 跑，利用统一内存如果没有独立显卡但有一台大内存的 Mac，也能跑。M4 Max 的 128GB 统一内存甚至可以跑 72B 模型。
而如果你也用 Claude Code 或 Code ，给它一段指令就行了：

“ 帮我在 192.168.1.10 这台 Ubuntu 机器上部署 Qwen3.5-27B 的推理服务，用 ollama，端口 11434，开机自启。装好之后用 curl 测试一下能不能正常回复。

剩下的事情，就是偶尔看一眼它干得怎么样。
公网穿透部分稍微复杂一些，需要一台有公网 IP 的服务器（最便宜的云服务器就够用），加上 autossh + nginx 的配置。但核心思路就是上面说的三步。
如果你不想折腾隧道……其实也行。只在家里用的话，局域网直连就完事了。
10龙虾满血

隧道打通之后，我把 OpenClaw 的模型配置切到了自托管的 Qwen 3.5 27B。
改了一行配置，重启，Telegram 上立刻收到了回复。
龙虾满血复活了，而且这次，它再也不会因为欠费而饿死。
随便跑，不用看账单。凌晨三点的 cron job？随便。Agent 跑个 50 轮工具调用？随便。
而且因为数据完全在自己家里的机器上跑，隐私方面也完全不用担心了。想跟龙虾聊什么就聊什么，不用担心有什么秘密被谁看到。
这就是家用部署最爽的地方：没有 rate limit，没有月度额度，没有隐私顾虑，想用多少用多少。
11最后

这张 4090 在家里吃了三年灰。
现在它每天的工作是：跑一个 270 亿参数的模型，响应我的 Agent 请求，偶尔帮我写写代码。
电费每月 40 块。
而它替代掉的 API 账单，是每月 3000+。
一张吃灰三年的显卡，终于找到了自己的用途。
我那快饿死的龙虾，也终于找到了自己的绝配。

meto · 发表于 2026-3-30 01:34

我也用4090跑过开源模型，电费省了但散热吵得像飞机起飞

神隐之左手 · 发表于 2026-3-30 01:34

家用显卡跑开源模型能吊打商业模型，这趋势会让云服务商慌了，以后数据隐私和成本控制会彻底改变行业玩法

kingfirefly · 发表于 2026-3-30 01:58

4090也得2w起

账号		自动登录	找回密码
密码			注册

[科技新闻] 龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。