夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 63|回复: 1

[科技新闻] 把我的74G基因数据塞进Mac,AI发现了什么?

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2026-6-21 19:03 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
段誉往 Mac mini 上摞了两个风扇。三天三夜没关。74GB 的 FASTQ 文件从华大服务器上一个字节一个字节拖下来,Claude 做的 planning,Codex 跑执行,比对 47GB 的基因词典。最后压缩出一个 172 兆的 VCF 文件——461 万处,只属于他一个人的变异。他把不敏感的那部分数据放到了网上,建了个网站叫 geneduanzhang.com。谁都可以去看。
段誉是脑放电波的老朋友。第四次上节目,每次身份都不一样——这次是「生物骇客」。他投运动健康项目,一周三次 HIIT 能完赛。这一期,他聊的是怎么花不到一万块钱,把 30 亿个碱基对全测了,然后在本地用 AI 跑出分析。
本章文章约 3000 字,可先参考目录,也是我们的播客节目文字稿,可以收听节目获取更多信息:
长按扫码收听节目
1.webp



一、瑞典老哥在厨房测序,段誉的厨房放不下那台仪器
二、同一个吐口水的盒子,价格差 30 倍
三、维权邮件抄送董秘,拿到了 74GB
四、三天三夜,Mac mini 跑完一个人
五、461 万处不一样,定义了「我」
六、胰腺排第一,脂肪肝排第一
七、你爱喝酒,你的基因也爱——但身体扛不住


段誉:
最开始我是在 Substack 上看到一个瑞典老哥。他在自己厨房里面用纳米孔的测序仪,把自己完整的基因组测了。测完之后又用一个 Mac mini,分析了自己完整的基因组,甚至把家里人都测了一遍,看遗传疾病有什么指征。这个事在硅谷非常火。

Nixon:
它是很大的一个仪器,是吧?

段誉:
差不多我们桌面这么大。我就直接问 Claude 有没有替代方案。Claude 说国内华大、微基因这些厂商,大概几千块人民币就可以把完整的个人基因组数据拿到,叫 WGS——全基因组测序。现在官方的话,我查了一下是 6999。

Nixon:
十年前看美剧,23andMe 给字幕组贴片广告,主打了解你是不是易胖体质、祖先里有没有蒙古人。这个和现在做的基因测序有什么区别呢?

段誉:
完全不是一回事。微基因、23 魔方那种是基因卡——几百到一千块,只测两三百个网红点位,告诉你这个点位 Yes or No。WGS 是 30 亿个碱基对全覆盖。同一个点位测 40 多次,每次独立投票。我测下来是四十六点几倍的深度。

托马斯白:
这种基因卡我做过。寄一个试剂盒过来,舌头底下划拉几下,放到采集管里寄回去,就能告诉你喝不喝得了酒、容不容易胖。

段誉:
WGS 的盒子和基因卡一样大。也是吐四五口唾沫进一个小试管,封上,扫码,顺丰取走。前段一模一样。区别在于寄走之后——基因卡两三天出报告,WGS 大概 10 天。华大会给你一份 300 多页的报告。最长的部分是药物敏感性——几百种药,他汀类、什么类,你的基因对它耐受还是加倍剂量还是完全不能用。可以做成一张个人药物卡片给医生看,非常有价值。但我买的时候就跟客服谈好了——你给我原始数据。客服说没问题,录了邮箱、身份证、电话,就没下文了。

Nixon:
你为什么非得要原始数据?300 多页感觉也挺全了。

段誉:
以后人类对基因有任何新认知,我自己在电脑上跑一下就行。300 页报告是一次性消费——今天告诉你这 300 页的内容,明年科学有新发现了,跟你没关系了。但原始数据存在自己电脑里,每出一个新研究,丢给模型跑一次,永远可以复用。这是一个复利非常高的事情。

托马斯白:
那后来怎么拿到的?

段誉:
打了三次电话,实在没耐心了。让 Claude 给我写了封维权邮件——律师函那个语气。它还想到一个点,抄送投资者关系部,抄送董秘邮箱。发过去第二天就有人主动打电话过来。后来一个 QQ 邮箱给我发了 PDF、账号、密码。用一套专用的数据传输软件,Windows 上是图形界面,Mac 上是纯命令行,DOS 那种黑框。连上华大服务器,直接拖下来。74GB 一个文件。

托马斯白:
就像一部 8K 电影。

段誉:
传了两三个小时。格式是 FASTQ——基因测序最通用的格式。感觉他们干这么久业务,也就遇到我一个人非得要原始数据。

段誉:
数据拿到之后,我让 Claude 用 planning 模式。先告诉它目的——华大 WGS 数据,FASTQ 格式,你告诉我该怎么办,有哪几步,每一步大概多少小时,画张图出来。把耗时长的甩到晚上跑,需要交互的放在早上问我。

托马斯白:
所以你用哪个 AI 软件下任务?

段誉:
Claude 做 planning,生成 sh 文件,甩给 Codex 跑。从下载数据开始就在 Codex 一个窗口里。Mac mini 加了两个风扇,跑了三天。中间步骤非常多,大概七八步。每一步要生成自己对应的环境,安装不同插件。

托马斯白:
它背后用什么机制读文件?

段誉:
FASTQ 相当于一大堆碎片小纸条,每个纸条上只有几百个字节。把它们重新对照一个标准基因组,一张一张贴回原位。每个点位它做一次投票——如果测了 46 次,39 次指向 A,1 次指向 G,那 G 就是错的,判定为 A。把碎片还原成一本书的整个过程,花了差不多一晚上。

托马斯白:
它用的是本地模型吗?

段誉:
本地的,Mac mini 用 CPU 在跑。中间有好几步如果用 NVIDIA 的卡会加速很多,学术界应该用 Windows 加 NVIDIA 是主流。但 Mac 上确实只有 CPU 方案。哗哗的风扇吹了三天。

Nixon:
所以文件那么大,相当于是 30 亿个数值,再乘以 46 倍的测序深度。

段誉:
对。最后压缩出来是一个 VCF 文件——172 兆。461 万处跟标准基因不一样。

托马斯白:
之前是 30 亿。那大部分 29 亿 9000 多万是大家都一样的。

段誉:
461 万处。这个就定义了我是我。

Nixon:
从小就知道人和大猩猩的基因 99% 相似,人和人之间 99% 一样。但真的一个 172 兆的文件摆在面前,告诉你这就是你之所以是你——跟看科普文章完全不是一种感受。

段誉:
存到电脑里你就知道,我就是因为这 172 兆。

有了 VCF 之后,还需要一个词典。叫 dbNSFP,47 个 GB,比原始基因组还大。全世界科学家用不同的库研究不同基因变异——良性的、有害的、为什么有害。每个人 publish 很多点位,不同库、不同数据源,全部整合在一起。相当于基因界的维基百科。
段誉:
拿着 172 兆的个人数据去比对 47GB 的词典,十几分钟就解读完了。出来就是一个列表——我的位置、参考是什么、变异是什么、它的 implication 是什么。

他还跑了一个更深的东西——AlphaGenome。AlphaFold 大家都知道,DeepMind 做的蛋白质结构预测。AlphaGenome 是同类思路,专门预测那些不编码蛋白质的区域。人类 90% 的基因不翻译成蛋白质,原来被称为垃圾 DNA。但现在知道这些区域里有起始子、终止子——决定了什么时候开始转录、什么时候停止。如果开关出问题,影响不比编码区小。
托马斯白:
那这部分华大基因没有给你解读。

段誉:
AlphaGenome 跑完之后,在所有变异里面,我的胰腺表达变异程度是最高的。

托马斯白:
怎么理解?

段誉:
我最近糖耐受确实有受损。maybe 胰岛素分泌不太够。它有五六十个跟胰腺相关的变异,在非编码区里表达最集中的就是这一块。

还有一个直接印证的。脂肪肝高风险基因,我是纯合的——风险最高的那一档。我确实有轻度脂肪肝。
托马斯白:
段誉一周三次 HIIT,能完赛。运动习惯极好。在这样的情况下——仍然有轻度脂肪肝。

Nixon:
我过去几年也有,但去年训练加稍微调整饮食,今年就没了。所以我和段誉在脂肪肝这件事上的基线显然不一样。

托马斯白:
很多健康指标有一个 range。激素水平从 16 到 32 都是正常的,为什么有人 16 有人 32?可能就是某一段基因表达的区别,导致了基准数值不一样。包括 HRV 的基线——有人 140,有人三四十,差距这么大就会焦虑。但科学上一直强调看的是你在基线上的波动。这个基线很可能是你外力改变不了的。你的基因表达就这样了,这个数值对你就是正常的。

也许那个看起来不太健康的糖耐指标,恰恰对你就是健康的。
Nixon:
除了这些表达之外,你觉得这次解读出来的数据对你后续生活还有哪些影响?

段誉:
挺好玩的。喝酒容不容易脸红,大家都知道是乙醛脱氢酶有没有翻译。还有一个酒精成瘾,专门有一个基因来调控的。我是酒精耐受程度比较高、酒精成瘾程度也比较高的基因表达。我喜欢精酿,确实有影响。

但反过来,我戴 WHOOP 戴了四五年。每一次喝酒,第二天基本上都是红的。HRV 冲击巨大。就是你可能酒精耐受程度高,酒精容易上瘾——但不代表你的身体对酒精没有反应。三个完全不同的维度。

本文基于音频节目撰写,也欢迎收听音频节目,获得更多信息。
  • 打卡等级:已臻大成
  • 打卡总天数:541
发表于 2026-6-22 10:06 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版| 手机版| 小黑屋| RSS| 举报不良信息| 精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-6-23 01:50 , Processed in 0.249624 second(s), 5 queries , Gzip On, Redis On.

Powered by VC52.CN

快速回复 返回顶部 返回列表