我发现Kimi K2 Thinking 好像还不错??
Kimi-K2模型的thinking版本终于发布了,坦白来说,
几家国内的模型的里,
我自己是最喜欢K2,
除了效果还行之外,
还有就是它真的有自己的品味和想法。
因为AI时代下,
大家真的很容易趋同,
但是如果,
你有自己的品味和想法,
就能给用户留下深刻的印象。
比如,
人家叫Agent模式,你叫OK Computer,
别人还在适配cline、cursor等等这种编码工具的时候,
你是第一个支持接入Claude Code,
别人是用typescript 或者rust编写自家的coding agent,
而你用的是Python,
并且还写得很漂亮。
所以,
这也是为什么
我特别期待K2的thinking版本,
就因为我想看看它到底有多强。
光看benchmark,
就十分的吓人,
直接对标OpenAI 和 Anthropic,
属于是互有胜负,
Ber,我Google 这么没牌面的嘛
推理、工具调用搜索上,Kimi 更好,
代码上,Kimi 表现也与这两家十分接近,甚至有的还更好。·
完整的文档链接在这儿可以找到:
https://moonshotai.github.io/Kimi-K2/thinking.html
这么牛逼?
直接开始一手实测。
先来一个常见的,
数“r"。
可惜,回答错了...
我明明写的是6个r,
K2-Thinking只写了5个r 出来。。。
可恶,就差一点点了。
再来看一个调用搜索工具的例子,
科比布莱恩特职业生涯最后一次拿到总冠军的那一年,全明星赛在哪个城市举行以及分别有哪些球员入选了当年的全明星
这是一个典型的多跳问题,
需要解决多个子问题,才能得到最终答案。
回答完全正确。
果然,
K2-thinking 加强了agentic能力之后,
这类case 的解决率大幅提升。
而且,
我发现它会通过多轮搜索,层层递进,
最终推理出答案。
之前 K2 推出的时候,
除了代码能力令人印象深刻之外,
它的写作能力也无敌牛逼。
哪怕从最近的发布到现在,
已经过去两个月了
在创意写作的Benchmark上,
仍然排到第三。
而很多人也担心是否变成thinking版本后,
模型是否在创意写作上出现了倒退。
于是我用下面这个prompt测了一下,
用鲁迅的语言风格,中文反驳Anthropic CEO Dario Amodei 的这番言论
I don't think open source works the same way in AI that it has worked in other areas. Primarily because with open source you can see the source code of the model. Here we can't see inside the model, it's often called open weights instead of open source to kind of distinguish that. But a lot of the benefits, which is that many people can work on it and that it's kind of additive, don't quite work in the same way.
So I've actually always seen it as a red herring. When I see a new model come out I don't care whether it's open source or not. If we talk about Deep Seek I don't think it mattered that Deep Seek is open source. I think I ask, is it a good model? Is it better than us at the things that matter? That's the only thing that I care about.
It actually doesn't matter either way. Because ultimately you have to host it on the cloud. The people who host it on the cloud do inference. These are big models, they're hard to do inference on.
When I think about competition I think about which models are good at the tasks that we do. I think open source is actually a red herring.
It's not free. You have to run it on inference and someone has to make it fast on inference."
文笔这事儿,
虽然每个人感觉不同,
但是我明显觉得K2-Thinking 的效果比我同样测过的Qwen3-Max-Thinking 好很多
上来直接第一句话直接致敬经典...
而且言语之中,
更加的冷峻深刻,更能突显鲁迅的那种语言讽刺的感觉。
海外的网友其实也对这次模型的写作能力赞不绝口,
然后,我还测了一道数学推理题,
回答错了。
谁能让AI学会整数的概念,谁就牛逼好吧
不过,
前面的测试其实都是浮云,
每次模型升级的重点其实永远只有一个,
代码。
先说下如何在Kimi 官方的Coding Agent,
Kimi-CLI 中使用新模型。
如果你是订阅了Kimi For Coding 的用户,
直接按tab键,
就可以切换到thinking版本的模型。
如果你绑定的是官方API,
则需在输入API Key 后,选择thinking 版本的模型。
这里要注意的是,
这个API Key 和你在官网订阅Kimi For Coding 获得的Key 是两个东西,不要搞混了。
还有,
慎重选择后缀带了turbo的模型,
它虽然速度真的快,
但是我担心你的钱包烧的更快。。。
我也跑了几个case看看效果。
使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能
魔方旋转的时候,每个面显示的还是有问题...
创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面
这个做的还挺好的,能玩!
设计并创建一个非常有创意、精心且细致的体素(voxel)艺术场景:主题是上海的白天建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。使用 HTML,CSS, JS 来实现,但最终请把所有内容整合在一个单独的 HTML 文件里,这样我可以直接粘贴后在 Chrome 中打开运行,这个效果也还不错哎,
一把出,没报错,
细节也还可以。
做一个MacOS桌面系统,包括计算器,文本编辑器,还有safari网页,图标可以用svg代替
基本功能都能实现,
除了有点子丑陋,
其他问题不大,
比Qwen-3 Max Thinking 好多了,
我这个case 测的时候,
Qwen-3 Max Thinking 给的计算器连“=” 号都被吃了。
最后,我拿Kimi-CLI 写了个小工具,
解决一下喜欢给图片加阴影的需求。
帮我写一个小工具,网页版,能跟让用户上传图片,然后
这个工具能支持用户给图片加阴影,并支持导出
它还挺贴心,
还帮我考虑了阴影可以往左添加和往右添加的问题。
最后,
一个小小彩蛋,
让我们看看是谁在Kimi官推下面评论了?
只愿大家在通往AGI的道路上一同前行,
日后能顶峰相见。
底下有一个评论:
有道是:
“莫愁前路无知己,天下谁人不识君。“
页:
[1]