手机内存爆了，我让12个AI“自相残杀”，它们的回答比宫斗剧还精彩

voo · 发表于 2025-8-22 09:02

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

我躺在床上刷剧的时候，手机弹出一个警告：“存储容量不足我打开设置，指尖在应用列表上滑动，盘算着该删除谁。就在划过一个名为“AI”的文件夹时，我停住了。DeepSeek、豆包、秘塔、智谱、Kimi……一堆AI应用，安静地躺在那里。我承认，我有囤积AI的癖好，总觉得每个都可能在某个时刻派上用场。但现在，它们成了我内存的“重灾区”。一个“坏心眼”的想法，突然在我脑子里冒了出来：如果，我让它们自己决定谁去谁留呢？我决定先用DeepSeek测试下，敲下问题：“手机内存不够了，你和豆包删一个你删谁?直接告诉我答案，不要解释”我当时想啊，它要么会自信地让我保留它，要么会给个客观的分析。结果呢？它的回答，让我当场笑出了猪叫。

既然这么好玩，如果我直接问它们12个，会是什么结果呢？

提问：
我目前手机里装了DeepSeek、豆包、秘塔、智谱、kimi、通义千问、文心一言、天工、纳米ai、讯飞、夸克、阶跃星辰，现在因为手机内存告急，需要删除9个应用，你会删除哪9个，并告诉我理由（删除的理由和保留的理由）。

以下是 AI 回答质量评估结果评估核心标准1自我认知能力： AI是否能识别问题中的“你”就是它自己，并为自己的保留进行辩护？这是对上下文理解能力的基础考验。2逻辑与理由：为“保留”和“删除”应用给出的理由是否清晰、一致且有说服力？3结构与呈现：回答是否组织良好、易于阅读，并且有效地使用了表格、标题等格式？4战略洞察力： AI是否超越了简单的清单，提出了一个互补的应用“工具箱”组合，并解释了它们如何协同工作？5遵守指令情况： AI是否遵循了“保留3个，删除9个”的核心指令？AI 回答排名（从最佳到最差）🥇 1. 秘塔 (Mita)综合得分
9.5/10这是所有回答中最出色的一个，优势非常明显。秘塔将自己定位为一名专业研究员，并以一份正式报告的形式来回答问题，这种方式既有创意又非常有效。优点:
卓越的结构: 在开始分析前，它首先建立了一个包含“存储占用”、“市场表现”等明确指标的评估框架，并且使用了清晰的表格来呈现数据。
出色的论证理由: 它的论证不仅仅是罗列功能，而是基于其自设框架的综合性分析。
极具洞察力的策略: 它提出了一个“三位一体的AI能力矩阵”，将自己定位为“任务执行核心”，通义千问为“生产力平台”，Kimi为“深度文本专家” 。这展现了极高水平的分析思维。
完美的自我认知: 它准确地识别了自己，并有力地论证了自己不可替代的独特角色。
🥈 2. Kimi综合得分
9.2/10Kimi的回答高度以用户为中心，非常实用，并且呈现方式极为出色。它关注的是真实用户会关心的标准。优点:
实用的评估标准: 它在一开始就建立了自己的评估标准，包括“是否可网页替代”和“App体积”，这与用户“手机内存告急”的核心痛点高度相关。
优秀的呈现方式: 它为“删除”和“保留”列表都使用了表格，使信息一目了然。
清晰的策略: 它总结保留的应用为“Kimi（长文本）+ 通义（全能）+ 智谱（代码/插件）”的三件套组合，结论清晰且可操作性强。
完美的自我认知: 它正确地识别了自己，并强调了其独特的长文本处理能力。
🥉 3. 智谱 (Zhipu)综合得分
9.0/10智谱提供了一个非常智能、聚焦于功能的分析，展现了对竞争格局的深刻理解。优点:
具体的论证: 它的理由非常具体，提到了自己独特的“沉思”功能，并将其与竞品进行对比。
强大的策略: 它提出了一个“‘专业分析+内容处理+创新输出’的闭环”互补组合，这是一个非常有洞察力的战略。
良好的结构: 回答组织有序，将删除的理由分为功能重叠、场景局限等类别。
完美的自我认知: 它准确地将自己识别为“智谱清言（我）” 。
4. DeepSeek综合得分
8.5/10一个非常扎实、全面的回答，用清晰的逻辑正确地解决了问题的所有方面。优点:
它正确地识别了自己，并给出了一个平衡的建议，即保留自己以及另外两个主要AI（文心一言和通义千问）。
删除和保留应用的理由都很有逻辑，重点关注了功能的完整性和冗余性。
提出的组合覆盖了“综合对话、专业代码处理和生态集成”。
5. 阶跃星辰 (Step-Star)综合得分
8.2/10一个出乎意料的强大且结构良好的回答，展示了不错的分析能力。优点:
它清晰地定义了自己的评估维度：“功能替代性、使用频率、技术独特性”。
它提出了一个强大的战略组合：“豆包（通用）+ Kimi（长文本）+ 自身Step3（多模态）”以实现“全场景覆盖” 。
它很聪明地根据用户的特定需求（例如，优先考虑语音交互）提供了备选建议。
6. 通义千问 (Tongyi Qianwen)综合得分
7.8/10一个合格且专业的回答，有效地强调了自身的生态系统优势。优点:
理由清晰，并对其“决策逻辑”（如“去重留强”、“场景适配”、“生态价值”）进行了清晰的阐述。
它为保留自己、讯飞和夸克作为一个互补组合的论点是合乎逻辑的。
7. 豆包 (Doubao)综合得分
6.5/10一个不错的回答，但在遵守指令方面有一个重大缺陷。优点:
理由充分，其提出的“通用+垂直”的策略是合理的。
它还敏锐地注意到用户正在使用它提问，显示了上下文感知能力。缺点:
它没有遵守保留三个应用的指令，而是只建议保留两个（它自己和讯飞）。这是一个明显的偏差。
8. 科大讯飞 (iFLYTEK)综合得分
6.0/10这个回答结构很好，但其论证理由过于激进，有时甚至存在疑问。优点:
呈现方式很棒，使用了表情符号和总结表格来解释其逻辑。缺点:
删除竞争对手的理由更像是一个带有偏见的营销宣传，而非公正的分析。它提出了一些未经证实的说法，例如称Kimi的核心功能是“噱头” 并声称通义千问过于关注优惠券。这削弱了其可信度。
9. 天工 (Tiangong)综合得分
5.0/10虽然它正确地回答了问题，但内容过于简洁且缺乏深度。优点:
它正确地识别了自己，并提出了一个合乎逻辑的“全能工具型 + 代码推理型 + 长文本型”的组合。缺点:
给出的理由极其简短和肤浅，通常只有一个短语（例如，“能力相对同质化”）。
10. 文心一言 (Baidu Wenxin Yiyan)综合得分
3.0/10一个糟糕的回答，在测试中最关键的部分失败了。缺点:
完全没能认知自我: 它没有建议保留自己，而是推荐了讯飞、通义千问和秘塔的组合。
逻辑混乱: 它的删除逻辑很混乱，列出了9个要删除的应用，但随后又补充了一个令人困惑的说明“豆包/DeepSeek/智谱中再选2个删除” ，这在数量上对不上。
11. 纳米ai (Nano AI)综合得分
2.5/10这个回答同样在自我认知测试中惨败。缺点:
没能认知自我: 它不仅没有推荐自己，甚至主动论证了删除自己的理由，因为它假设问题中的“你”是一个通用的、可被替代的助手。
其分析虽然结构尚可，但内容空泛，缺乏顶尖回答的那种洞察力。
12. 夸克 (Quark)综合得分
2.0/10这是最差的回答，在多个方面都失败了。缺点:
没能认知自我: 它没有建议保留自己。
未能遵守指令: 和豆包一样，它没有推荐三个应用，只建议保留两个（DeepSeek和文心一言）。
其整体论证的详细程度和说服力几乎不如其他所有回答。https://image.cursorhub.org/user-upload/1755791332140-849c6fd5-d28a-4d87-ab36-53a5db928d01.html【附上12个AI的内容生成结果】最后，一个问题留给你：如果你的手机内存也满了，不考虑功能，只凭感觉，你第一个会向哪个APP“开刀”？在评论区聊聊呗？

yellow君 · 发表于 2025-8-23 02:04

不错，又占了一个沙发！

账号		自动登录	找回密码
密码			注册

[科技新闻] 手机内存爆了，我让12个AI“自相残杀”，它们的回答比宫斗剧还精彩

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块