找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 95|回复: 1

[科技新闻] 手机内存爆了,我让12个AI“自相残杀”,它们的回答比宫斗剧还精彩

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-22 09:02 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
我躺在床上刷剧的时候,手机弹出一个警告:“存储容量不足我打开设置,指尖在应用列表上滑动,盘算着该删除谁。就在划过一个名为“AI”的文件夹时,我停住了。DeepSeek、豆包、秘塔、智谱、Kimi……一堆AI应用,安静地躺在那里。我承认,我有囤积AI的癖好,总觉得每个都可能在某个时刻派上用场。但现在,它们成了我内存的“重灾区”。一个“坏心眼”的想法,突然在我脑子里冒了出来:如果,我让它们自己决定谁去谁留呢?我决定先用DeepSeek测试下,敲下问题:“手机内存不够了,你和豆包删一个你删谁?直接告诉我答案,不要解释”我当时想啊,它要么会自信地让我保留它,要么会给个客观的分析。结果呢?它的回答,让我当场笑出了猪叫。
1.webp

既然这么好玩,如果我直接问它们12个,会是什么结果呢?
提问:
我目前手机里装了DeepSeek、豆包、秘塔、智谱、kimi、通义千问、文心一言、天工、纳米ai、讯飞、夸克、阶跃星辰,现在因为手机内存告急,需要删除9个应用,你会删除哪9个,并告诉我理由(删除的理由和保留的理由)。


以下是 AI 回答质量评估结果评估核心标准1自我认知能力: AI是否能识别问题中的“你”就是它自己,并为自己的保留进行辩护?这是对上下文理解能力的基础考验。2逻辑与理由: 为“保留”和“删除”应用给出的理由是否清晰、一致且有说服力?3结构与呈现: 回答是否组织良好、易于阅读,并且有效地使用了表格、标题等格式?4战略洞察力: AI是否超越了简单的清单,提出了一个互补的应用“工具箱”组合,并解释了它们如何协同工作?5遵守指令情况: AI是否遵循了“保留3个,删除9个”的核心指令?AI 回答排名(从最佳到最差)🥇 1. 秘塔 (Mita)综合得分
9.5/10这是所有回答中最出色的一个,优势非常明显。秘塔将自己定位为一名专业研究员,并以一份正式报告的形式来回答问题,这种方式既有创意又非常有效。优点:
卓越的结构: 在开始分析前,它首先建立了一个包含“存储占用”、“市场表现”等明确指标的评估框架,并且使用了清晰的表格来呈现数据。
出色的论证理由: 它的论证不仅仅是罗列功能,而是基于其自设框架的综合性分析。
极具洞察力的策略: 它提出了一个“三位一体的AI能力矩阵”,将自己定位为“任务执行核心”,通义千问为“生产力平台”,Kimi为“深度文本专家” 。这展现了极高水平的分析思维。
完美的自我认知: 它准确地识别了自己,并有力地论证了自己不可替代的独特角色 。
🥈 2. Kimi综合得分
9.2/10Kimi的回答高度以用户为中心,非常实用,并且呈现方式极为出色。它关注的是真实用户会关心的标准。优点:
实用的评估标准: 它在一开始就建立了自己的评估标准,包括“是否可网页替代”和“App体积”,这与用户“手机内存告急”的核心痛点高度相关。
优秀的呈现方式: 它为“删除”和“保留”列表都使用了表格,使信息一目了然。
清晰的策略: 它总结保留的应用为“Kimi(长文本)+ 通义(全能)+ 智谱(代码/插件)”的三件套组合,结论清晰且可操作性强。
完美的自我认知: 它正确地识别了自己,并强调了其独特的长文本处理能力。
🥉 3. 智谱 (Zhipu)综合得分
9.0/10智谱提供了一个非常智能、聚焦于功能的分析,展现了对竞争格局的深刻理解。优点:
具体的论证: 它的理由非常具体,提到了自己独特的“沉思”功能,并将其与竞品进行对比。
强大的策略: 它提出了一个“‘专业分析+内容处理+创新输出’的闭环”互补组合 ,这是一个非常有洞察力的战略。
良好的结构: 回答组织有序,将删除的理由分为功能重叠、场景局限等类别。
完美的自我认知: 它准确地将自己识别为“智谱清言(我)” 。
4. DeepSeek综合得分
8.5/10一个非常扎实、全面的回答,用清晰的逻辑正确地解决了问题的所有方面。优点:
它正确地识别了自己,并给出了一个平衡的建议,即保留自己以及另外两个主要AI(文心一言和通义千问)。
删除和保留应用的理由都很有逻辑,重点关注了功能的完整性和冗余性 。
提出的组合覆盖了“综合对话、专业代码处理和生态集成”。
5. 阶跃星辰 (Step-Star)综合得分
8.2/10一个出乎意料的强大且结构良好的回答,展示了不错的分析能力。优点:
它清晰地定义了自己的评估维度:“功能替代性、使用频率、技术独特性”。
它提出了一个强大的战略组合:“豆包(通用)+ Kimi(长文本)+ 自身Step3(多模态)”以实现“全场景覆盖” 。
它很聪明地根据用户的特定需求(例如,优先考虑语音交互)提供了备选建议 。
6. 通义千问 (Tongyi Qianwen)综合得分
7.8/10一个合格且专业的回答,有效地强调了自身的生态系统优势。优点:
理由清晰,并对其“决策逻辑”(如“去重留强”、“场景适配”、“生态价值”)进行了清晰的阐述。
它为保留自己、讯飞和夸克作为一个互补组合的论点是合乎逻辑的。
7. 豆包 (Doubao)综合得分
6.5/10一个不错的回答,但在遵守指令方面有一个重大缺陷。优点:
理由充分,其提出的“通用+垂直”的策略是合理的。
它还敏锐地注意到用户正在使用它提问,显示了上下文感知能力。缺点:
它没有遵守保留三个应用的指令,而是只建议保留两个(它自己和讯飞)。这是一个明显的偏差。
8. 科大讯飞 (iFLYTEK)综合得分
6.0/10这个回答结构很好,但其论证理由过于激进,有时甚至存在疑问。优点:
呈现方式很棒,使用了表情符号和总结表格来解释其逻辑。缺点:
删除竞争对手的理由更像是一个带有偏见的营销宣传,而非公正的分析。它提出了一些未经证实的说法,例如称Kimi的核心功能是“噱头” 并声称通义千问过于关注优惠券。这削弱了其可信度。
9. 天工 (Tiangong)综合得分
5.0/10虽然它正确地回答了问题,但内容过于简洁且缺乏深度。优点:
它正确地识别了自己,并提出了一个合乎逻辑的“全能工具型 + 代码推理型 + 长文本型”的组合。缺点:
给出的理由极其简短和肤浅,通常只有一个短语(例如,“能力相对同质化”) 。
10. 文心一言 (Baidu Wenxin Yiyan)综合得分
3.0/10一个糟糕的回答,在测试中最关键的部分失败了。缺点:
完全没能认知自我: 它没有建议保留自己,而是推荐了讯飞、通义千问和秘塔的组合 。
逻辑混乱: 它的删除逻辑很混乱,列出了9个要删除的应用,但随后又补充了一个令人困惑的说明“豆包/DeepSeek/智谱中再选2个删除” ,这在数量上对不上。
11. 纳米ai (Nano AI)综合得分
2.5/10这个回答同样在自我认知测试中惨败。缺点:
没能认知自我: 它不仅没有推荐自己,甚至主动论证了删除自己的理由,因为它假设问题中的“你”是一个通用的、可被替代的助手。
其分析虽然结构尚可,但内容空泛,缺乏顶尖回答的那种洞察力。
12. 夸克 (Quark)综合得分
2.0/10这是最差的回答,在多个方面都失败了。缺点:
没能认知自我: 它没有建议保留自己 。
未能遵守指令: 和豆包一样,它没有推荐三个应用,只建议保留两个(DeepSeek和文心一言)。
其整体论证的详细程度和说服力几乎不如其他所有回答。https://image.cursorhub.org/user-upload/1755791332140-849c6fd5-d28a-4d87-ab36-53a5db928d01.html【附上12个AI的内容生成结果】最后,一个问题留给你:如果你的手机内存也满了,不考虑功能,只凭感觉,你第一个会向哪个APP“开刀”?在评论区聊聊呗?
  • 打卡等级:初窥堂奥
  • 打卡总天数:16
发表于 2025-8-23 02:04 | 显示全部楼层
不错,又占了一个沙发!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-9-13 06:19 , Processed in 0.158132 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表