找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 46|回复: 5

[数码资讯] 我国超大规模智算集群管控达领先水平

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:597
发表于 2025-10-15 08:35 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
据人民邮电报今日报道,中国移动近期实现了智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,标志着我国在超大规模智算集群管控领域已具备领先水平,解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。



据介绍,人工智能技术正迎来爆发式的发展,大模型参数规模正向万亿级升级,因此智算基础设施的算力密度、稳定性和协同效率面临挑战,万卡级规模协同训练场景是全球普遍面临智算集群稳定性问题。

中国移动基于哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI 运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术难题。在关键技术突破层面,团队重点攻关三大核心难题:

创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率

研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降 50%

引入 AI 运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖 25 类软硬件故障解决方案,将故障处理时长从数天级降至分钟级

IT之家从人民邮电报报道获悉,长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近 100%,为 AI 技术工业化量产奠定基础,可支撑自动驾驶、生物医药、新材料研发等前沿领域技术进步。此外,中国移动还在黑龙江、广东打造了智算运维样板间。

值得一提的是,在今年 10 月 11 日的 2025 中国移动全球合作伙伴大会主论坛上,中国移动宣布升级“AI+”行动计划,明确到 2028 年底,中国移动将持续加大对人工智能领域的投入力度,总体投入翻一番,建成国内规模最大、技术领先的智算基础设施,探索十万卡智算集群建设,全国产智能算力规模突破 100 EFLOPS。
  • 打卡等级:自成一派
  • 打卡总天数:352
发表于 2025-10-15 08:41 | 显示全部楼层
看看
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:307
发表于 2025-10-15 09:45 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:588
发表于 2025-10-15 10:30 | 显示全部楼层
谢谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:599
发表于 2025-10-15 10:47 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:初窥堂奥
  • 打卡总天数:15
发表于 2025-10-15 17:54 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-10-16 13:57 , Processed in 0.189474 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表