夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 150|回复: 6

[数码资讯] 中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:853
发表于 2025-1-11 10:41 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
中国网络空间安全协会于 1 月 9 日发布公告,面向社会发布中文互联网语料资源平台,支持行业领域、内容模态、体量规模等多种标签分类,便于用户下载与使用。

该协会表示在中央网信办指导下,会同国家互联网应急中心,在前期发布中文互联网基础语料 1.0 的基础上,依托专委会建立的语料共建共享机制,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料 2.0,规模 120GB,数据 3800 万条。



IT之家注:目前平台共入驻 27 个语料数据集,数据总量约 2.7T,主要分三类:

一是中国网络空间安全协会会同国家互联网应急中心等建设的中文互联网基础语料;

二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;

三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。

用户登录中国网络空间安全协会网站(https://www.cybersac.cn/ newhome),点击“中文互联网语料资源平台”链接,通过注册、认证等程序,即可下载相关语料。

网安协会人工智能安全治理专委会负责人表示,数据是发展人工智能的基础关键资源,中文互联网基础语料 2.0 是各界协同共建高质量中文语料的又一重要成果,专委会将持续加强中文互联网基础语料建设,为人工智能技术创新和产业发展提供有力支撑和保障。
  • 打卡等级:已臻大成
  • 打卡总天数:671
发表于 2025-1-11 10:49 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:804
发表于 2025-1-11 11:30 | 显示全部楼层
看看
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:840
发表于 2025-1-11 12:18 | 显示全部楼层
谢谢楼主分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:855
发表于 2025-1-11 13:46 | 显示全部楼层
感谢分享新闻资讯
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:456
发表于 2025-1-11 16:26 | 显示全部楼层
回复 支持 反对

使用道具 举报

  • 打卡等级:渐入佳境
  • 打卡总天数:30
发表于 2025-1-11 16:49 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版| 手机版| 小黑屋| RSS| 举报不良信息| 精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-6-29 14:36 , Processed in 0.261895 second(s), 4 queries , Gzip On, Redis On.

Powered by VC52.CN

快速回复 返回顶部 返回列表