夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 175|回复: 5

[数码资讯] 英伟达发布 Llama Nemotron Nano VL AI:高效精准,攻克复杂文档解析难题

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:857
发表于 2025-6-5 08:22 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达(Nvidia)针对高效、精准地处理文档级理解任务,推出 Llama Nemotron Nano VL 视觉-语言模型(VLM)。

Llama Nemotron Nano VL 基于 Llama 3.1 架构,融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型,能同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,覆盖图像和文本序列。

模型通过投影层和旋转位置编码实现视觉-文本对齐,优化了 token 效率,特别适合长篇多模态任务,无论是多图像输入还是复杂文本解析,它都能游刃有余。



该模型的训练分为三个阶段:首先,利用商业图像和视频数据集进行交错式图文预训练;其次,通过多模态指令微调提升交互式提示能力;最后,重新混合纯文本指令数据以优化在标准语言模型基准上的表现。



训练采用英伟达的 Megatron-LLM 框架和 Energon 数据加载器,依托 A100 和 H100 GPU 集群完成。在 OCRBench v2 基准测试中,该模型在 OCR、表格解析和图表推理等任务上取得领先精度,尤其在结构化数据提取(如表格和键值对)及布局相关问题解答中表现突出,媲美更大规模模型。



部署方面,Llama Nemotron Nano VL 设计灵活,支持服务器和边缘推理场景。英伟达提供了 4-bit 量化版本(AWQ),结合 TinyChat 和 TensorRT-LLM 实现高效推理,兼容 Jetson Orin 等受限环境。

模型还支持 Modular NIM(NVIDIA 推理微服务)、ONNX 和 TensorRT 导出,此外英伟达通过预计算视觉嵌入选项,进一步降低静态图像文档处理的延迟,为企业应用提供了实用解决方案。
  • 打卡等级:已臻大成
  • 打卡总天数:676
发表于 2025-6-5 08:39 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:551
发表于 2025-6-5 10:08 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:860
发表于 2025-6-5 10:36 | 显示全部楼层
感谢分享英伟达Llama Nemotron Nano VL AI资讯
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:844
发表于 2025-6-5 12:13 | 显示全部楼层
感谢楼主分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:231
发表于 2025-6-5 15:20 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版| 手机版| 小黑屋| RSS| 举报不良信息| 精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-7-4 06:51 , Processed in 0.259803 second(s), 4 queries , Gzip On, Redis On.

Powered by VC52.CN

快速回复 返回顶部 返回列表