微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布
当地时间 11 月 24 日,微软宣布推出全新的开源小型语言模型 Fara-7B,定位为专门用于计算机操作的“Agentic”模型,可通过鼠标和键盘执行网页任务。作为微软首个面向电脑使用场景的小模型(SLM),Fara-7B 由 70 亿参数构成,在同级体量中达到领先性能,并能在设备端本地运行,实现更低延迟及更好的隐私保护。
据介绍,Fara-7B 不像传统聊天模型依赖文本交互,而是通过视觉解析网页截图,并在屏幕上执行点击、输入、滚动等动作,不需要依赖额外的可访问性树(Accessibility Tree)或多个大模型协作。
微软为此构建了一条全新的合成数据生成流程,用以模拟复杂多步骤的网页任务,来源包括真实用户需求和真实网页。该流程依托 Magentic-One 框架,涵盖任务生成、任务求解及轨迹验证三个阶段,最终用于训练模型的包括 14.5 万条任务轨迹、100 万步骤,并包含定位、描述与视觉问答等辅助任务数据。
谢谢楼主分享! 谢谢分享。 看看新闻{:1_340:}
页:
[1]