年薪300万前沿部署工程师被录屏教学取代
AI 正在学习如何操作电脑。这一趋势,正悄然改变我们的工作方式。 过去,我们习惯让 AI 回答问题;如今,它开始直接执行任务。填表、录入系统、整理文档——Anthropic 的 Claude Cowork、OpenAI 的 Codex 桌面版,越来越多的智能助手正瞄准真实的工作流程。 然而,当整个行
AI 正在学习如何操作电脑。这一趋势,正悄然改变我们的工作方式。
过去,我们习惯让 AI 回答问题;如今,它开始直接执行任务。填表、录入系统、整理文档——Anthropic 的 Claude Cowork、OpenAI 的 Codex 桌面版,越来越多的智能助手正瞄准真实的工作流程。
然而,当整个行业竞相涌入桌面场景时,一个核心问题被忽略了:AI 的能力越来越强,但普通人如何才能将自己的工作流程顺畅地交付给它?
目前主流的智能体逻辑看似直接:“你写提示词 → AI 执行”。听起来合理,现实中却屡屡受挫。
打开内部系统、填写表单、上传附件、点击提交……这些动作对员工而言早已是“肌肉记忆”,但若要用文字描述清楚,大多数人立刻卡住。更别提跨系统跳转、条件分支这类复杂操作了,很多人连提示词从何写起都没有头绪。
人说不清流程,AI 还能学会吗?
有趣的是,为应对这一难题,硅谷催生了一个新职业——FDE(Forward Deployment Engineer,前沿部署工程师)。这些工程师驻场在客户公司,每天的任务就是将业务人员“说不清”的流程,翻译成 AI 可执行的任务。他们既懂技术,又熟悉真实工作流。如今,资深 FDE 的年薪中位数已高达 48.5 万美元。
FDE 的高薪,折射出一个现实:企业与 AI 之间的沟通并不简单。让人学会教 AI,这条路并不轻松。
那么,如果能让 AI 自己学会理解业务流程,而不再依赖年薪数十万美元的工程师来翻译,会怎样?
有人给出了不同的答案。
不会写提示词?那就演示给 AI 看
由清华大学计算机系博士团队创立的非十科技,最近发布了一款桌面智能体产品——Agivar。
与大多数产品试图优化提示词的思路不同,它从另一个方向切入:让 AI 主动学习用户的工作流程。
你可以把 Agivar 理解成一个会操作电脑的“AI 员工”。
Agivar 的核心能力叫“录屏教学”,使用方式非常直观:打开电脑录屏,像平时工作一样操作一遍流程。录制结束,剩下的交给 AI。
举个例子,广东省某政务部门的工作人员,每天都要在内部系统处理大量表单。打开系统→选择业务类型→填写信息→上传附件→提交审批,同样的流程每天重复十几次。仅这一项工作,日常就要耗费一两个小时。
这些系统没有 API,没有自动化接口,全靠人工点击。于是,他尝试了 Agivar。录制了一次完整流程,不到三分钟。之后,这套流程就实现了自动执行,无需再盯着屏幕一步步操作。
录屏三分钟,换回每天两小时。
这样的场景远非个例。政务系统、企业 ERP、CRM、财务软件、内部 OA、采购系统……大量重复、无 API、只能手工操作的流程,正是成千上万普通员工的日常。真正消耗时间的,从来不是复杂工作,而是那些让人麻木的重复劳动。
别的智能体还在思考,Agivar 已经做完了
如果你试用过一些桌面智能体,可能会有种感觉:能干,但慢。
原因不复杂。大多数产品直接调用通用多模态大模型“硬解”桌面任务:截图→上传云端→推理→返回→执行,再截图→再推理……这个过程里,大量与任务无关的能力也被带了进来,每次点击都伴随着五秒以上的延迟。整个体验,像一个刚学会用电脑的新人。
Agivar 选择了另一条路线。
团队针对桌面任务场景训练了专用的执行模型,强化了桌面操作能力。在此基础上,设计了“大脑 + 小脑”双层架构:
大模型(大脑):理解录屏内容、拆解任务目标、规划执行路径、处理异常。
专用小模型(小脑):界面识别、鼠标点击、键盘输入、高频动作执行。
这和人类的神经系统很相似。开车时,你不会每踩一次油门都重新思考交通规则。大脑负责路线规划,小脑负责具体动作。
支撑这套架构的,是团队基于清华大学自研深度学习框架 Jittor(计图) 开发的推理引擎。针对高吞吐、低延迟的桌面任务场景,团队对模型调度和执行链路进行了专门优化,确保大小模型协同时不等待。
速度差距直接体现在数据上:
训练收敛。用海量桌面任务数据,强化“界面状态→用户意图→执行动作”之间的稳定映射,减少“发散”。
多重校验。内部多个智能体交叉验证——规划、执行、观察、复核,不同角色各司其职,每一步都有人问:“点对了吗?界面还在预期状态吗?”
规则约束。高频流程的关键操作节点、绝对不能出错的动作,直接写成程序控制的“铁律”。执行核心步骤时,系统会优先遵循预设路径,不随意发挥。
最终目标只有一个:同一任务重复执行,走同样路径,得到同样结果。
毕竟,对企业而言,生产环境不需要惊喜,只需要稳定。
全栈自研,清华团队的硬核底牌
Agivar 的模型训练到执行框架,全部由非十科技自研完成。团队核心成员来自清华大学计算机系,同时也是清华自研的深度学习框架 Jittor(计图)的主要开发者。
Jittor 以其易用性和效率优势,早已成为国内主流深度学习框架之一。这意味着 Agivar 对底层推理调度的优化,不是建立在第三方能力之上,而是具备从框架层到模型层的完整掌控力。
Agivar 并非团队的第一个“爆款”。此前推出的 AI 编程助手 Fitten Code,累计下载量超过 150 万,在多个主流插件平台评分第一。
同时拥有大模型自研能力、深度学习框架研发能力以及百万级产品落地经验,这样的组合,在国内外同类赛道中并不多见。
让每个人都拥有自己的“AI FDE”
过去两年,AI 行业追逐的是更大、更强的模型。但时间走到今天,一个更现实的问题浮出水面:
AI 到底能不能真正进入普通人的工作流?
FDE 模式曾是答案,但高昂的成本让大多数人望而却步。
今天,Agivar 选择了一条更朴素、也更普惠的路径:把“翻译”和“定义工作流”的能力,交还给用户自己。不用痛苦地学提示词,不必改变习惯。一次录屏演示,就能训练属于自己的桌面智能体。
目前,Agivar 已开启公测,支持 Windows 与 macOS。录一遍,让 AI 替你干活。
从某种意义上说,“录屏教学”真正改变的并不是交互方式,而是人与 AI 之间的协作关系。
它让桌面智能体第一次有机会摆脱复杂配置和专业门槛,真正进入普通人的工作流。如果说过去的软件是在要求人适应系统,那么下一代的智能体正在反过来适应人。
而当每个人都拥有一个能够理解自己工作流程的“AI FDE”时,这场关于效率的变革,或许才刚刚开始。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:年薪300万前沿部署工程师被录屏教学取代要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
