00后团队为上汽研发机器人眼球,实现主动机器视觉
近日,上海交通大学杨佳澍和所在团队开发出一款名为 EyeVLA 的机器人眼球系统,让机器人拥有了真正的主动视觉。
假设你想让扫地机器人看看沙发下有没有玩具车,有了 EyeVLA 机器人就可以灵活地调整视角和焦距,不需要凑进去看,这种能力让机器人在许多实际任务中变得更加有用,比如可以在仓库里不需要移动位置找货、在工厂里检查零件,甚至帮助老人在杂乱的环境中找到需要的药品。

(来源:https://arxiv.org/abs/2511.15279)
在一个测试里,杨佳澍等人让机器人辨认一下放在盒子里的笔的品牌。普通的固定摄像头根本无法拍摄到笔身的细节,而 EyeVLA 通过自动转动和放大,让笔身上的小字清晰可见,最终准确识别出了品牌。
类似的应用场景还有很多,比如可以帮你找钥匙和检查窗户是否关好,可以在工业流水线上识别细小的零件缺陷,可以协助药师在药店快速寻找目标药品等。

图 | 杨佳澍(来源:杨佳澍)
无需人工引导或控制,只需给定指令即可自主完成观察
EyeVLA 搭载了一个精巧的系统,让机器人可以根据语言指令自主调整视角,这个系统主要由三部分组成:一个可以水平旋转、垂直俯仰的 2 维云台,一个可以变焦的摄像头,以及一个智能大脑,这个大脑是一个经过特殊训练的多模态大模型,能够同时理解图像、语言并生成具体动作。
机器人的每个动作,比如向左转 5 度、向上抬 3 度、放大 1.2 倍,都需要被转换成计算机能够理解的格式。杨佳澍等人设计了一种高效的动作编码方式,把连续的动作数值分层编码为基本的动作词,就像我们使用字母拼成单词一样。这样做的好处是,机器人可以使用更少的信息来表达更加精确的动作,同时有更强的语义性,便于模型学习。
当你对机器人说请看清楚那个蓝色盒子的标签时,EyeVLA 会首先分析这句话的含义,再结合当前摄像头拍到的画面,判断该如何调整视角。它会自动计算出需要转动多少角度、放大多少倍,才能让标签清晰地出现在画面中心。这个过程是实时、连续和闭环的,就像我们使用时鼠标拖动电子地图以及放大查看细节一样自然。
相关论文的第一作者杨佳澍告诉 DeepTech:“尽管近期有其他团队使用云台电机进行感知探索,但我们的系统在扩展性、可靠性及开放场景下的完全自主性方面具有明显优势。我们是首个在完全开放场景下基于变焦相机实现语言指令驱动视觉感知的系统,无需人工引导或控制,只需给定指令即可自主完成观察。”

(来源:https://arxiv.org/abs/2511.15279)
小到找钥匙、大到医疗辅助均可使用
手动收集真机数据往往成本高昂,为了降低成本让机器人学会这套视觉动作,杨佳澍等人使用了包含两个阶段的训练方法。
第一个阶段是模仿学习,他们先是收集了少量真人操作机器的数据,记录下真人在不同指令下是如何调整视角的。接着,利用这些数据批量合成了模拟数据,让模型在虚拟数据中进行对齐,初步建立起语言、视觉、动作之间的关联。
第二个阶段是强化学习。这时,模型开始在真实数据中试错。每当做出一个动作,系统就会根据它是否看得清楚来给出奖励或惩罚。这样一来,就能在复杂场景中让机器人逐渐学会做出更鲁邦的视角调整。
当前,我们大都习惯了使用手机拍照:手机会自动对焦和调整亮度,拍摄出来清晰的照片。但是,传统的机器人视觉系统更像是一台固定在三脚架上的老式相机,它只能从一个角度、一个距离拍摄,既不能转动、也不能拉近拉远。
这就导致如果机器人要观察的目标很小、或者离得很远,它就很难看清楚。比如,想让机器人看看书架第二层那本书的书名,如果书名字体很小,普通的机器人摄像头可能只能拍摄出来一团模糊的像素,根本认不出来是什么字。
而该团队意识到,要让机器人真正地看懂世界,就不能让它被动地接收图像,而是让它主动地获取详细的信息,就像人类会转头、走近、眯起眼睛或瞪大眼睛观察事物一样。这就是主动视觉的核心思想,机器人也应该学会怎么去看,而不仅仅是看到了什么。

(来源:https://arxiv.org/abs/2511.15279)
杨佳澍表示:“现有机器人往往在机械臂前端或者固定支架上安装固定摄像头,但由于机械臂体积和活动范围等限制,无法深入狭窄或危险区域观察目标细节(如文字、纹理)。我们的方法通过纯光学变焦调整,可在机械臂无法触及的场景中实现视觉感知,避免进入杂乱或危险环境,拓宽了机器人视觉的应用范围。”
参考资料:
相关论文 https://arxiv.org/abs/2511.15279
运营/排版:何晨龙
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
华硕无畏14/16 SE酷睿版2026轻薄本发布 搭载Core 5 320处理器
华硕无畏系列轻薄本推出14和16英寸SE酷睿版2026款,搭载英特尔酷睿5320处理器,配备16GB内存与512GB固态硬盘,屏幕覆盖100%sRGB色域。14英寸版提供两种屏幕规格,分辨率与刷新率不同,重量分别为1 29公斤和1 59公斤;16英寸版可选两种分辨率,均支持144Hz高刷,重量同为1 59公斤。
三星One UI 9专注模式上线 助你高效工作学习
三星在OneUI9测试版中开发了新的专注功能。该功能允许用户按类别阻止社交媒体、游戏等应用访问网络,以减少干扰。它隐藏在Wi-Fi设置中,需通过特定路径进入。功能设有PIN码锁定和定时模式,既可用于自我管理,也适用于家长控制场景。
三星研发新内存封装技术 手机带宽提升高达30%
三星正研发名为MultiStackedFOWLP的新内存封装技术,通过制造更高更细的铜柱提升连接点密度。该技术有望将内存带宽提升15%至30%,堆叠容量增加超1 5倍,有助于缓解本地AI任务的数据瓶颈。目前技术仍处研发阶段,具体量产时间未定。
三星研发新内存封装技术 手机带宽提升30%性能更强
三星研发新一代MultiStackedFOWLP内存封装技术,通过优化铜柱结构与引入扇出型封装,提升稳定性与纵横比。该技术预计可将内存带宽提升15%至30%,堆叠容量增加1 5倍以上,突破现有封装限制,为未来高性能移动设备提供更强数据吞吐能力。目前技术仍在研发中,具体应用时间未定。
Figure机器人实现自主分拣快递 8小时直播展示工作能力
Figure机器人通过8小时直播展示自主分拣包裹能力,可扫描条码、处理不同材质包裹并准确放置,全程无需人工干预,分拣近万件。其效率约为人工1 8倍,识别成功率高达99 7%。控制系统采用统一视觉-运动神经网络,经大量学习使动作更接近人类,标志其人形机器人正从概念走向实用。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

