00后团队为上汽研发机器人眼球，实现主动机器视觉

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

00后团队为上汽研发机器人眼球，实现主动机器视觉

热心网友时间：2026-01-13

转载

近日，上海交通大学杨佳澍和所在团队开发出一款名为 EyeVLA 的机器人眼球系统，让机器人拥有了真正的主动视觉。

假设你想让扫地机器人看看沙发下有没有玩具车，有了 EyeVLA 机器人就可以灵活地调整视角和焦距，不需要凑进去看，这种能力让机器人在许多实际任务中变得更加有用，比如可以在仓库里不需要移动位置找货、在工厂里检查零件，甚至帮助老人在杂乱的环境中找到需要的药品。

（来源：https://arxiv.org/abs/2511.15279）

在一个测试里，杨佳澍等人让机器人辨认一下放在盒子里的笔的品牌。普通的固定摄像头根本无法拍摄到笔身的细节，而 EyeVLA 通过自动转动和放大，让笔身上的小字清晰可见，最终准确识别出了品牌。

类似的应用场景还有很多，比如可以帮你找钥匙和检查窗户是否关好，可以在工业流水线上识别细小的零件缺陷，可以协助药师在药店快速寻找目标药品等。

图 | 杨佳澍（来源：杨佳澍）

无需人工引导或控制，只需给定指令即可自主完成观察

EyeVLA 搭载了一个精巧的系统，让机器人可以根据语言指令自主调整视角，这个系统主要由三部分组成：一个可以水平旋转、垂直俯仰的 2 维云台，一个可以变焦的摄像头，以及一个智能大脑，这个大脑是一个经过特殊训练的多模态大模型，能够同时理解图像、语言并生成具体动作。

机器人的每个动作，比如向左转 5 度、向上抬 3 度、放大 1.2 倍，都需要被转换成计算机能够理解的格式。杨佳澍等人设计了一种高效的动作编码方式，把连续的动作数值分层编码为基本的动作词，就像我们使用字母拼成单词一样。这样做的好处是，机器人可以使用更少的信息来表达更加精确的动作，同时有更强的语义性，便于模型学习。

当你对机器人说请看清楚那个蓝色盒子的标签时，EyeVLA 会首先分析这句话的含义，再结合当前摄像头拍到的画面，判断该如何调整视角。它会自动计算出需要转动多少角度、放大多少倍，才能让标签清晰地出现在画面中心。这个过程是实时、连续和闭环的，就像我们使用时鼠标拖动电子地图以及放大查看细节一样自然。

相关论文的第一作者杨佳澍告诉 DeepTech：“尽管近期有其他团队使用云台电机进行感知探索，但我们的系统在扩展性、可靠性及开放场景下的完全自主性方面具有明显优势。我们是首个在完全开放场景下基于变焦相机实现语言指令驱动视觉感知的系统，无需人工引导或控制，只需给定指令即可自主完成观察。”

（来源：https://arxiv.org/abs/2511.15279）