当前位置: 首页
科技数码
00后团队为上汽研发机器人眼球,实现主动机器视觉

00后团队为上汽研发机器人眼球,实现主动机器视觉

热心网友 时间:2026-01-13
转载

近日,上海交通大学杨佳澍和所在团队开发出一款名为 EyeVLA 的机器人眼球系统,让机器人拥有了真正的主动视觉。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

假设你想让扫地机器人看看沙发下有没有玩具车,有了 EyeVLA 机器人就可以灵活地调整视角和焦距,不需要凑进去看,这种能力让机器人在许多实际任务中变得更加有用,比如可以在仓库里不需要移动位置找货、在工厂里检查零件,甚至帮助老人在杂乱的环境中找到需要的药品。


(来源:https://arxiv.org/abs/2511.15279)

在一个测试里,杨佳澍等人让机器人辨认一下放在盒子里的笔的品牌。普通的固定摄像头根本无法拍摄到笔身的细节,而 EyeVLA 通过自动转动和放大,让笔身上的小字清晰可见,最终准确识别出了品牌。

类似的应用场景还有很多,比如可以帮你找钥匙和检查窗户是否关好,可以在工业流水线上识别细小的零件缺陷,可以协助药师在药店快速寻找目标药品等。


图 | 杨佳澍(来源:杨佳澍)

无需人工引导或控制,只需给定指令即可自主完成观察

EyeVLA 搭载了一个精巧的系统,让机器人可以根据语言指令自主调整视角,这个系统主要由三部分组成:一个可以水平旋转、垂直俯仰的 2 维云台,一个可以变焦的摄像头,以及一个智能大脑,这个大脑是一个经过特殊训练的多模态大模型,能够同时理解图像、语言并生成具体动作。

机器人的每个动作,比如向左转 5 度、向上抬 3 度、放大 1.2 倍,都需要被转换成计算机能够理解的格式。杨佳澍等人设计了一种高效的动作编码方式,把连续的动作数值分层编码为基本的动作词,就像我们使用字母拼成单词一样。这样做的好处是,机器人可以使用更少的信息来表达更加精确的动作,同时有更强的语义性,便于模型学习。

当你对机器人说请看清楚那个蓝色盒子的标签时,EyeVLA 会首先分析这句话的含义,再结合当前摄像头拍到的画面,判断该如何调整视角。它会自动计算出需要转动多少角度、放大多少倍,才能让标签清晰地出现在画面中心。这个过程是实时、连续和闭环的,就像我们使用时鼠标拖动电子地图以及放大查看细节一样自然。

相关论文的第一作者杨佳澍告诉 DeepTech:“尽管近期有其他团队使用云台电机进行感知探索,但我们的系统在扩展性、可靠性及开放场景下的完全自主性方面具有明显优势。我们是首个在完全开放场景下基于变焦相机实现语言指令驱动视觉感知的系统,无需人工引导或控制,只需给定指令即可自主完成观察。”


(来源:https://arxiv.org/abs/2511.15279)

小到找钥匙、大到医疗辅助均可使用

手动收集真机数据往往成本高昂,为了降低成本让机器人学会这套视觉动作,杨佳澍等人使用了包含两个阶段的训练方法。

第一个阶段是模仿学习,他们先是收集了少量真人操作机器的数据,记录下真人在不同指令下是如何调整视角的。接着,利用这些数据批量合成了模拟数据,让模型在虚拟数据中进行对齐,初步建立起语言、视觉、动作之间的关联。

第二个阶段是强化学习。这时,模型开始在真实数据中试错。每当做出一个动作,系统就会根据它是否看得清楚来给出奖励或惩罚。这样一来,就能在复杂场景中让机器人逐渐学会做出更鲁邦的视角调整。

当前,我们大都习惯了使用手机拍照:手机会自动对焦和调整亮度,拍摄出来清晰的照片。但是,传统的机器人视觉系统更像是一台固定在三脚架上的老式相机,它只能从一个角度、一个距离拍摄,既不能转动、也不能拉近拉远。

这就导致如果机器人要观察的目标很小、或者离得很远,它就很难看清楚。比如,想让机器人看看书架第二层那本书的书名,如果书名字体很小,普通的机器人摄像头可能只能拍摄出来一团模糊的像素,根本认不出来是什么字。

而该团队意识到,要让机器人真正地看懂世界,就不能让它被动地接收图像,而是让它主动地获取详细的信息,就像人类会转头、走近、眯起眼睛或瞪大眼睛观察事物一样。这就是主动视觉的核心思想,机器人也应该学会怎么去看,而不仅仅是看到了什么。


(来源:https://arxiv.org/abs/2511.15279)

杨佳澍表示:“现有机器人往往在机械臂前端或者固定支架上安装固定摄像头,但由于机械臂体积和活动范围等限制,无法深入狭窄或危险区域观察目标细节(如文字、纹理)。我们的方法通过纯光学变焦调整,可在机械臂无法触及的场景中实现视觉感知,避免进入杂乱或危险环境,拓宽了机器人视觉的应用范围。”

参考资料:

相关论文 https://arxiv.org/abs/2511.15279

运营/排版:何晨龙

来源:https://www.163.com/dy/article/KJ66N1CH05119734.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
国产存储如何突围,一场持久战略正在展开

国产存储如何突围,一场持久战略正在展开

如果你最近打算换手机或电脑,可能会发现同样的配置,价格已经比之前贵了一截。OPPO、vivo、荣耀等手机厂商先后对部分机型调价,深圳华强北的商户们发现,一夜之间部分机型的价格变化幅度接近千元。联想部

时间:2026-03-30 11:25
特斯拉TeraFab项目发布,年产算力超1太瓦

特斯拉TeraFab项目发布,年产算力超1太瓦

3月30日,据TeslaAI微博消息,TERAFAB项目正式发布,预计将实现每年超过1太瓦(1TW)的算力产出。马斯克预测,未来人形机器人行业的潜在年产量或将达到10亿至100亿台。随着机器人进入更

时间:2026-03-30 11:13
抖音网红公司参半完成新一轮融资,拟上市

抖音网红公司参半完成新一轮融资,拟上市

作者 |定焦One 李梦冉网红口腔护理品牌参半,要上市了。3月27日,参半的母公司 "小阔科技 "向港交所递交招股说明书,拟主板挂牌上市。这家诞生于深圳的新锐企业,曾凭借一款益生菌漱口水在80天内狂揽亿

时间:2026-03-30 11:13
Workbuddy上线小程序版:本地云端直连使用指南

Workbuddy上线小程序版:本地云端直连使用指南

今日,腾讯公关总监张军透露,腾讯版龙虾应用workbuddy推出了小程序版,不仅可以直连本机,还可以直接云上使用。据了解,WorkBuddy是腾讯云推出的桌面Agent工具,定位为职场AI智能体桌面

时间:2026-03-30 11:13
DeepSeek服务中断说明:当前问题与解决方案详解

DeepSeek服务中断说明:当前问题与解决方案详解

3月30日, DeepSeek崩了 登上微博热搜。DeepSeek最新服务状态 显示,DeepSeek网页、App服务出现重大中断。 DeepSeek最新服务状态 截图 事件报告显示,3月29日

时间:2026-03-30 11:13
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程