优必选开源具身智能视觉语言模型Thinker详解

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

优必选开源具身智能视觉语言模型Thinker详解

热心网友时间：2026-05-23

转载

Thinker是什么？优必选开源具身智能视觉语言大模型深度解析

在机器人技术发展的进程中，一个普遍存在的核心挑战是：机器人能够“看见”环境，却难以真正“理解”并据此做出连贯、合理的行动决策。优必选最新开源的具身智能视觉语言大模型Thinker，正是为解决这一“感知-决策-执行”的割裂问题而生。这款参数规模达40亿的先进模型，已在9项国际权威基准测试中斩获全球第一的优异成绩。其根本目标，是赋予机器人深度视觉理解、逻辑推理与行动规划的综合能力，实现从“被动感知”到“主动思考”的跨越。

Thinker的能力体系全面覆盖了任务规划、三维空间理解、时序推理与高精度视觉定位四大维度，致力于构建从环境感知到动作执行的完整智能闭环。尤为关键的是，Thinker的成功并非依赖于海量低质数据的堆砌。其训练数据经过了极为严苛的筛选与净化流程——从高达20亿的原始数据池中，最终精炼出1000万条高质量、强对齐的样本。通过一套创新的自动化数据标注框架，将人工标注成本降至总成本的1%以下。该技术已在优必选自主研发的人形机器人Walker S2上得到成功验证，在复杂工业场景中实现了高达99.99%的作业准确率，标志着具身智能正从前沿研究走向规模化、普惠化的实际应用。

Thinker的核心功能有哪些？

Thinker如何具体地为机器人注入“智慧大脑”？我们可以从以下四个核心功能维度进行深入剖析：

1. 复杂任务规划：面对人类下达的复杂、多步骤指令，Thinker不仅能解析语言的字面含义，更能结合机器人自身的历史状态记忆，预测任务执行过程中的未来状态演变。它能将一项宏观的长期任务，像项目管理一样，智能拆解为一系列逻辑清晰、可顺序执行的原子子任务，确保机器人行动步骤清晰、高效无误。

2. 三维空间理解：这是机器人进行物理交互的基石。Thinker为机器人构建了一个以自我为中心（Egocentric）的立体坐标系。简而言之，它将机器人的视觉传感器（如摄像头）视为三维空间的“原点”。环境中所有物体的前后、左右、上下等空间关系，都基于这个原点进行精确计算和定义，从而使机器人获得类人的精准空间感知与定位能力。

3. 时序动态推理：真实世界处于持续变化之中。Thinker能够从一段连续的视频历史记录中，提取关键的事件节点和状态变迁信息，并将这些“过去”的上下文与当前的实时指令进行融合分析。这使得机器人能够准确判断“当前时刻”所处的状态，从而做出符合时序逻辑的合理决策。

4. 精准视觉定位：理解之后，关键在于如何行动。Thinker能以两种高精度的形式为机器人指明操作目标：一是输出目标物体的边界框（Bounding Box），二是直接给出其在三维空间中的精确坐标点。这为后续的抓取、放置、装配等具体操作提供了至关重要的“行动指南”。

Thinker的技术原理与创新点

强大功能的背后，是Thinker扎实而创新的技术架构体系。其实现主要围绕高质量数据构建、高效模型设计、两阶段训练策略以及关键技术创新四个层面展开。

数据构建：质量优先，效率倍增
面对20亿条存在大量噪声、多模态信息难以对齐的原始数据，Thinker团队构建了一套完整的数据精炼流水线。首先通过定制化规则进行初步筛选，再利用大语言模型进行多维度、细粒度的质量评分与过滤，最终“萃取”出1000万条高质量训练样本。在标注环节，创新性地采用“大模型辅助标注 + 多模型交叉验证”的全自动化流程，将人工参与率成功控制在1%以下。这一方法带来了颠覆性效益：数据标注成本降低99%，整体效率提升超过百倍。

模型架构：统一表征，深度融合
Thinker采用了经过验证的经典视觉语言模型架构，核心包含文本分词器、视觉编码器、多模态对齐层（MLP）以及语言模型骨干网络。该设计的精妙之处在于，它实现了对视觉信息、语言指令和时间序列信息的统一、深度融合表征。这使得模型能够同步处理细腻的像素级视觉特征、理解复杂的自然语言任务描述，并进行跨模态的深度逻辑推理。

训练策略：两阶段锻造，循序渐进
模型的训练过程科学而严谨。Thinker采用了两阶段训练法：第一阶段，在通用多模态数据集、空间理解专用数据集以及大规模任务规划数据集上进行预训练与微调，旨在建立模型基础的视觉感知与通用推理能力。此阶段引入了一个巧妙的技巧——将视频片段的最后一帧作为辅助输入，以强化模型对视频整体语义的把握。第二阶段，则专注于在真实的工业任务数据集上进行监督微调，让模型学习序列依赖关系、适应多样化的物体布局，并掌握基于环境反馈的行动修正能力，最终生成可直接在工业流水线上执行的鲁棒性行动规划。

关键创新：巧思设计，性能卓越
针对机器人第一视角易产生视觉混淆、长视频信息易丢失关键帧等行业难题，Thinker提出了一种简洁高效的解决方案：在视频理解训练中，联合输入提取的关键帧与完整的视频序列。这一方法显著提升了模型对长时序关系的捕捉与理解能力。同时，凭借前述的高质量数据筛选与任务导向的智能采样策略，Thinker在仅40亿参数的中等规模下，实现了超越许多百亿参数级别模型的性能表现，真正做到了“小模型，大智慧”，在效率与性能间取得了绝佳平衡。