数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

机器视觉系统组成与机器人三维成像方法

AI热点日报时间：2026-07-03

热点解读

机器视觉系统由图像采集、处理与运动控制三部分组成，关键硬件包括相机、光源、传感器、采集卡、PC、软件及控制单元。三维成像方法有飞行时间法、扫描法、结构光投影法和立体视觉法，其中结构光投影是主流，被动单目3D成像因体积小、无遮挡问题，最适于随动眼在手系统。

工业4.0浪潮席卷全球，智能制造已进入高速发展阶段。传统的编程式机器人——那些只能机械执行固定动作的方案——面对日益复杂的自动化需求，显然已难以胜任。在实际生产场景中，我们需要为工业机器人安装一双“慧眼”，也就是机器人视觉成像感知系统。有了这一系统，机器人才能真正“看懂”周围环境，具备识别、分析、决策等高级功能，能够灵活应对并自主解决各类突发问题。这正是智能制造的核心理念所在。

那么，一套完整的机器视觉系统，究竟由哪些核心部件构成？它又是如何工作的？

拆解机器视觉系统

我们先从硬件角度，将典型的机器视觉系统拆分为三大模块：图像采集、图像处理和运动控制。如果具体到基于PC的视觉系统，则包含以下几个关键组成部分：

① 工业相机与镜头： 这是系统的“眼睛”。通常一套视觉系统会配备一个或多个这样的成像单元。若采用多路相机，则需要图像卡来切换或同步采集数据。根据应用需求的不同，相机可能输出标准的单色或复合视频信号，也可能是非标准的逐行扫描、线扫描甚至高分辨率信号。

② 光源： 光源相当于“掌灯人”，负责辅助成像。其质量往往直接决定了图像质量的上限。市面上常见的方案包括各种形状的LED灯、高频荧光灯、光纤卤素灯等。

③ 传感器： 通常以光纤开关、接近开关等形式出现。它的任务是“打前哨”，判断被测对象是否已到达指定位置，并通知图像传感器开始采集。

④ 图像采集卡： 这是系统的“数据中枢”，通常以板卡形式安装在PC中。其核心作用是将相机输出的模拟或数字信号，转换为电脑能够处理的数字图像数据流。此外，它还能控制相机的触发信号、曝光时间、快门速度等关键参数。根据相机类型和目标总线（如PCI、PCIe等）的不同，采集卡的结构也多种多样。

⑤ PC平台： 电脑是PC式视觉系统的“大脑”。所有图像数据的处理以及大部分控制逻辑都在这里完成。对于检测类应用，高性能CPU是必备条件，因为它能显著缩短处理时间。同时，考虑到工业现场的电磁干扰、振动、粉尘和温度变化，选用工业级电脑并非锦上添花，而是基本要求。

⑥ 视觉处理软件： 这是系统的“灵魂”。软件负责处理输入图像数据，通过特定算法得出判断结果，例如PASS/FAIL信号、坐标位置、识别字符串等。市面上机器视觉软件的形态也很多样，有底层的C/C++库、封装好的ActiveX控件，以及图形化的编程环境。它们可能专注于某类特定任务（如LCD检测、BGA定位），也可以是功能全面的通用平台（涵盖定位、测量、条码识别、斑点分析等）。

⑦ 控制单元： 视觉分析完成后（除非系统仅用于监控），就需要与外部设备通信，驱动整个生产过程。简单的控制可借助采集卡自带的I/O口，而复杂的逻辑或运动控制，则必须依赖独立的可编程逻辑控制器（PLC）或运动控制卡。

这套系统的工作流程，可归纳为一个经典循环：

1. 工件定位传感器检测到物体到位，向采集部分发送触发脉冲。→ 2. 采集部分按预设延时，向相机和光源发出启动信号。→ 3. 相机停止当前扫描，开始新一帧采集。→ 4. 曝光机构在扫描开始前打开，曝光时间可设定。→ 5. 光源同步开启，与相机的曝光时间匹配。→ 6. 曝光完成，相机开始输出图像。→ 7. 图像采集卡接收模拟或数字视频信号，并将其数字化。→ 8. 数字图像被存入处理器或电脑的内存中。→ 9. 处理器对图像进行分析、识别，得出测量结果或控制指令。→ 10. 处理结果控制流水线动作、进行定位或纠正运动误差。

机器人视觉成像的两种经典架构

机器人视觉系统的根本目的，是模拟人眼视觉与人脑判断的协同能力。它通过图像传感技术获取目标信息，再经过提取、处理和理解，最终用于测量、检测、识别和定位，甚至用于机器人自身的伺服控制。

在工业应用中，最具代表性的是机器人手眼系统。根据相机安装方式的不同，主要分为两大类：固定成像眼看手系统 和 随动成像眼在手系统。

图2 两种机器人手眼系统结构形式

在实际应用中，为了兼顾全局视野和局部高精度，有时会采用两者混合的协同模式。例如，用固定眼看手系统负责机器人的粗定位，再交由随动眼在手系统进行高精度定向；或者利用前者估算相对方位，由后者完成高精度的姿态估计。这种“协同视觉”的思路，正变得越来越主流。

图3 机器人协同视觉系统原理图

机器人视觉的三维成像方法

3D视觉成像方法众多，可分为光学和非光学两大类。目前工业应用最广的仍是光学方法，主要包括飞行时间法、扫描法、结构光投影法和立体视觉法。

飞行时间法（TOF）： TOF相机利用光脉冲在相机与物体间飞行的时间差来计算深度。例如Mesa Imaging SR-4000、微软Kinect V2等，都是成熟的商业化产品。其优势在于速度快、视野大、工作距离远且成本较低，非常适合大视野、远距离的应用场景。但它精度相对较低，且容易受环境光线干扰。以Camcube3.0为例，它在4米距离内的深度精度小于3毫米，并且每个像素都能提供对应的3D数据。

扫描3D成像： 这类方法又可细分为扫描测距、主动三角法和色散共焦法。扫描测距是用一条准直光束通过一维测距来扫描整个表面。主动三角法基于三角测量原理，利用一条或多条平面光束（如线结构光）进行扫描（如图4所示）。色散共焦法则通过分析反射光的光谱，计算出对应波长的聚焦位置（如图5所示）。

图4 线结构光扫描三维点云生成示意图

图5 色散共焦扫描三维成像示意图

扫描3D成像的最大优点是精度极高。其中色散共焦法更有独特优势——它能完美胜任透明、高反光和光滑表面的测量。但其致命伤是速度慢、效率低。当安装在机械臂末端时，虽然能实现高精度测量，却难以满足实时3D引导与定位的需求。此外，主动三角扫描在测量复杂结构时，很容易产生遮挡问题，需要精心规划机器人的末端路径和姿态来规避。

结构光投影3D成像： 这可以说是目前机器人3D视觉感知的主流方案。系统通常由一个（或多个）投影仪与一个（或多个）相机组成。其工作原理是：投影仪向目标投射特定结构光图案，相机摄取被目标表面调制的图像，最后通过图像处理算法和视觉模型，解算出物体的三维信息。

根据投影次数，这种方法又分为单次投影和多次投影。单次投影3D主要采用空间或频率复用编码，由于曝光和成像时间极短，抗振动性能好，非常适合运动物体的3D成像，例如机器人对流水线上连续运动的物料进行抓取。

多次投影3D则具有更高的空间分辨率，能有效处理表面斜率突变和“空洞”问题。但它也有几个明显短板：容易受投影仪、相机的非线性影响；抗振性能差；不适合在连续运动中成像；实时性有待提高。好在随着投影频率和传感器采集速度的提升，多次投影方案的实时性也在不断改善。

对于粗糙表面，结构光可以直接投射。但如果遇到高反射率的镜面物体，则必须借助“偏折法”。不过，偏折法对表面曲率变化非常敏感，在测量复杂面型时同样面临挑战。

立体视觉3D成像： 顾名思义，立体视觉是从不同视点获取两幅或多幅图像，通过匹配来重构深度信息（如图6所示）。

图6 立体视觉三维成像示意图

立体视觉分为被动和主动两种。被动视觉完全依靠目标场景的自身辐射光，对环境要求较高——室内、动态范围不大、表面纹理清晰、几何规则明显。主动立体视觉则通过光调制（如编码结构光）对目标表面进行标记，从而更可靠地找到匹配点。其优点是抗干扰能力强，精度和稳定性高；缺点是结构复杂的场景容易产生遮挡。

基于结构光和3D物体识别技术开发的机器人视觉引导系统，已经能够对散乱堆放的零件进行全自由度定位和拾取。相比传统的2D视觉（只能识别固定深度的零件），它在柔性和检测范围上都有质的飞跃，是机床上下料、零件分拣、码垛堆叠等工业问题的有效解决方案。

机器视觉3D引导系统框架

一个完整的3D引导系统，其核心工作流程大致如下：

3D重建与识别： 通过自主开发的3D扫描仪，快速获取场景的点云图像。再利用3D识别算法，从点云图中识别出多种目标物体，并估算其位姿。

3D重建与识别效率： 算法的效率直接决定了系统的响应速度，是衡量方案可行性的重要指标。

多种材质识别效果测试： 凭借稳健的重建和识别算法，即使是反光严重的铝材或黑色工件，也能获得稳定的识别效果。这意味着同一套系统可以适用于广泛的工业场景。

机器人路径规划： 获得零件的位姿信息只是第一步。要成功完成拾取，还必须进行碰撞检测、抓取姿态计算、路径规划与优化等一系列工作。

一套成熟的机器人轨迹规划算法，能够轻松胜任这些任务，确保拾取过程稳定可靠。

快速切换拾取对象： 只需几次简单操作就能切换拾取对象，这正是柔性制造的魅力所在。

性能比较与选型分析

面对众多3D成像方法，如何为工业机器人选择最合适的“眼睛”？

1. 单相机3D成像方案： 例如飞行时间相机、光场相机，体积小、实时性好，理论上非常适合随动眼在手系统。但在当前阶段，它们还难以成为主流。飞行相机精度和分辨率太低；光场相机（如德国Raytrix）虽有较好性能，但高昂的价格让大多数工业用户望而却步。

图7 随动成像眼在手系统机器人3D视觉成像优选方案

2. 结构光投影3D系统： 精度和成本都处于一个非常适中的区间，市场前景相当不错。它由多个相机-投影仪构成，本质上可看作一个多目三角测量系统。

3. 被动立体视觉： 在工业领域已有较好应用，但受限于应用场景。它对目标的纹理或几何特征有较高要求，无论是单目、双目还是多目，匹配点的可靠获取都是难点。

4. 结构光投影与双目立体视觉的共性缺点： 体积较大，且普遍存在遮挡问题。虽然可通过增加投影仪或相机来覆盖盲区，但这会进一步增加系统体积，降低在眼在手系统中的应用灵活性。

总结

尽管光学3D视觉成像方法层出不穷，但真正能够安装到工业机器人末端、构成合适的随动成像眼在手系统，并对运动目标进行高精度测量、定位与操作的方案，选择其实相当有限。

从工业应用的务实角度来看，一个3D视觉传感器的价值，最终取决于三个核心指标：精度、速度、体积与重量。机器人末端能承受的载荷和空间都非常有限，因此，传感器在满足精度的前提下，自然是越轻、越小越好。

那么，哪个方案是最优解？答案是：被动单目（单相机）3D成像方法。它不仅体积小、重量轻，更重要的是，它从根本上解决了双目和多目系统中一直困扰工程师的遮挡难题。对于随动成像眼在手系统而言，这或许就是那个最理想的答案。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：机器视觉系统组成与机器人三维成像方法要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://m.elecfans.com/article/1342241.html

机器视觉

上一篇：恩智浦进一步扩展机器学习产品组合与功能

下一篇：深度学习为何至今未取代传统计算机视觉技术

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。