MIT团队利用手机传感器实现穿墙透视技术

2012年,麻省理工学院Ramesh Raskar教授团队在《自然-通讯》上发表了一项开创性研究,首次利用飞秒激光与精密光学平台,实现了对拐角后方物体的三维形状重建。然而,这套系统的造价高达50万至100万美元,且需要占据一整间实验室,门槛极高。
令人惊叹的是,仅仅十四年后,来自同一实验室的博士生Siddharth Somasundaram,仅用一颗批量售价约3.6美元的商用传感器,就实现了近乎相同的非视距成像目标。
这项里程碑成果于今年5月20日发表在顶级期刊《自然》上。研究团队的核心硬件是一颗意法半导体的VL53L8CX飞行时间(ToF)传感器芯片。这颗边长仅6.4毫米的微型芯片,集成了940纳米垂直腔面发射激光器(VCSEL)和一个单光子雪崩二极管(SPAD)探测器阵列,能以每秒30帧的速度捕获深度信息。整套演示系统的硬件成本控制在100美元以内,无需额外校准,即可稳定探测视线之外的隐藏物体。

图丨消费级非视距成像(来源:Nature)
这项看似科幻的技术,其物理原理实则直观。它依赖于激光脉冲在场景中的多次反射:光子从传感器发出,先照射到可见墙面上,部分光子继续弹射至墙后隐藏物体,再反射回墙面,最终被传感器接收。通过精确测量这些“曲折旅行”后抵达的光子的飞行时间,系统便能反推出隐藏物体的三维位置与轮廓。在此过程中,那面可见的墙,本质上充当了一面“虚拟镜子”。
非视距成像技术已在学术界发展十多年。2018年,O'Toole等人在《自然》上提出的光锥变换方法,曾将重建算法效率提升了三个数量级。然而,硬件的高昂成本与复杂性始终是阻碍其走向实际应用的核心瓶颈。
实验室级系统依赖高灵敏度单光子探测器和皮秒级时间分辨率,以从极其微弱的多次反射信号中提取信息。而消费级传感器则面临多重限制:出于人眼安全,激光功率必须很低;为适应动态场景,曝光时间必须极短;空间分辨率也有限。这导致单帧数据的信噪比极低,无法直接用于重建。
那么,Somasundaram团队是如何突破这一瓶颈的呢?他们的核心创新在于放弃从单帧数据中求解,转而利用大量帧数据的“统计合力”。团队提出了名为“运动诱导孔径采样”(Motion-induced Aperture Synthesis, MAS)的创新模型。该模型的巧妙之处在于,它将隐藏物体的形状、物体的运动以及相机自身的微小运动,统一纳入一个连贯的测量框架中。
其灵感来源于两项成熟技术:一是智能手机通过多帧合成提升画质与动态范围;二是合成孔径雷达通过综合多个天线信号来等效获得高分辨率。MAS模型做了类似的事——它利用手持相机时不可避免的自然微小晃动,等效扩大观测的“虚拟孔径”;同时,利用多帧数据间的冗余信息,显著提升整体信噪比。

图丨运动诱导孔径采样模型(来源:Nature)
正如Somasundaram所解释:“一旦我们开发出能够跨多次测量合并信息的算法,那些原本被噪声淹没的隐藏信号,就开始清晰地浮现出来。”
在论文中,团队成功演示了该系统的三项核心能力:
1. 三维重建。 只需让相机在墙面前自然移动,系统便能重建出墙后静止物体的三维点云形状。
2. 实时物体追踪。 在已知物体大致形状的前提下,系统可实时追踪其在三维空间中的运动轨迹,甚至能同时追踪多个目标。研究团队还展示了一个有趣应用:用户戴上特制回反射材料手套后,系统可稳定追踪被完全遮挡的双手位置。
3. 利用隐藏物体进行自身定位。 这对机器人或自动驾驶系统意义重大。当机器人面对一面缺乏纹理特征的白墙时,传统视觉里程计可能失效。但若知道墙后有已知物体,分析非视距信号反而能帮助机器人精准确定自身位姿。
值得注意的是,这三项能力均实现了实时在线处理。以追踪任务为例,系统采用粒子滤波算法,用1000个粒子表征物体位置的概率分布,并在每秒30帧的速率下,完成粒子的运动预测、数据权重评估与重采样全过程。
当然,必须清醒认识到,目前的效果距离科幻电影中的“透视”画面仍有巨大差距。Somasundaram指出,系统恢复的只是微弱信号中极其稀疏的几何和运动信息,与手机摄像头拍摄的百万像素级清晰图像不可同日而语。
系统目前依赖于几个较强的先验假设:隐藏物体的形状和运动在连续帧之间需保持相对一致,才能将大量微弱测量累积成强信号。如果目标突然剧烈改变姿态、被部分遮挡导致外形突变,或相机发生剧烈抖动,这些假设就会失效,导致性能下降。
论文也指出,面对真实世界中复杂的反射特性,手工设计的评分函数可能难以稳健工作。未来的改进方向,很可能需要借助机器学习来学习更优的信号匹配策略。
此外,系统对普通漫反射物体的效果,远不如对专门的回反射材料。虽然论文证明了MAS模型在漫反射条件下依然有效,但由于光强遵循四次方衰减定律,且存在大量非共焦路径干扰,信号质量会显著降低。
这项研究能登上《自然》,或许并非因为某一项具体指标达到了极致,而在于它标志着一个重要的范式转换。过去的非视距成像研究,往往始于搭建价值数万美元、需要数小时精密校准的实验平台。而Somasundaram团队的工作证明,一颗量产的、现成的SPAD传感器,就足以完成有意义的追踪和定位任务,且无需物理校准或额外硬件。研究团队已在GitHub上开源了全部代码。
“我们认为这项工作最重要的意义在于技术的民主化,”Somasundaram强调,“当一项技术变得人人可及时,人们往往会发掘出远超原始研究者想象的应用场景。”
潜在的应用方向已可窥见一斑:自动驾驶汽车在盲区路口提前感知行人或车辆;仓储机器人在杂乱环境中避开拐角后的障碍;AR头显更精准地追踪用户身体姿态……但这些可能只是冰山一角。正如研究者所言,真正革命性的应用,或许正来自他们此刻还未曾想到的领域。
参考资料:
1.https://www.nature.com/articles/s41586-026-10502-x
2.https://spectrum.ieee.org/smartphone-grade-lidar
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
阳光诺和STC009注射液临床试验申请获受理
阳光诺和子公司诺和晟泰在研的1类创新药STC009注射液临床试验申请获药监局受理。该药针对慢性肾脏病常见的继发性甲状旁腺功能亢进症,基于公司iCVETide®平台开发,以钙离子敏感受体为靶点,相关研究已发表于国际权威期刊。
沃兹尼亚克寄语毕业生善用人工智能开启智慧未来
毕业季演讲中,人工智能成为焦点。苹果联合创始人沃兹尼亚克巧妙地将AI双关为“真正的智慧”,指出AI是人类探索的延续,淡化了其压迫感。面对AI对就业市场的冲击,他鼓励毕业生保持独特性、勇于创新,强调人类的创造力与批判性思维才是不可替代的核心。其积极视角相较于其他演讲者更易被接。
MIT团队利用手机传感器实现穿墙透视技术
麻省理工学院团队利用3 6美元的商用飞行时间传感器,通过捕捉激光在墙面与隐藏物体间的多次反射信号,结合运动诱导孔径采样模型,从多帧数据中重建墙后物体的三维形状并实时追踪运动。该系统硬件成本低于100美元,无需校准,推动了非视距成像技术的实用化与普及。
苹果推出视频自动字幕新功能提升无障碍体验
苹果预告将推出全新辅助功能,可为设备内的个人视频自动生成字幕。该功能利用设备端语音识别模型,实时识别语音并生成字幕,初期支持英语并在美加地区推出。字幕处理均在本地完成以保障隐私,用户可自定义字幕样式。功能将覆盖iPhone、iPad等多款苹果设备,预计随下一代操作系统上线。
苹果手机支架新品上架 人体工学设计约370元
苹果商城新上架一款MagSafe磁吸手机支架,售价约373元。该产品由设计师与配件厂商合作开发,采纳残障人士反馈,兼顾握持舒适与稳固性。采用亲肤硅胶材质,兼具握把与多角度支架功能,外观具艺术感。售后由生产商负责,不适用苹果官方保修。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

