张进教授解析空间智能：超越传统多模态感知的关键路径

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

张进教授解析空间智能：超越传统多模态感知的关键路径

热心网友时间：2026-05-16

转载

12月12日，第八届GAIR全球人工智能与机器人大会在深圳拉开帷幕。作为观测AI技术演进与产业生态变迁的重要风向标，GAIR大会自2016年创办以来，始终与全球人工智能发展的脉搏同频共振。今年，当行业焦点从大模型的“技术破壁”转向“价值深耕”时，这场盛会如期而至，汇聚前沿智慧，共同触摸AI发展的深层逻辑。

会上，南方科技大学计算机科学与工程系长聘副教授张进带来了一场关于感知技术前沿的精彩分享。她开门见山地指出，无论是当下火热的“具身智能”还是“智慧健康”，其核心都离不开对物理世界的精准感知与理解，目标是在虚拟与物理世界之间架起沟通的桥梁。从这个角度看，传统AI与新型传感技术，可谓是从不同路径出发，最终“殊途同归”。

殊途同归：从多模态到物理感知的融合之路

传统AI的路径，是从语言、文字、视觉等模态数据出发，构建世界模型，进而探索空间智能。然而，如果我们把视线拉回到二十年前，在无线通信与网络领域，研究人员早已开始布设无线传感器网络，对山川河流乃至空中环境进行监测。再往前追溯，数字孪生、智慧城市、智能交通等概念的实践，其底层逻辑同样是为了更准确地感知物理世界。从有线到无线，从WiFi到手机信号，人类一直在尝试用各种方式“理解”周遭环境。

那么，这两条路径是如何交汇的呢？早期的感知依赖于信号处理，随后机器学习、深度学习带来了更强大的信息理解能力。如今，大模型的出现，使得我们能够以前所未有的深度去解析传统传感器信号，从而催生了面向空间智能的下一代多模态感知。

不过，目前常见的“多模态”大多仍集中在语音、文字、图像、视频等传统形式。像激光雷达、点云、深度摄像头等，也只是与传统视觉略有结合。真正的突破，或许在于引入更多像声波、毫米波雷达这样的新型感知模态。

声波感知：低成本、高潜力的“隐形”感官

相较于已有一些应用的毫米波雷达，声波感知的探索目前相对较少，但其潜力不容小觑。为什么要发展这些新型传感器？道理其实很直观。现有的视觉传感器复杂度高、依赖光照条件，还存在隐私顾虑。如果要在小型机器人或穿戴设备上集成摄像头及处理芯片，其功耗和成本都是巨大的挑战。那么，是否存在更经济、更高效的感知方案？

这正是声波感知的优势所在。我们身边的智能设备，如手机、智能眼镜、耳机、智能音箱，几乎都标配了扬声器和麦克风。无需额外硬件，只需让设备发出人耳听不到的声波，并接收其从环境反射回来的信号，就能像蝙蝠一样感知周围的物体、距离和运动。这种方法成本低廉、计算量小，非常适合对功耗和体积敏感的机器人及物联网应用。

目前，声波感知已展现出多样化的应用场景。例如，在智能汽车的车内定位、笔记本电脑的隔空翻页操控中，都已见到其身影。这些交互并非依靠摄像头，而是通过声波实现的。在智能眼镜和耳机等设备上，其应用前景更为广阔。

早期的研究仅理解信号本身，例如利用两个距离很近的扬声器发射特殊旋转声场信号，就能实现厘米级的精准定位，这在设备间定位场景中至关重要。更进一步，声波感知还能实现3D运动追踪。当然，从两个设备间的感知扩展到多设备协同，面临着信号冲突等诸多挑战。近年来，通过与荣耀、华&为等厂商的合作，团队正在攻克这些难题，未来有望将多设备声波感知技术集成到开源生态中，作为提供连接与方向感知的基础设施。

在智能交互层面，声波感知同样大有可为。团队在智能眼镜交互上投入了大量精力，目标是实现仅通过眨眼、挑眉等细微面部动作来控制设备。其原理依然是利用扬声器发声，通过麦克风接收反射信号来识别动作，最终实现无需抬手、仅凭眼球运动即可操控眼镜。

此外，针对智能眼镜前众多图标需要手动滑动点击的痛点，团队开发了一种面部传感器。它通过发射较高频的次声波，便能精准感知触摸、滑动等手势。未来这种传感器若能集成到眼镜中，几乎可以做到外观隐形。

隔空手势识别是另一个重点方向。以智能眼镜为例，侧边的触控板在触碰时可能引起镜框晃动，影响体验。能否实现完全隔空的控制？这里的挑战不小。

目前主要有两种技术路径：一种是被动感知，即识别手部滑动产生的微弱声音；另一种是主动感知，由扬声器发出不可闻声波，通过回波进行感知。两者目标一致，都是实现精准的隔空手势识别。

除了眼镜，蓝牙耳机的交互也存在痛点。目前主流操作仍依赖触摸耳机柄的不同位置，灵敏度调节不易掌控。团队的目标是实现“无接触”控制。

一项创新灵感来源于助听器。助听器需要精准区分声音方向，且用户通常希望其佩戴不被察觉。受此启发，团队在蓝牙耳机上集成了隔空隐蔽式传感器，用户只需用舌头顶住上颚不同位置，即可向耳机发出指令。原理在于耳道、上颚与口腔连通，耳道发出的声波在口腔内反射，舌头位置变化会显著改变信道特性，从而被感知识别。这项成果已发表于今年的人机交互顶会。

在舌控之外，团队也实现了隔空手势控制耳机。这其中涉及手势定义、环境抗干扰、信号选择等诸多挑战，看似小巧的系统背后是复杂的技术攻坚。这些前沿交互研究已引起多家消费电子厂商的兴趣，相关落地工作正在推进中。

从健康监测到康复指导：声波感知的医疗蓝图

声波感知的另一大应用舞台是医疗健康领域。实际上，利用声波进行健康监测的研究已持续十多年，而团队在远程健康监测领域的积累更是接近二十年。

当前，利用手机等设备非接触式监测呼吸、心跳已较为成熟。团队现在聚焦的，是利用耳机实现肺功能监测。中国有庞大的慢阻肺与哮喘患者群体，他们需要定期到医院进行肺功能检查，过程不便。如果未来仅凭日常佩戴的耳机，就能获得与医院昂贵设备相近的监测结果，对患者而言意义重大。

团队的研究分两步走：最初仍需用户对着连接耳机的管子吹气；而最新的进展是，用户正常说话即可完成肺功能评估，实现了真正的无感监测。

然而，监测只是第一步。临床医生指出，真正的医疗价值在于形成“监测-干预”闭环。例如，腹式呼吸训练是常见的肺部康复手段，但患者在家往往难以坚持正确的呼吸方式。为此，团队探索利用声学摄像机或毫米波雷达，来评估患者的呼吸模式与深度，从而替代医护人员，提供实时的呼吸训练指导。目前，这项研究正与广东省人民医院合作开展。

此外，团队还开发了基于声波的房颤监测系统，只需将设备置于手上即可操作，简便易用。展望未来，一副耳机或许就能同时监测呼吸、心跳、压力，并在需要时提醒呼吸训练、播放舒缓音乐。这条路径前景广阔，但仍需持续完善。

在健康感知领域，柔性传感器也是重点方向。团队尝试将柔性传感器置于耳内或手腕，用于连续血压监测。这里的核心挑战在于数据模态的转换：传统监测多基于光电传感器（PPG），切换到柔性传感器后，可用数据量大幅减少。难点主要集中在两方面：一是实现跨模态的可靠监测，二是在健康人群上验证有效的模型，在病理状态下的表现可能不同。未来需要收集更多临床患者数据，这条路依然漫长。

毫米波雷达：从精准识别到可信感知的进化

最后，分享转向了毫米波雷达感知。团队在此领域已有近十年的研究积累，早期工作包括基于毫米波雷达的SLAM（同步定位与地图构建）、材质识别等。近年来，关注点逐渐从“检测准确率”转向了“可信感知”。

例如，利用毫米波雷达追踪人体运动并生成骨骼图已是可行方案。但一个根本性挑战在于数据匮乏——毫米波雷达数据稀缺，而视觉数据却海量。因此，一个关键研究方向是如何利用丰富的视觉数据来合成毫米波数据，以辅助模型训练。

在这个过程中，团队发现了新的问题：视觉上的欺骗可能“污染”毫米波雷达的判断。这意味着，仅仅能识别目标还远远不够，必须确保感知的“可信度”。

一个交通场景的例子能很好说明风险：前方有车，但旁车开门形成视觉遮挡，可能导致系统生成错误信号，误判前方无车而引发碰撞；反之，前方无车却生成“有车”信号，则可能导致不必要的急刹和追尾。

如何防御这类“生成式欺骗”？团队后续开展了一系列工作。一个思路是让毫米波雷达发射的信号形成多个不同的传播路径。通过对比不同路径下测得的运动速度、距离等信息（A路径结果与B路径结果），可以有效区分真实信号与欺骗信号。

这项研究引申出一个值得警惕的未来场景：如今人们进入陌生房间会担心隐藏的摄像头。未来，如果存在恶意部署的毫米波雷达，无需“偷拍”即可感知室内一切，我们该如何探测、发现并清除它？这也是团队正在探索的安全研究方向。

未来方向：理解、融合与生成

回顾声波与毫米波雷达感知的发展，其历程与研究者背景紧密相关。从电子信息到计算机科学的跨学科背景，使得研究路径从早期的信号处理，逐步演进到结合物理意义的深度学习模型设计。例如，毫米波雷达信号具有稀疏性和天线间的角度关联性，不能简单套用视觉网络，必须依据其物理特性设计专用模型。

面向未来，新型模态感知的研究将主要围绕三个方向展开：

首先，继续深耕物理信息辅助的新型模态理解模型。当前许多毫米波雷达模型倾向于先生成点云再进行分析，但生成点云本身已损耗部分信息。未来的方向是直接在原始信号上进行理解，将物理机理深度融入模型设计。

其次，探索传统模态与新型模态的融合理解。如何让视觉、语音等与传统AI强相关的模态，与声波、毫米波等新型物理感知模态有效结合、互补增效，是一个重要课题。

最后，积极拥抱大模型浪潮。大模型正在重塑千行百业，智能感知领域也不例外。团队正在探索利用大模型自动生成代码，来检测物理世界的感知信号并直接输出结果，这有望大幅提升开发效率。

基于大模型的感知模型生成工作才刚刚起步，预计未来五到十年将迎来繁荣发展。

总而言之，面向空间智能与物理世界的多模态感知需求极其庞大。传统感知模态有限，而未来需要更多像声波、毫米波、柔性传感这样的新型模态，它们将在不同场景中发挥独特优势。研究者的任务，就是深入理解这些新型感知模态，设计与之匹配的先进模型，从而更全面、更精准地感知物理世界。因此，未来的研究将必然聚焦于数据理解、数据生成等核心问题。当前新型模态的数据依然稀缺，如何高效生成数据、防御安全风险、实现端侧轻量化部署，都是亟待深入探索的关键课题。

对话张进：技术“无形”，感知“无感”

问：您的研究背景从电子通信跨越到感知领域，契机是什么？

张进：我本硕在清华攻读电子通信，博士在香港科技大学转向计算机科学。结合背景，博士期间我研究认知无线电。毕业后与医院合作，将无线信号技术应用于智慧医疗，由此发现信号也能感知健康状态。人口老龄化的趋势让我意识到，智慧健康领域的感知需求将非常巨大。学界与业界始终相互推动，因此在2014年左右我选择回到学术界，持续深耕健康检测感知技术，并逐步拓展到毫米波雷达（2014年至今）和声波感知（2018年开始）的应用研究。我常对学生说，求职时不必苛求研究方向与岗位完全对口，重要的是用系统性思维拆解需求，找到解决问题的突破口，这是一个成功的研究者应具备的能力。

问：声波感知、毫米波雷达等新型技术，将如何影响普通人的生活？

张进：真正的好技术是“无形”且“无感”的。就像我们从充电仓取出蓝牙耳机戴上，它能自动连接手机，无需额外操作。如果戴上后还需点击手机才能使用，体验就大打折扣。新型感知技术的核心目的，正是让设备能智能理解周边环境，实现更自然便捷的人机交互。例如，现在与AI设备互动，往往需要拍照或发出语音指令。未来，随着多模态感知技术的成熟，设备或许能在我们无需明确指令的情况下，自动理解环境并执行任务。

问：新型模态感知对空间智能发展有何作用？未来的感知世界会是怎样的？

张进：传统AI通过视觉、听觉、文本来认识世界，但对物理世界中的距离、空间关系等概念缺乏本质理解。要让空间智能真正理解物理世界，必须借助声波、毫米波雷达这类物理传感进行空间感知。因此，新型模态感知技术对空间智能的发展不可或缺。

同样，在感知层面，“无形”和“无感”仍是理想状态。新型感知是一个复杂领域，需要针对不同场景需求和设备限制，提供不同的技术方案。声波、毫米波等各有优劣，很难有一种技术通吃所有场景。未来更可能的图景是，多种感知技术融合协作，在特定场景中组合应用，共同满足产品智能化的需求。

来源:https://www.leiphone.com/category/ai/AxnzXjbHcktRx5EE.html

上一篇： Figma自动布局间距失效原因与画布网格对齐设置检查

下一篇：千问AI购物助手：智能比价省钱攻略与使用技巧