当前位置: 首页
AI
张进对话GAIR 2025:AI超越视觉感知的认知新突破

张进对话GAIR 2025:AI超越视觉感知的认知新突破

热心网友 时间:2026-05-16
转载

近年来,人工智能正加速从实验室的“盆景”走向真实世界的“旷野”。感知,这一看似古老的技术命题,也随之被推到了下一代智能系统发展的核心位置。

无论是自动驾驶、智能终端,还是当前备受关注的空间智能与具身智能,系统所需完成的已不仅是信息理解,更需要在复杂、动态的物理环境中,持续、可靠地捕捉环境信号。现实应用很快揭示了单一视觉感知的局限,这促使整个行业重新审视:多模态感知技术究竟应如何支撑未来的智能交互?

在此背景下,声波、毫米波等无线感知技术逐渐步入主流视野。其核心理念尤为独特:不追求“看见”,而是通过对物理信号的建模与分析,让设备在几乎不增加硬件负担、且最大限度保护用户隐私的前提下,理解周围环境与人的行为。尽管距离大规模普及尚有距离,但它们已被业界广泛视为构建空间智能、实现无缝物理世界交互的关键基石。

在GAIR 2025大会上,南方科技大学副教授张进围绕无线感知、多模态融合以及面向空间智能的新型感知技术,进行了深度分享。长期扎根科研一线的她,关注焦点并不仅是实验室的优异数据,更是这些技术在真实场景中的可行性与可靠性。

会后,我们与张进教授展开了一场对话。相较于宏大的技术愿景,她更倾向于从具体的研究实践出发,探讨感知技术在落地过程中所面临的实际约束与挑战。以下为经整理的对话实录。

一所大学的崛起与一位学者的抉择

AI科技评论:您的学术履历非常扎实,从清华到港科大,最终选择加入南方科技大学,当时是基于哪些考量?

张进:这个选择,并非出于简单的职业“跳槽”逻辑。核心原因在于,我亲身见证过一所年轻大学在正确的制度与环境下,所能迸发的巨大能量。香港科技大学便是一个鲜活例证,成立仅二十余年,已跻身世界一流。我曾在那里工作,对此有深切体会。

当时的南科大,正处在“必须成长起来”的关键阶段,并且获得了深圳市明确而坚定的支持。校内流传着一句响亮的口号:“叫醒南科大学生的不是闹钟,而是中国高校改革的号角。”这绝非空谈,而是一种真实的状态——大家是以创业的心态在创办这所大学。

我加入时,学校甚至连计算机系都尚未设立,完全是从零开始搭建。寻找系主任、确立学科方向、制定培养方案……我们一步步将计算机系建立起来。至今,系里每年培养约200名学生,十年累计近2000人。虽不敢言已多么强大,但至少体系完整、规模稳定,这对一所年轻大学而言,实属不易。

AI科技评论:若将南科大比作一家创业公司,您是否更接近“联合创始人”的角色?

张进:某种程度上确实如此。这种深度的参与感,会让你对学校产生截然不同的情感。学生如何培养、课程如何设计、学科方向怎样规划……这些都不是照搬现有模板,而是你亲自参与制定的。

我目前不仅是计算机系的副系主任,负责研究生培养与科研工作,同时也是致仁书院的副院长。书院制是南科大的重要特色。加之去年我们成功获批博士点,可以说,计算机系从2014年起步开展本科培养,到逐步完善研究生体系,这一整套框架,都是我们亲手构建的。

正因为经历了从无到有的全过程,这份感情与责任感,是截然不同的。

AI科技评论:除了学校,深圳这座城市对您的研究有何特殊意义?

张进:许多人提到深圳,第一反应是“资金充裕”。但深圳的优势,远不止于此。美国同样资金雄厚,硅谷亦然,但硅谷的许多硬件最终仍需回到深圳制造。

深圳真正强大的地方在于,它同时拥有极其完整的产业链配套、高度密集的人才储备,以及真实存在的旺盛市场需求。这三者叠加产生的效应,在全球范围内都相当罕见。

港科大的许多毕业生,最终会选择来到深圳,或创业,或投身科研。我们所致力开展的,正是那些能够真正改变世界、并能与产业深度结合的研究。而深圳,恰好处在高速成长的阶段。在这个阶段入场,而非等待格局既定后再加入,其想象空间与施展舞台自然广阔得多。

从通信到无线感知的「自然演进」

AI科技评论:您的研究方向跨度不小,最初是从何处起步的?

张进:我的研究方向确实经历了多次演进。硕士阶段在清华,从事3G/4G无线移动通信系统研究。赴港科大读博后,进入计算机系,方向转向无线网络,主要关注WiFi多基站间的协同部署问题。

随后进一步深入至认知无线电领域,即让通信系统具备一定智能,能自动感知频段占用情况并进行动态切换。博士毕业后,我开始尝试将无线信号应用于智慧医疗场景。

起初仅是使用无线网络传输医疗数据,但很快意识到,无线信号本身便可用于感知人的健康状态。这一发现,成为了一个重要的转折点。

AI科技评论:在智慧医疗领域,具体进行过哪些探索?

张进:博士毕业后,我在港科大有过一段创业经历,与深圳市人民医院、第二人民医院开展了深入合作。我们共同开发了移动健康监测系统,包括管理数万名患者的网络医院平台,也曾涉足脑卒中筛查等工作。

如今回顾,我们起步得非常早。当时,像Fitbit、Jawbone这类智能手环产品尚未出现。也正因为过于超前,技术条件、产业环境与市场认知均未成熟,许多尝试最终未能实现规模化落地。

这段经历让我深刻认识到,一些真正前沿、周期漫长的探索,或许更适合回到学术界进行持续、深入的耕耘。

AI科技评论:后来是如何系统性地转向感知技术方向的?

张进:回归学术界后,我并未放弃对健康与环境感知的关注,而是开始从“非视觉”角度重新审视这一问题。2014年加入南科大后,开始系统研究毫米波雷达技术;到2018、2019年左右,又逐步引入声波感知,同时继续深化毫米波方向的研究。

从技术路径看,这是一个非常自然的演进:从早期的信号处理,逐步引入机器学习、深度学习,再到如今的大模型技术。我们方向有一个天然优势:团队既具备扎实的信号处理背景,又拥有计算机与人工智能的知识储备,因此能更有效地将物理信号与AI模型相结合。

让设备「无形」却「更懂你」

AI科技评论:能否以通俗的方式解释,什么是声波感知与毫米波感知?

张进:声波感知其实非常直观。你可以将手机、电脑或耳机想象成一只蝙蝠:设备上的扬声器发出人耳听不到的超声波,声波遇到周围环境或人体后反射回来,再由麦克风接收。通过分析这些反射信号,就能感知环境、检测呼吸心跳、识别手势,甚至判断设备间的相对位置。

它的最大优势在于,无需额外加装专用传感器,成本低、体积小,但感知能力却相当强大。

毫米波感知,大家最熟悉的可能是汽车前方的毫米波雷达,用于探测车辆。但在生活场景中,它同样能监测室内是否有人、人数多少、人的具体位置、心跳状态,甚至是否发生跌倒。同时,它又“看不见”具体形象,在隐私保护方面比摄像头更具优势。

AI科技评论:您认为,目前公众对感知技术最大的误解是什么?

张进:实际上,感知技术本身或许并不需要被大众“理解”。最好的技术,往往是让人察觉不到其存在的技术。

就像一副真无线耳机,戴上即连,这便是最佳体验;若需用户反复操作才能连接,体验便会大打折扣。感知技术的核心目标,是让设备在获得环境理解能力后,能自然而流畅地完成交互,而非总需要用户告知设备“此刻正在发生什么”。

AI科技评论:在推动人工智能与科学发展的进程中,感知技术扮演着怎样不可替代的角色?

张进:当前业界热议“空间智能”,但仅依靠视觉、语音和图像是远远不够的。图像难以精确获取距离与真实的空间结构,而要真正理解并与物理世界交互,就必须引入物理感知模态。

事实上,人类最早发展的智能并非语言智能,而是空间智能。智能机器若要成为真正的智能体,也必须具备对物理空间的理解与交互能力。此时,声波、毫米波以及其他新型感知模态,便变得不可或缺。

当感知技术真正步入现实世界

AI科技评论:感知结果是否足够可信?是否存在被攻击的风险?

张进:这正是我们近两三年重点关注的课题。尤其是毫米波雷达已大量应用于汽车领域,对安全性的要求极高。一旦感知系统被攻击,可能导致车辆“看不见”真实存在的障碍物,或“看见”根本不存在的障碍,从而引发严重事故。

因此,我们不能天真地假设世界上所有人都是“善意”的。感知系统必须在信号设计、模型结构乃至整体系统层面,都具备抵御攻击的能力,才能真正称得上是“可信感知”。

AI科技评论:您的研究方向跨度如此之大,如何看待科研过程中的“得”与“失”?

张进:科研的本质,或许就在于保持好奇心。如果每日只是在重复已知的事务,意义其实有限。研究方向会随着世界的变化、社会的需求而调整,但科研的内核是不变的:发现问题、理解前沿、解决他人未曾解决的问题。

我常对学生说,求职时不必只盯着公司要求的技术是否与你硕士或博士期间的研究完全对口。真正重要的是,你是否具备了系统分析问题、构建解决方案的能力。一个成功的博士,理应拥有快速进入任何新领域的学习与适应能力。

AI科技评论:您如何看待“女生不适合学习工科”这种观点?

张进:我完全不认同这种说法。我不认为女生的逻辑能力天生逊于男生,很多时候,是因为被反复暗示“你不行”,才导致了信心不足。

事实上,女生学习计算机乃至硬核理工科,反而具备诸多独特优势:稀缺性高、沟通与共情能力强、更为细致耐心、抗挫折能力与韧性也往往更佳。在需要紧密协作的大型系统性研究中,这些素质都至关重要。

我培养过许多非常优秀的女学生,其中包括南科大第一位获得美国高校教职的本科生。因此,女生完全有能力,也非常适合选择计算机和硬核理工科方向。

AI科技评论:如果请您描绘未来三年内的感知世界,会是怎样的图景?

张进:感知领域的未来,注定是高度多样化、甚至碎片化的。很难有一种技术能“通吃”所有问题。不同的应用场景、不同的设备约束、不同的用户需求,会对应不同的技术组合方案。

但万变不离其宗,最终的目标是一致的:技术必须真正落地到产品中,让产品变得足够智能,使得用户无需额外输入信息,设备便能理解物理世界。只要能做到这一点,无论采用何种技术路径,都是优秀的感知技术。

来源:https://www.leiphone.com/category/yanxishe/dy4ahf8zgzT6wHDx.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
两轮电动车快充电池发布 20分钟充电80%不损伤寿命

两轮电动车快充电池发布 20分钟充电80%不损伤寿命

行业首款针对电动两轮车的超充电池发布,核心解决了快充损伤电池寿命的痛点。该电池采用全极耳圆柱电芯、三层热管理和智能充电算法,宣称在20分钟内即可充电至80%,且循环寿命超过2000次。产品具备IPX7防水、宽温域工作和高震动耐受等安全特性,标准化设计可适配九成以上主流车型,并支持充换电两种模式。目前

时间:2026-05-16 16:13
汉王录写本M6发布 录音转写阅读三合一售1599元

汉王录写本M6发布 录音转写阅读三合一售1599元

汉王科技近日发布了AI数字文具新品录写本M6。该产品创新性地融合了录音本、记事本和阅读本三大功能,致力于成为用户的全场景随身生产力工具。其设计旨在通过一机多用来提升学习与工作效率,官方定价为1599元。这款产品主要面向有会议记录、学习笔记及电子阅读需求的商务人士和学生群体,为数字文具市场提供了一个功

时间:2026-05-16 16:13
AI寻亲平台如何通过大模型模糊匹配技术寻找走失亲人

AI寻亲平台如何通过大模型模糊匹配技术寻找走失亲人

一款名为ReUnite的AI寻亲公益平台近日受到关注。它起源于一位AI工程师受寻亲故事触动后的创意,并在全球开发者大赛中获得公益奖。该平台的核心是利用大模型的长期记忆能力,对失散人员碎片化的体貌特征、童年记忆等信息进行跨时空的模糊匹配,以提升寻亲成功率。目前,该项目已获得300万孵化资金及专业团队支

时间:2026-05-16 16:13
谷歌AI光标革新鼠标交互体验智能时代新突破

谷歌AI光标革新鼠标交互体验智能时代新突破

Google在AndroidShow大会上展示了名为“魔法指针”的AI光标技术,为传统鼠标赋予视觉识别能力。这项技术让光标能够理解用户指向的屏幕内容,响应自然语言指令,无需复杂提示词。AI光标已集成到Chrome浏览器的Gemini中,并将内置到全新的Googlebook笔记本电脑操作系统层面。首

时间:2026-05-16 16:12
启境GT7鸿蒙座舱与三电机系统深度解析

启境GT7鸿蒙座舱与三电机系统深度解析

启境GT7内饰正式发布,展示了其基于华为乾崑赤兔平台的智能猎装车定位。新车核心搭载鸿蒙座舱HarmonySpace6,配备15 6英寸中控屏与88英寸AR-HUD。车内提供双零重力座椅,支持16项电动调节与按摩功能,后备厢空间最大可扩展至1606L。动力方面采用三电机系统与宁德时代麒麟电池,支持8

时间:2026-05-16 16:12
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程