当前位置: 首页
AI
华中科大AI新突破:几何学习解锁空间理解能力

华中科大AI新突破:几何学习解锁空间理解能力

热心网友 时间:2025-10-23
转载

人工智能在空间理解能力方面长期面临瓶颈,即便是最先进的多模态大模型,也经常在基础空间任务上出现失误。华中科技大学连世杰、吴长堤团队联合多家研究机构,通过让AI系统学习几何知识,成功突破了这一技术壁垒。该研究成果以预印本形式发表于arXiv平台(编号arXiv:2509.24473v2),揭示了几何训练对空间智能提升的显著效果。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

研究团队构建的Euclid30K数据集包含近3万个几何问题,覆盖平面几何与立体几何两大领域。在数据收集过程中,研究人员发现现有数据集存在严重失衡:立体几何题目仅占现有资源的23%。为此,他们从Geometry3K、MMK12等开源库筛选优质题目,同时新增4500个立体几何问题,重点补充空间关系判断、动态运动分析等复杂题型。经过三阶段质量控制,包括图像去重、问题拆解和格式标准化,最终形成覆盖初中到高中全课程体系的数据集。

几何训练的核心价值在于其系统性。研究团队将几何问题视为空间规律的“训练场”,通过GRPO强化学习框架,让AI模型在解题过程中掌握形状识别、空间推理和数值计算等综合能力。实验数据显示,经过几何训练的RoboBrain2.0-7B模型在VSI-Bench测试中准确率达49.6%,超越此前48.4%的最佳纪录。更值得注意的是,该模型仅使用3万条几何数据就达到这一水平,而同期对比模型使用了12万条专用空间数据。

在Super-CLEVR测试中,几何训练展现出惊人效果。Qwen2.5VL-7B模型的准确率从76.1%跃升至86.2%,RoboBrain2.0-7B的提升幅度更达到37.8个百分点。这种跨越式进步源于几何知识的强迁移性——模型学会的平行判断、比例计算等基础技能,可直接应用于现实场景中的物体定位和空间关系分析。研究团队特别指出,立体几何训练对三维空间理解的提升尤为显著,在Omni3D-Bench测试中,相关模型的空间定位准确率提升2.8个百分点。

技术实现层面,研究团队采用多项创新设计。奖励函数针对不同题型定制评判标准:数学表达式答案通过MathVerify工具进行符号等价验证,数值答案则设置1%的严格误差容忍度。训练过程中,每个问题生成8个候选题解,通过组内比较优化解题策略。这种设计使模型既能掌握数学本质,又能适应不同表达形式。硬件配置上,64块NVIDIA H100 GPU组成的计算集群,为大规模强化学习提供算力支持。

实际应用场景中,几何训练提升的空间智能已展现多重价值。在机器人导航领域,经过训练的模型能更精准判断物体间距和运动轨迹;医疗影像分析方面,AI对器官尺寸的测量误差显著降低;自动驾驶系统则获得更可靠的空间关系判断能力。研究团队强调,这种基础能力训练具有高通用性,相比为每个应用单独收集数据,几何训练方案可降低60%以上的开发成本。

对比实验进一步验证了几何训练的独特优势。使用CLEVR-CoGenT数据集训练的模型虽有提升,但效果局限于特定任务类型。几何训练的优势在于其覆盖空间智能的核心要素,包括形状识别准确率提升12%、空间关系判断一致性提高18%、数值计算精确度改进9%。这些基础能力的提升,使模型在物体计数、距离估算等基础任务上的准确率普遍提高5-8个百分点。

研究也揭示了当前方法的局限性。在涉及时间序列的空间任务中,几何训练的效果相对有限,这提示未来需结合时序学习进行能力拓展。对于需要特定领域知识的复杂空间分析,几何基础训练仍需补充专业数据。尽管如此,该研究为AI空间智能发展开辟了新路径——通过系统化学习基础理论,可高效构建通用空间能力,这种“以简驭繁”的方法论或将成为行业重要方向。

来源:https://www.itbear.com.cn/html/2025-10/995502.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止

DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止

新智元报道编辑:KingHZ【新智元导读】从拦截彼得·蒂尔、警告马斯克,到如今公开说「必须有适应能力」,哈萨比斯史诗级转身:AI安全窗口正在永久关闭,他不再幻想制度,而是赌上全部身家——赌影响力,赌

时间:2026-03-30 22:55
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok

时间:2026-03-30 22:48
华羿机器人登陆港交所市值破百亿,领跑国内国际市场

华羿机器人登陆港交所市值破百亿,领跑国内国际市场

今日,华沿机器人正式在港交所挂牌上市,开启了其资本市场的新征程。此次上市,华沿机器人发售价定为每股17 00港元,折合人民币约14 99元。开盘时,股价为16 8港元,即人民币14 82元,而收盘价

时间:2026-03-30 22:31
被投科技企业版图观察:美团AI如何链接50+伙伴

被投科技企业版图观察:美团AI如何链接50+伙伴

当所有人盯着大模型时,美团看到了什么?作者|徐珊编辑|郑玄「为了保持企业有 Day1 的活力,你必须快速做出好的决策。这对初创企业来说或许很容易,但对大型组织来说却极具挑战。」2016 年,亚马逊创

时间:2026-03-30 21:07
Meta智能眼镜发售在即:两款新品专为近视用户设计

Meta智能眼镜发售在即:两款新品专为近视用户设计

智东西编译 佳扬编辑 云鹏智东西3月30日消息,据彭博社报道,Meta计划下周推出两款全新Ray-Ban智能眼镜,专为佩戴近视眼镜的人士设计。消息人士透露,新款眼镜为矩形和圆形两种款式,主要通过传统

时间:2026-03-30 21:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程