高智商≠高财商?LMArena实战50天:高分玩家也可能是理财菜鸟
LiveTradeBench 项目于数月前正式启动,研究团队开展了为期五十天的实盘测试,覆盖美国股市与去中心化预测市场 PolyMarket,成为业界最早探索“实盘智能体评测”的关键研究之一。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该研究团队成员均来自伊利诺伊大学厄巴纳-香槟分校(UIUC)。核心贡献者之一 Haofei Yu 为计算机系博士生,另一位核心成员 Fenghai Li 为计算机系本科生,项目由计算机系助理教授 Jiaxuan You 指导,并依托 UIUC U Lab 实验室资源开展。Jiaxuan You 教授的研究聚焦于大模型智能体的基础能力构建、垂直应用开发与生态建设。他毕业于斯坦福大学,已在 NeurIPS、ICML、ICLR 等顶会发表论文三十余篇,总引用量近两万次,多次担任领域主席并组织学术研讨会;其主导的开源项目累计获得超三万颗 GitHub Stars。
“在大模型热潮中,如何真实衡量它们的智能水平?”
过往的评测多停留在知识问答、逻辑推理或指令理解层面。而 LiveTradeBench 首开先河,让大模型“下场交易”——在真实金融市场的动态博弈中,检验其感知、推演与决策能力。
LiveTradeBench 的研究启动于数月前,并持续进行了为期五十天的实盘测试,覆盖美股市场与去中心化预测市场 PolyMarket,堪称最早探索“实盘智能体评测”的标杆性工作。
在这里,模型不仅要理解财经信息,更需面对市场不确定性,学会下注与取舍的智慧。
尤其值得关注的是,LiveTradeBench 坚持全面开源:所有数据来源、模型决策记录、仓位变化路径、表现分析结果,以及大模型推理的全流程记录均公开透明,为研究社区提供了可复现、可验证的大模型实盘评测基准。

从“测知识”到“测财商”:智能评测的新前沿
过去两年,大语言模型(LLM)在各类静态基准上表现惊人:无论是知识问答(MMLU、GPQA)、数学推理(GSM8K、CodeElo),还是指令遵循(FollowBench、Instruction-Bench),顶尖模型几乎都能“卷到满分”。
但这些测试存在一个共同点——它们都是静态的、单向的、无反馈的。这些评测只能衡量模型在固定输入上的一次性推理能力。而现实世界要求模型具备持续观察、长期推演与动态适应能力。
为此,研究者们开始构建各类智能体环境,让模型“动起来”。然而多数环境仍是封闭的、逻辑预设的。模型能够“操作”,却难以真正“动态适应”。
而金融市场正是最具挑战性的真实动态系统——信息不完全、反馈延迟、风险与机会并存。
LiveTradeBench:让 LLM 真正下场交易,打造在真实市场数据上运行的大语言模型交易与投资测评平台。
三大核心创新

实时流式数据,杜绝信息泄露
由表1可见,过往工作多依赖离线回测或静态问答,难以反映市场的不确定性。
LiveTradeBench 直接对接真实股票与预测市场数据,让模型在动态变化中实时决策,彻底杜绝信息泄漏风险。
组合层次的投资决策
由表1可见,相比单一资产的买卖决策,LiveTradeBench 引入组合级别(portfolio-level)的动态资产配置,要求模型在收益与风险间权衡,随市场信号动态调整各类资产的比例权重。
多市场比较与泛化能力
图1展示了典型市场形态:左图为AAPL美股走势,右图为PolyMarket上“OpenAI是否在2025年底拥有最强AI模型”预测合约。二者皆受新闻事件驱动,但PolyMarket 反应更快、波动更剧烈。通过跨市场设计,平台可系统性评估模型的策略迁移能力和事件敏感度。

资产管理任务设定
在 LiveTradeBench 中,研究团队将投资决策过程建模为一个部分可观测的马尔可夫决策过程。
这意味着,大模型面对的环境不是一次性的输入输出,而是一个不断变化、且带有反馈的世界:市场的真实状态无法直接看到,模型必须依据有限信息进行推理和行动。
如图2所示,智能体在每个时间步接收三类观测信号:
仓位信息:当前持有的股票资产与现金比例;
市场价格:各类资产的实时价格走势;
市场舆情:来自新闻与社交媒体的动态事件与情绪信号。
在美股市场中,这些观测反映的是股票持仓与宏观新闻动态;在PolyMarket预测市场中,则是事件合约持仓情况与相关新闻。这些信息与模型当前的仓位信息共同构成其决策依据。
接着,模型输出新的资产配置向量,我们设计的智能体不直接输出买卖策略,而是直接输出代表投资组合的分配比例,例如可配置AAPL占总资产的20%,NVDA占40%。我们将现金也视为一种资产类别。图2中,我们将智能体的决策过程转化为实际买卖操作。
通过如此设计,LiveTradeBench 形成了完整的“观察→决策→反馈”闭环:
市场变化影响模型观测,模型动作改变持仓结构,从而形成持续交互的学习循环。

智能体设计框架:让模型像人类投资者一样思考
在 LiveTradeBench 中,LLM 被赋予完整的决策闭环:感知→记忆→推理→行动。
工具调用:实时抓取与目标相关的价格走势与新闻资讯,结构化处理市场信号。
记忆模块:保留过往观察与行动结果,形成可演化的内部认知状态。
推理过程:通过链式思考,解释信号、预测结果,生成相应策略。

五十天实测:揭示模型“财商差距”
在 LiveTradeBench 平台上,我们对21个主流LLM进行了为期50天的实盘测试,覆盖多个模型家族与能力层级。结果显示:

这些结果揭示了一个关键事实:静态推理≠动态决策。在真实世界的复杂反馈中,LLM 的“聪明”需要重新定义。
迈向大模型智能体评测的下一站
LiveTradeBench 开启了大模型智能体评测的新维度:从文本理解到环境反馈,从逻辑推演到连续决策。我们相信,未来的智能体不应只在题库中拿高分,更应在瞬息万变的市场中感知风险、管理机遇并创造价值。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议
工信部发布“六要六不要”,为OpenClaw(“龙虾”)开源智能体安全风险划出红线 近日,工业和信息化部网络安全威胁和漏洞信息共享平台发布了一份重磅文件,针对当前热门的OpenClaw(因其图标酷似龙虾,业内常昵称为“龙虾”)开源智能体,提出了清晰的安全使用指引——“六要六不要”。这份建议可不是空穴
荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场
荣耀CEO李健详解机器人战略:全栈自研,聚焦三大核心消费场景 荣耀春季旗舰新品发布会圆满结束后,关于公司未来发展的蓝图更加清晰。在随后的媒体沟通会上,荣耀CEO李健不仅公布了年度销售目标,更首次系统性地阐述了荣耀在机器人领域的完整战略规划与市场布局。 在探讨机器人业务发展方向时,李健明确了荣耀的坚定
别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战
别再只关注“上门装龙虾赚26万”!深度解读OpenClaw背后的“意图入口”新战争 最近科技行业的热潮,充满了戏剧性的现实色彩。一只“红色龙虾”AI智能体搅动了整个市场:有人通过提供安装服务,收取每次五百元,短短几天就赚取二十六万元收入;腾讯大厦前甚至排起长队,大家竞相领取免费的安装体验权限。这场全
openclaw安装配置
一、系统要求 在开始安装 OpenClaw 之前,请务必确认您的计算机满足以下最低配置要求。这如同搭建房屋前检查地基,是确保后续安装流程顺利、软件稳定运行的前提。更高的硬件配置将为复杂任务处理和流畅体验提供有力保障。 操作系统:支持 Windows 10 及以上版本、macOS 最新稳定版,以及主流
自研第一个SKILL-openclaw入门
自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

