高智商≠高财商？LMArena实战50天：高分玩家也可能是理财菜鸟

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

高智商≠高财商？LMArena实战50天：高分玩家也可能是理财菜鸟

热心网友时间：2025-11-03

转载

LiveTradeBench 项目于数月前正式启动，研究团队开展了为期五十天的实盘测试，覆盖美国股市与去中心化预测市场 PolyMarket，成为业界最早探索“实盘智能体评测”的关键研究之一。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

该研究团队成员均来自伊利诺伊大学厄巴纳-香槟分校（UIUC）。核心贡献者之一 Haofei Yu 为计算机系博士生，另一位核心成员 Fenghai Li 为计算机系本科生，项目由计算机系助理教授 Jiaxuan You 指导，并依托 UIUC U Lab 实验室资源开展。Jiaxuan You 教授的研究聚焦于大模型智能体的基础能力构建、垂直应用开发与生态建设。他毕业于斯坦福大学，已在 NeurIPS、ICML、ICLR 等顶会发表论文三十余篇，总引用量近两万次，多次担任领域主席并组织学术研讨会；其主导的开源项目累计获得超三万颗 GitHub Stars。

“在大模型热潮中，如何真实衡量它们的智能水平？”

过往的评测多停留在知识问答、逻辑推理或指令理解层面。而 LiveTradeBench 首开先河，让大模型“下场交易”——在真实金融市场的动态博弈中，检验其感知、推演与决策能力。

LiveTradeBench 的研究启动于数月前，并持续进行了为期五十天的实盘测试，覆盖美股市场与去中心化预测市场 PolyMarket，堪称最早探索“实盘智能体评测”的标杆性工作。

在这里，模型不仅要理解财经信息，更需面对市场不确定性，学会下注与取舍的智慧。

尤其值得关注的是，LiveTradeBench 坚持全面开源：所有数据来源、模型决策记录、仓位变化路径、表现分析结果，以及大模型推理的全流程记录均公开透明，为研究社区提供了可复现、可验证的大模型实盘评测基准。

从“测知识”到“测财商”：智能评测的新前沿

过去两年，大语言模型（LLM）在各类静态基准上表现惊人：无论是知识问答（MMLU、GPQA）、数学推理（GSM8K、CodeElo），还是指令遵循（FollowBench、Instruction-Bench），顶尖模型几乎都能“卷到满分”。

但这些测试存在一个共同点——它们都是静态的、单向的、无反馈的。这些评测只能衡量模型在固定输入上的一次性推理能力。而现实世界要求模型具备持续观察、长期推演与动态适应能力。

为此，研究者们开始构建各类智能体环境，让模型“动起来”。然而多数环境仍是封闭的、逻辑预设的。模型能够“操作”，却难以真正“动态适应”。

而金融市场正是最具挑战性的真实动态系统——信息不完全、反馈延迟、风险与机会并存。

LiveTradeBench：让 LLM 真正下场交易，打造在真实市场数据上运行的大语言模型交易与投资测评平台。

三大核心创新

实时流式数据，杜绝信息泄露

由表1可见，过往工作多依赖离线回测或静态问答，难以反映市场的不确定性。

LiveTradeBench 直接对接真实股票与预测市场数据，让模型在动态变化中实时决策，彻底杜绝信息泄漏风险。

组合层次的投资决策

由表1可见，相比单一资产的买卖决策，LiveTradeBench 引入组合级别（portfolio-level）的动态资产配置，要求模型在收益与风险间权衡，随市场信号动态调整各类资产的比例权重。

多市场比较与泛化能力

图1展示了典型市场形态：左图为AAPL美股走势，右图为PolyMarket上“OpenAI是否在2025年底拥有最强AI模型”预测合约。二者皆受新闻事件驱动，但PolyMarket 反应更快、波动更剧烈。通过跨市场设计，平台可系统性评估模型的策略迁移能力和事件敏感度。

资产管理任务设定

在 LiveTradeBench 中，研究团队将投资决策过程建模为一个部分可观测的马尔可夫决策过程。

这意味着，大模型面对的环境不是一次性的输入输出，而是一个不断变化、且带有反馈的世界：市场的真实状态无法直接看到，模型必须依据有限信息进行推理和行动。

如图2所示，智能体在每个时间步接收三类观测信号：

仓位信息：当前持有的股票资产与现金比例；

市场价格：各类资产的实时价格走势；

市场舆情：来自新闻与社交媒体的动态事件与情绪信号。

在美股市场中，这些观测反映的是股票持仓与宏观新闻动态；在PolyMarket预测市场中，则是事件合约持仓情况与相关新闻。这些信息与模型当前的仓位信息共同构成其决策依据。

接着，模型输出新的资产配置向量，我们设计的智能体不直接输出买卖策略，而是直接输出代表投资组合的分配比例，例如可配置AAPL占总资产的20%，NVDA占40%。我们将现金也视为一种资产类别。图2中，我们将智能体的决策过程转化为实际买卖操作。

通过如此设计，LiveTradeBench 形成了完整的“观察→决策→反馈”闭环：

市场变化影响模型观测，模型动作改变持仓结构，从而形成持续交互的学习循环。

智能体设计框架：让模型像人类投资者一样思考

在 LiveTradeBench 中，LLM 被赋予完整的决策闭环：感知→记忆→推理→行动。

工具调用：实时抓取与目标相关的价格走势与新闻资讯，结构化处理市场信号。

记忆模块：保留过往观察与行动结果，形成可演化的内部认知状态。

推理过程：通过链式思考，解释信号、预测结果，生成相应策略。

五十天实测：揭示模型“财商差距”

在 LiveTradeBench 平台上，我们对21个主流LLM进行了为期50天的实盘测试，覆盖多个模型家族与能力层级。结果显示：

这些结果揭示了一个关键事实：静态推理≠动态决策。在真实世界的复杂反馈中，LLM 的“聪明”需要重新定义。

迈向大模型智能体评测的下一站

LiveTradeBench 开启了大模型智能体评测的新维度：从文本理解到环境反馈，从逻辑推演到连续决策。我们相信，未来的智能体不应只在题库中拿高分，更应在瞬息万变的市场中感知风险、管理机遇并创造价值。

来源:https://www.51cto.com/article/828632.html

上一篇：对话式AI驱动RTE产业：从连接跃迁到智能交互

下一篇：荣威M7+DMH测评：从性能猛兽到奶爸神车，如何兼顾驾驶激情与家庭舒适？

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

金铲铲之战S17蕾欧娜技能费用介绍

榴莲日记app如何设置封面样式-榴莲日记app怎样设置封面样式

零门槛本地部署OpenClaw的卸载教程

OpenClaw 预置技能完全指南

地下城堡4菲欧娜厉害吗-地下城堡4菲欧娜好不好用

机械革命无界14 2026款上架，搭载酷睿 Ultra 5 226V

OPPO K15 Pro系列定档散热拉满性能释放超猛

三星Galaxy A57 5G发布：以智慧科技解锁专业体验

openclaw添加飞书channel

Mac 本地部署 Ollama 大模型接入 OpenClaw 完整指南

戴尔电脑恢复出厂设置方法：关键按键与操作解析

电脑睡眠后黑屏唤醒失败？5步教你有效解决重启问题

解压视频文件，电脑播放必备指南

电脑蓝屏解决全攻略：排查与修复系统崩溃教程

文件夹无法删除怎么办？4个强制删除方法

惠普战系列办公主机组装指南：打造高效办公电脑配置

解决鼠标滚轮失灵：3步自查与修复窍门【修复指南】

电脑误删文件恢复方法：4种实用方案找回数据

电脑截屏快捷键大全：快速截屏的3种高效方法

电脑多显示器设置指南：3步轻松扩展工作桌面

《人之初》首播：双线叙事成新悬疑样本，口碑褒贬不一

逍遥侯明昊时隔73天再提同样台词，恋爱脑属性揭秘

《人世间》首播：两场葬礼四条人命，张若昀马思纯悬念升级

罚罪2：豆分7.0开启，三线冲突与实力派扎堆引爆续作

新剧上线：全集8集超带感剧情，一次追完太过瘾

《逍遥》首播：赵丽颖3分钟客串引爆热议，观众评价一针见血

张若昀新剧《人之初》4集冲上热榜：悬疑剧的新标杆？

《老舅》大结局：今年最催泪感人的收官之作

2025必追十大国产剧盘点：口碑热播佳作一次收藏

马思纯《人之初》首播三小时热度破2万，演技获赞封神

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情发布于 2026-04-02

守愿者公测时间是什么时候-守愿者公测时间怎么介绍发布于 2026-04-02

红色沙漠马厩怎么进发布于 2026-04-02

修车吧兄弟加速动力不足如何解决发布于 2026-04-02

洛克王国世界白金独角兽图鉴发布于 2026-04-02

洛克王国世界仪式巨像图鉴发布于 2026-04-02

《这城有良田》游戏经验及小技巧分享发布于 2026-04-02

艾尔登法环黑夜君临DLC见弃空洞者怎么玩-艾尔登法环黑夜君临DLC见弃空洞者配装推荐发布于 2026-04-02

《全面战争：中世纪3》：只怀旧做不成好游戏经典需要现代化发布于 2026-04-02

《游戏王DUEL LINKS》全新PvP模式「角色卡组决斗」登场！发布于 2026-04-02

知名爆料人透露《战神》系列新作将由奎爷亡妻菲当主角！2027年发售！发布于 2026-04-02

《阴阳师》地藏像活动将于3月4日开启！免费获取鬼女红叶新皮肤！发布于 2026-04-02

心灵渡船手游上线时间是何时发布于 2026-04-02

燕云十六声晦谷之九鸷鸟与鹗如何完成-燕云十六声晦谷之九鸷鸟与鹗完成方法发布于 2026-04-02

燕云十六声悬索游天能力怎么解锁-燕云十六声悬索游天能力解锁途径发布于 2026-04-02

玩家使用1GB显存显卡玩《赛博朋克2077》竟能有40帧！发布于 2026-04-02

苹果16录屏为什么找不到选项发布于 2026-04-02

卡萨帝冰箱抽屉拿出来要按哪个键发布于 2026-04-02

三星电视调声音出现图标怎么设置不显示发布于 2026-04-02

苹果11pro max动态壁纸能设置吗发布于 2026-04-02

戴尔笔记本用u盘重装系统步骤蓝屏怎么办？发布于 2026-04-02

入耳式耳机脏了能水洗吗发布于 2026-04-02

vivoy500下面三个键支持长按功能吗发布于 2026-04-02

西门子双开门触摸屏调温后温度不准怎么校准发布于 2026-04-02

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

鸣人的假期中文版下载-鸣人的假期游戏合集-鸣人的假期版本大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

高智商≠高财商？LMArena实战50天：高分玩家也可能是理财菜鸟

从“测知识”到“测财商”：智能评测的新前沿

三大核心创新

资产管理任务设定

智能体设计框架：让模型像人类投资者一样思考

五十天实测：揭示模型“财商差距”

迈向大模型智能体评测的下一站

工信部发布防范 OpenClaw（“龙虾”）开源智能体安全风险“六要六不要”建议

荣耀 CEO 李健：荣耀机器人全栈自研，将聚焦消费市场

别只盯着“上门装龙虾赚26万”！看懂OpenClaw背后的“意图入口”大战

openclaw安装配置

自研第一个SKILL-openclaw入门