马斯克xAI发布Grok-1.5：多领域性能升级，实测表现超预期

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

马斯克xAI发布Grok-1.5：多领域性能升级，实测表现超预期

热心网友时间：2025-11-18

转载

马斯克旗下人工智能公司xAI日前宣布，其最新研发的AI模型Grok 4.1已正式面向全球用户开放。用户可通过Grok游戏、社交平台X以及iOS和Android移动应用直接体验该模型的多项功能。此次更新标志着xAI在通用人工智能领域迈出重要一步，尤其在情感交互与创造性任务处理方面展现出显著突破。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

技术团队在原有大规模强化学习框架基础上，对模型风格、个性特征及用户对齐机制进行深度优化。通过引入前沿智能体推理模型作为奖励评估系统，xAI开发出自主迭代输出结果的创新方法，有效解决了非直接验证型奖励信号的优化难题。对比前代产品，新模型在用户偏好测试中以64.78%的选择率形成压倒性优势。

在权威评测平台LMArena的Text Arena排行榜中，Grok 4.1的推理模式（代号quasarflux）以1483分的Elo评分登顶全球榜首，较第二名非xAI模型领先31分。其中非推理模式（代号tensor）虽未启用思维链技术，仍以1465分位居次席，超越其他所有启用完整推理配置的竞品模型。值得注意的是，前代Grok 4在该榜单中仅排名第33位，此次升级实现跨越式发展。

情感智能测试方面，xAI采用EQ-Bench3基准评估体系，该测试包含45个高难度角色扮演场景，通过三轮对话提示检验模型的情绪理解、同理心及社交技巧。在由Claude Sonnet 3.7担任裁判的标准化测试中，Grok 4.1的两种模式包揽榜单前两名，展现出卓越的人际互动能力。测试样本显示，模型能精准识别用户情绪波动，并给出兼具逻辑性与情感温度的回应。

创意写作领域，该模型在Creative Writing v3基准测试中取得突破性成绩。面对32个多样化写作提示，Grok 4.1的推理与非推理模式分别斩获第二、第三名，仅以微弱差距落后于早期版本的GPT 5.1。测试案例表明，模型既能生成结构严谨的长篇叙事，也可创作富有诗意的短篇文本，在文学性与实用性之间取得平衡。

针对AI模型常见的"幻觉"问题，研发团队重点优化了信息查询场景下的事实准确性。通过改进后训练流程，模型在处理生产环境中的真实查询请求时，幻觉发生率显著降低。在包含500个传记类问题的FActScore公共基准测试中，Grok 4.1展现出可靠的事实核查能力，有效减少了虚构内容的生成。

技术文档显示，Grok 4.1的Auto模式将自动推送至用户端，同时保留模型选择器的手动切换功能。详细技术参数与训练方法可查阅xAI最新发布的模型卡片，该文档全面披露了模型架构、训练数据构成及安全评估机制。用户可通过指定网址获取完整技术报告，或访问最新博客了解产品更新动态。

来源:https://www.itbear.com.cn/html/2025-11/1021396.html

上一篇：国科天成立无人机科技企业，布局智能飞行器与AI应用

下一篇：万兴科技发布Filmora V15：AI深度赋能，开启视频创作新纪元