当前位置: 首页
AI资讯
AI基础设施独角兽崛起 Fireworks与Baseten领跑行业新趋势

AI基础设施独角兽崛起 Fireworks与Baseten领跑行业新趋势

热心网友 时间:2026-05-27
转载

如果说四月份我们聊到“推理拐点”时还只是趋势初显,那么过去一周的新闻则像是一记响亮的确认信号。市场用真金白银投票,告诉我们一个明确的结论:AI基础设施,尤其是推理和模型路由层,正从“值得关注”变为“必须押注”的核心赛道。

[AINews] 新晋AI基础设施独角兽:Exa, Modal, TurboPuffer

Latent.Space· 5月22日 阅读全文

按照惯例,我们通常只报道估值超过百亿美元的“十角兽”融资。但眼下的节奏实在让人无法忽视:Fireworks正在洽谈150亿美元的新一轮融资(如果成真,将是7个月内估值跃升3.75倍),Baseten也在寻求110亿美元的融资(3个月内增长2.2倍)。虽然消息尚未最终落定,但推理领域估值飙升的速度,已经足够成为今天的头条故事。而OpenRouter刚刚宣布的1.13亿美元C轮融资,则为这波热潮画上了完美的注脚——其周处理量在六个月内从5万亿激增至25万亿代币。这一切都指向同一个事实:当你需要调用多个模型时,一个智能的路由器不再是“锦上添花”,而是“必不可少”的基础设施。

OpenRouter@OpenRouter:今天我们宣布完成由@CapitalGVC领投的1.13亿美元B轮融资。过去6个月,随着AI从实验快速转向生产,OpenRouter的周处理量从5T增长至25T代币。我们对未来充满期待。 下午2:16 · 2026年5月26日 · 22.4万次查看

2026年5月23日至5月26日AI新闻摘要。我们扫描了12个子版块、544个推特账号,未查阅Discord。AINews网站支持检索过往所有内容。提醒:AINews现为Latent Space的一个栏目,您可自行选择邮件推送频率。

AI推特热点回顾

智能体“缰绳”工程、编码基准测试,以及超越“唯模型论”的转变

  • 智能体“缰绳”工程正成为编码智能体的主要差异化因素:多个讨论不约而同地指向同一个论点:未来的制胜组合是模型 + 缰绳 + 评估循环,而不仅仅是更强的基座模型。一篇长文分析指出,DeepSeek正在专门组建“缰绳”团队,旨在闭环连接模型输出、运行时反馈、验证和修正,并声称其缓存的输入成本优势能支持更紧密的交互/验证循环。与此同时,Google的Gemini托管智能体指南将智能体基础设施描述为一次API调用,即可获得具备沙箱、持久化和挂载功能的托管“缰绳”。而LangChain更新的create_agent文档与dair.ai的“缰绳”论文摘要,则共同将这一技术栈正式定义为:上下文治理、可信记忆、动态技能路由
  • 基准测试正越来越贴近真实开发者体验:新推出的DeepSWE基准测试获得了实践者的强烈认可;@theo称其为“首个真正符合使用这些模型编码感受的代码基准”。该基准在高端模型上也比公开的SWE排行榜展现了更强的区分度。相关信号还包括:Qwen3.7 Max在Code Arena: Frontend榜单上首次亮相即位列第四,在智能体式网页开发任务上与Claude Opus 4.6表现相当,阿里巴巴也转发了这一结果。在整个工具链层面,Anthropic发布了Claude Code的安全指导插件,并报告内部使用中安全相关的PR评论减少了30–40%;而OpenAI则重点展示了Databricks中GPT-5.5在Codex上更可靠的文档解析能力。

研究型智能体、长程推理与用于上下文压缩的“睡眠”机制

  • 数学/科学智能体展现出更多“能力过剩”的证据——前提是配备合适的“缰绳”:最集中的推文讨论围绕模型解决历史开放问题展开。一位数学家报告Claude Mythos解决了Erdős第90号问题,后续细节透露该模型常常收敛到一条与OpenAI早期方案不同、且更简洁的证明路径。这一观点得到了@_sholtodouglas、@kimmonismus等人的呼应,随后Sébastien Bubeck进一步指出:在恰当的“缰绳”辅助下MythosGPT-5.5都能复现某个内部模型曾“一击即中”的成果,这意味着大量潜在能力并未通过普通的聊天界面暴露出来。
  • 长程记忆重新成为核心瓶颈:论文《语言模型需要睡眠》获得了显著关注。其机制是一个类似睡眠的巩固阶段,在此阶段,近期上下文被转化为持久的快速权重,然后清空KV缓存,将计算转移到离线过程,同时保持“清醒”时的低延迟。dair.ai的总结强调了其系统视角:对于具有长轨迹的智能体,这是替代不断增长的KV缓存的一种方案。这一主题与当前关于智能体中记忆系统的讨论(包括Omar提及的Anthropic记忆演讲和Dream功能)无缝衔接。
  • 开源深度研究智能体与科学预测也取得进展:QUEST系列开源模型(2B–35B参数)发布,旨在进行长程事实查找、引用溯源和报告合成,作为一个通用的深度研究智能体。在科学评估方面,Sakana/斯坦福/牛津/AI2的CUSP基准测试发现,当前模型通常能识别有前景的研究方向,但在判断突破是否以及何时实现方面则困难得多。

模型、优化器与架构更新

  • 优化器研究依然活跃,尤其是围绕Muon变体和免调度训练:AMUSE提出了Anytime MUon with Stable gradient Evaluation,将Muon与免调度风格的梯度评估相结合,旨在实现无需学习率衰减的稳定“随时训练”,并在124M / 720M / 1B规模以及ViT/ImageNet微调上报告了收益。相关实现讨论来自ClashLuke的SFMuon代码片段和kellerjordan在Newton-Muon上的Modded-NanoGPT结果。
  • 稀疏注意力设计空间持续多样化:MiniMax预告了开源模型M3,后续技术评论暗示了一条新的块稀疏两阶段注意力路径。@kimmonismus总结了报道中的速度提升:在100万token长度下,相比M2,预填充快9.7倍解码快15.6倍。@eliebakouch补充道,M3似乎回归到基于GQA的稀疏注意力,并对真实KV进行块选择,这与DeepSeek的压缩注意力变体不同。
  • 视觉/开源模型发布与排行榜更新:PrismML发布了Bonsai Image 4B,包含旨在在笔记本和手机上本地运行的1比特和三元变体;后续说明提到在约3GB内存占用下可实现浏览器本地执行。在闭源模型方面,微软的MAI-Image-2.5在Image Arena榜单上首次亮相即排名第三,打破了此前由OpenAI和Google主导的前五名格局,Arena报告其得分为1254。与此同时,Artificial Analysis测得Gemini 3.5 Flash的输出速度高达~280 token/秒,且智能体性能显著更强,但成本约为Gemini 3 Flash的5倍

基础设施、系统与半导体技术栈

  • 华&为的“τ缩放”论文更多被解读为工程路线图,而非新定律:一篇非常详细的推文认为,华&为的《多层电子系统的时间缩放理论》应被解读为一份战略宣言/白皮书。其核心提议是将时间常数τ,而非工艺节点,作为跨设备、芯片和数据中心规模的统一度量标准。最具体的声明涉及未来麒麟设计中的LogicFolding技术,声称在固定工艺节点下可实现密度提升55%能效提升41%频率提升13%,此外还包括统一总线Hi-ONE光互连等封装/网络构想。同一推文也谨慎地指出了缺失的验证材料——芯片照片、SEM图像、工作负载细节、良率曲线——并建议将最引人注目的数字视为有前景但未经证实的。后续反应也强调,华&为的路径可能更依赖封装和架构,而非光刻技术的追赶,例如@josiah_leee引用了Jensen的观点,即Hopper→Blackwell的大部分增益来自非工艺节点的优化。
  • 数据中心功耗与推理供应限制正成为首要关切:SemiAnalysis发布了关于800VDC转型的文章,John Carmack推荐了该文,强调了从电动汽车电力电子到数据中心设计的交叉应用,包括高压SiC部件。另一方面,Epoch AI估计可能出现推理算力紧缩:需求增长速度似乎超过了服务能力,尤其是对于长上下文工作负载。他们的粗略模型表明,尽管在有利假设下,当前全球Blackwell供应可以满足今日需求,但随着上下文长度增加,吞吐量会急剧下降,而需求增长可能已经超过了供应。

生产工具与开发者基础设施

  • 服务/推理栈获得显著的性能和可观测性更新:vLLM合并了一个Rust前端,作为Python API服务器的即插即用替代方案,早期数据显示在单进程、预处理繁重的工作负载上,性能达到~837 请求/秒 vs ~162 请求/秒。W&B推出了一个MCP服务器,允许编码智能体检查实验和训练运行,其“模式优先”的重新设计旨在避免上下文窗口爆炸。Unsloth增加了在其本地UI中运行GPT、Claude等API的支持,包括提示缓存和代码执行功能。
  • Cloudflare、OpenRouter和向量/检索供应商推动“生产化”层:OpenRouter宣布了1.13亿美元B轮融资,并称其周处理量在六个月内从5T增长至25T代币。Cloudflare重新启动了其初创企业计划,提供高达35万美元的信用额度,而围绕Think和智能体工效学的其他帖子则强调,持久化轮次、重连、陈旧状态处理和恢复是关键的实际差异化因素。在检索基础设施方面,Booking.com讨论了如何扩展到1亿+的嵌入向量,包括过滤向量搜索、写入期间读取、并发性以及用于合作伙伴消息智能体的人工介入评估。

高互动推文精选

  • Codex / 智能体编码实践:信息量最高的产品使用推文来自@bunkaich,展示了如何使用Codex帮助逆向工程并修补廉价MP3播放器的固件,工作流程涵盖芯片检查、操作系统提取、二进制分析和刷入修改后的镜像。
  • DeepSWE基准测试发布:@serenaa_ge的DeepSWE公告成为“这是否符合真实编码体验?”讨论的主要参考点。
  • Claude Code安全插件:@ClaudeDevs的发布之所以突出,是因为它将具体产品发布与内部指标相结合:安全相关的PR评论减少了30–40%
  • OpenRouter融资与生产代币增长:@OpenRouter的1.13亿美元B轮融资是一个清晰的市场信号,表明路由和多模型基础设施现在被视为持久的平台层。
  • vLLM Rust前端:@vllm_project的合并公告对任何在高吞吐量服务中遇到CPU/API服务器瓶颈的人都至关重要。

AI Reddit热点回顾

/r/LocalLlama + /r/localLLM 板块摘要

1. Qwen 3.7 发布与 Qwen 3.6 本地性能

  • 等待Qwen 3.7开放权重...新王已至... (互动量:1217):图片来自Qwen3.7博客中的基准/营销对比图,将Qwen3.7-Max定位为在智能体编码、软件工程、MCP/工具使用、推理和知识评估方面领先的前沿模型,对比对象包括Qwen3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6和Claude Opus-4.6 Max。技术意义在于,该幻灯片将Qwen3.7-Max定位为在许多基准测试中与Claude级别模型高度竞争甚至领先,尽管Claude Opus-4.6 Max在诸如ClawEvalCoWorkBench等任务上似乎仍保持领先。评论者指出这是Max模型,不一定代表更小/开放权重的版本,并猜测可能会有适用于Strix Halo等本地硬件的3.7-122B-A17B MXFP4模型,具备512k上下文长度。 主要争论围绕对开放权重的怀疑:评论者指出Qwen历史上从未开放过Max系列的权重,因此标题中“等待开放权重”的表述可能不切实际。其他人则提醒不要期望假设的27B模型能达到图中Max级别的基准结果。
    • 几位评论者区分了Qwen Max与可能发布的开放权重版本,指出“Qwen从未开放过Max系列的权重”,并警告不要期望较小的27B变体能够匹配Max级别的基准性能。隐含的技术结论是,任何公开/开放权重的Qwen 3.7版本可能使用与基准测试中的旗舰模型不同的架构/规模。
    • 一个技术愿望清单集中在假设的Qwen 3.7 122B-A17B MTP MXFP4模型上,具备512k上下文,评论者认为这将非常适合Strix Halo级别的本地硬件。另一用户提及Qwen 3.5 397B-A17B NVFP4,声称它可以在4块RTX 6000 Pro GPU上运行,并有足够的内存余量处理大约10个并发的200ktoken会话,如果Qwen 3.7能达到报告的基准水平,这将是一个潜在的“在家用版Opus”。
    • 一位评论者认为,开放权重的前沿模型发布可能性较低,因为高度强大的本地模型可能会削弱提供商的货币化能力。他们声称Qwen的战略已从碘伏转向货币化的前沿竞争,这可能影响是否公开发布像397B-A17B这样的大型MoE模型。
  • Qwen3.6 35Ba3改变了我的工作流,甚至改变了我使用电脑的方式 (互动量:567):帖子描述了一个使用pi通过Qwen3.6 35B a3运行的本地智能体工作流,用户将可重复的流程转换为由Codex生成/记录的“技能”,然后将其复用于VPS运维、docling PDF转EPUB、Playwright测试、代码工单和操作系统级别的Shell任务。一个具体例子:WhatsApp音频 → 在AnythingLLM中转录 → content.md → 本地生成的落地页,然后是一个由“经理”pi进程执行的plan.md工单队列,该进程会生成具有全新上下文的子智能体,命令为pi -p @plan.md "Check the first Ticket with Status UNDONE and do it",标记工单为DONE,通过git提交,最后通过VPS技能部署。 评论者关注操作层面的问题:什么硬件可以运行此设置,智能体在拥有操作系统访问权限时是否被沙箱化/可信,以及与其他智能体工具(如Hermes)相比,pi的采用难度如何。
    • 一位用户报告在配备24GB RTX Pro 4000 Blackwell SFF GPUMS-02上通过Unsloth Studio运行unsloth/Qwen3.6-35B-A3B-MTP-GGUF,持续获得>100 tokens/s的速度。他们将其与Mac Studio M2上“未优化的GGUF”性能进行比较,将MS-02用作Mac工作站的远程小型GPU服务器,并指出Unsloth未来对MLX的支持可能会提升Mac端的性能。截图:preview.redd.it。
  • 在Qwen3.6 35B A3B和ik_llama.cpp上实现110 tok/s,仅用12GB显存 (互动量:565):帖子使用byteshape的IQ4_XS 4.19 bpw GGUF量化版Qwen3.6-35B-A3B MTP模型,在RTX 4070 Super 12GB + Ryzen 7 9700X平台上进行基准测试,对比了上游llama.cppik_llama.cpp,参数设置为--ctx-size 131072q8_0 KV缓存、MTP草稿最大数3p_min=0.75。使用相同的mtp-bench.py工作负载,上游llama.cpp平均89.76 tok/s,聚合MTP接受率0.9393,而ik_llama.cpp16.64s内平均110.24 tok/s,声称获得了23%的吞吐量提升,尽管更新后的结果显示聚合接受率较低,为0.8749。发帖者将实际适配性归功于ik_llama.cpp--fit/--fit-margin 1664参数,通过将--fit-margin提高到17922048来缓解OOM问题,并指出将显示器连接到iGPU可以释放几乎全部12GB显存用于推理。 评论者关注可复现性:他们要求完整的上游llama.cpp命令,并指出最近有几个与MTP相关的PR已合并,因此基准测试结果可能高度依赖于构建日期。一个技术变通方案建议给单GPU的CachyOS/KDE用户:使用LIBGL_ALWAYS_SOFTWARE=1GALLIUM_DRIVER=llvmpipe创建软件渲染的Plasma Wayland会话,将空闲显存从大约>1024MB减少到126MB,代价是合成器效果变慢/被禁用。
    • 一位CachyOS/KDE Wayland用户描述了一种为单GPU系统节省显存的变通方案:创建一个自定义SDDM会话,强制KDE Plasma通过CPU渲染,使用LIBGL_ALWAYS_SOFTWARE=1GALLIUM_DRIVER=llvmpipeKWIN_COMPOSE=Q。他们报告KDE Wayland的空闲显存从> 1024 MB下降到~126 MB,为运行35B模型释放了近1GB显存,代价是禁用或非常缓慢的合成器动画。
    • 几位评论者关注报告的110 tok/s是否源于ik_llama.cpp比上游llama.cpp具有更好的MTP/推测解码行为。一位指出ik_llama.cpp的接受率据称从未低于0.790,而llama.cpp曾低至0.477,并要求提供确切的llama.cpp命令/设置,同时指出在过去24小时内已有多个与MTP相关的PR合并到llama.cpp中。
    • 一位评论者询问了用于Qwen3.6 35B A3BIQ4_XS量化细节,指出这似乎是内存需求最低的Q4量化,并请求提供关于模型质量/智能影响以及最终显存/RAM分配比例的详细信息。这凸显了在12GB显存上运行的关键权衡:通过激进量化来适配模型,与保持推理质量和避免过多的CPU/RAM卸载瓶颈之间的平衡。
来源:https://www.bestblogs.dev/article/c0e11f5d?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
朗玛信息股价下跌3.16%后市走势分析及投资机会探讨

朗玛信息股价下跌3.16%后市走势分析及投资机会探讨

今日A股市场整体走势偏弱,朗玛信息(股票代码300288)股价同步调整,截至收盘下跌3 16%,全天成交额4783 73万元,换手率为1 77%,公司总市值约为35 21亿元。股价的短期波动,引发了投资者对其核心投资逻辑与未来潜在机会的深入探讨。 异动深度解析:AI医疗战略的机遇与挑战 朗玛信息是市

时间:2026-05-27 23:00
Kimi联网搜索排除干扰技巧 精准限定提示词方法

Kimi联网搜索排除干扰技巧 精准限定提示词方法

在Kimi里搜索“2026年北京积分落户政策细则”,如果跳出来的总是房产中介的软文、培训机构的广告或者各种自媒体猜测,那说明默认的联网检索没有经过过滤。想要获得干净、权威的结果,必须主动使用结构化的提示词进行限定。 用结构化提示词锁定权威信源 这一步是关键,直接决定了你看到的信息是来自官方发布渠道,

时间:2026-05-27 23:00
Qoder编辑器自动保存功能设置与基础配置教程

Qoder编辑器自动保存功能设置与基础配置教程

为避免代码丢失,Qoder编辑器需手动开启自动保存功能。全局设置中可开启开关并选择触发条件,如按时间间隔或窗口失去焦点时保存。还可为特定项目单独配置,覆盖全局设置。若功能失效,需检查文件位置是否只读、用户权限是否足够,并避免直接编辑受保护的系统文件。

时间:2026-05-27 22:58
人工智能驱动外贸增长 机器人出海成新趋势

人工智能驱动外贸增长 机器人出海成新趋势

当前,全球人工智能产业浪潮澎湃,这股技术变革之风不仅深刻重塑着全球产业格局,也正为中国外贸增长注入全新的动力。一个清晰可见的趋势是,以算力服务、智能硬件为代表的“高含智量”产品与服务,已成为国际出口市场上的新焦点与增长点。 在广东汕头,一项名为“来数加工”的创新政策试点,正成功地将无形的计算能力转化

时间:2026-05-27 22:56
Nocera成立控股公司融资3亿美元 加速布局AI与数据中心市场

Nocera成立控股公司融资3亿美元 加速布局AI与数据中心市场

科技产业的竞争格局正迎来新一轮深刻变革。近日,纳斯达克上市公司Nocera, Inc (股票代码:NCRA)正式宣布启动一项全面的企业转型与品牌升级计划。其核心举措是成立全新的控股实体——Nocera控股公司,旨在系统性地布局人工智能、AI基础设施、数据中心、机器人技术、生物科技以及区块链与数字资产

时间:2026-05-27 22:56
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程