Tensordyne宣称新一代AI芯片性能大幅超越英伟达

AI热点日报时间：2026-06-30

热点解读

近日，一家名为Tensordyne的AI芯片初创公司对外宣称，其新型推理芯片在能效比和响应速度方面，有望全面超越当前市场领导者英伟达。据模拟测试结果显示，该公司已完成首款芯片的流片送样，搭载72颗芯片的整机系统计划于2027年下半年正式上市。Tensordyne表示，其72芯片系统运行大型大语言模型的速度是同等规模英伟达GB300系统的4倍，但功耗仅为后者的五分之一。当然，这些数据目前仍停留在理论模拟阶段，需等待年底真实系统运行后才能得到验证。

Tensordyne宣称新AI芯片性能大幅超越英伟达

Tensordyne新款Napier芯片实现超高能效的核心，在于其执行AI核心运算——矩阵乘法——的独特方式。该方案巧妙运用了对数运算的基本性质：log(A×B) = log(A) + log(B)。

"我们将乘法器转化为加法器，"Tensordyne联合创始人兼AI副总裁吉勒斯·巴克胡斯解释道。加法器相比乘法器体积更小、能耗更低，因此Napier芯片能够在更小的面积内集成更强的算力，同时有效降低功耗。

这一思路在学术界并非新鲜事，但此前一直无法实现商业化，因为在对数值与描述神经网络的浮点数之间进行转换既耗时又耗能，还会引入较大误差。巴克胡斯表示，如今这一难题已被攻克。

"迄今为止，还没有任何团队能像我们这样实现线性与对数之间的高效转换，这正是整个方案的关键所在。我们的工程师在硅芯片上找到了一种极为优雅、精确且低成本的实现方式。"

数字格式的重要性，业界早已有共识。英伟达首席科学家比尔·达利在2023年IEEE Hot Chips大会上指出，当时英伟达GPU性能提升的主要驱动力，正是采用了更短的数字格式及其所需的更小电路。研究人员也在探索类对数格式（如posit）及其科学计算版本takum的计算电路，但由于硬件实现与传统浮点运算差异过大，至今未能进入主流应用。

随着AI智能体的兴起，推理——即神经网络模型的执行——正变得比训练新的大语言模型更为重要。成本和响应速度成为主导因素，促使AI公司寻找更适合推理场景的系统架构。Tensordyne的管理层表示，他们早已预见到这一趋势，并据此进行了针对性的系统设计。

执行大语言模型主要分为两个阶段：预填充（prefill）和解码（decode）。预填充阶段，模型将输入文本转化为Token，并构建一种称为键值缓存的工作记忆，这是一个计算密集型过程。解码阶段，大语言模型根据上一个Token和键值缓存逐步生成输出Token，这种顺序生成方式导致解码过程相对较慢，且更依赖内存和网络延迟，而非算力。

因此，AI芯片厂商开始针对这两种不同需求进行系统设计。英伟达推出了一种方案：采用满载B300 GPU的服务器机架处理预填充，再搭配多个搭载Groq 3处理器的机架来负责解码。亚马逊云服务则将其自研Trainium AI芯片机架用于预填充，并结合多个Cerebras晶圆级计算机机架完成解码。

Tensordyne宣称其系统能够同时胜任这两项任务。"我们同时在攻克两个艰巨的挑战，"Tensordyne首席产品官兼联合创始人R.K.阿南德说，"我们是第一家证明无需依赖多个供应商和多个机架就能同时完成两项任务的公司。"

预填充所需的密集算力源于对数运算；解码所需的能力则依托144GB高带宽内存，以及一套延迟仅1微秒的自研互联网络——Tensordyne Napier Link。

在一个占用标准机架四分之一空间的"pod"系统里，Tensordyne集成了72颗Napier芯片、8颗英特尔至强CPU以及64TB固态存储。据该公司称，四个pod组成的完整机架在处理2万亿参数大语言模型时，每用户每秒可输出1300个Token，每百万Token成本约为11美元，功耗为120千瓦，其中1个pod负责预填充，3个pod负责解码。相比之下，要实现相近的每用户每秒Token数，需要九机架规模的Rubin与Groq 3组合系统，功耗预计高达1.5兆瓦。

上述数据是否准确，还需等待年内进一步实测验证。Tensordyne计划通过云端提供测试版本，让客户提前体验，预计大约一年后开始向客户批量交付系统。

Q&A

Q1：Tensordyne的Napier芯片是如何实现高能效的？
A：核心创新在于利用对数运算替代传统矩阵乘法。因为log(A×B)=log(A)+log(B)，乘法可以转化为加法，加法器比乘法器体积更小、能耗更低。这样一来，Napier芯片就能在更小的面积内集成更强的算力，同时大幅降低功耗。Tensordyne称，其工程师攻克了长期存在的线性与对数数值相互转换精度差、效率低的难题，实现了在硅芯片上的高精度、低成本转换。

Q2：Tensordyne的72芯片系统与英伟达系统相比，性能差距有多大？
A：根据Tensordyne的模拟数据，其72芯片系统运行大型大语言模型的速度是同等规模英伟达GB300系统的4倍，功耗仅为后者的五分之一。在处理2万亿参数大语言模型时，四pod机架可实现每用户每秒1300个Token，功耗120千瓦，每百万Token成本约11美元；而实现相近性能的英伟达Rubin与Groq 3九机架系统，预计功耗高达1.5兆瓦。当然，这些数据目前仅为模拟测试结果，需等待真实系统上线后才能最终验证。

Q3：Tensordyne的系统何时能商用？普通客户如何体验？
A：Tensordyne计划在2027年下半年正式开售搭载72颗Napier芯片的商用系统。在此之前，预计大约一年内开始向客户批量发货，并打算先通过云端提供测试版本，让客户提前上手体验和评估。目前，首款芯片已完成流片送样，处于研发验证阶段。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Tensordyne宣称新一代AI芯片性能大幅超越英伟达要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://ai.zhiding.cn/2026/0629/3191912.shtml

Tensor

上一篇：高通精准押注人工智能周期有利发展赛道

下一篇：调整GPU时钟频率降低大模型训练能耗14%

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本周Lorna基于CFMS数据驱动决策的投资平台 03 / 本周前街购买记录追踪查询方法 04 / 本周一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本周人工智能股票预测与多金融工具交易信号

01 / 本月AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本月Lorna基于CFMS数据驱动决策的投资平台 03 / 本月前街购买记录追踪查询方法 04 / 本月一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本月人工智能股票预测与多金融工具交易信号

热点快看

06-30 19:04AI驱动的Degiro投资组合跟踪与可视化工具 06-30 19:04Lorna基于CFMS数据驱动决策的投资平台 06-30 19:03前街购买记录追踪查询方法 06-30 19:03一款专业Finta AI驱动筹款助手，高效智能募资工具 06-30 19:03人工智能股票预测与多金融工具交易信号

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别