面包屑图标 当前位置: 首页
AI资讯
热点详情

Tensordyne宣称新一代AI芯片性能大幅超越英伟达

AI热点日报
AI热点日报时间:2026-06-30
热点解读

近日,一家名为Tensordyne的AI芯片初创公司对外宣称,其新型推理芯片在能效比和响应速度方面,有望全面超越当前市场领导者英伟达。据模拟测试结果显示,该公司已完成首款芯片的流片送样,搭载72颗芯片的整机系统计划于2027年下半年正式上市。Tensordyne表示,其72芯片系统运行大型大语言模型

近日,一家名为Tensordyne的AI芯片初创公司对外宣称,其新型推理芯片在能效比和响应速度方面,有望全面超越当前市场领导者英伟达。据模拟测试结果显示,该公司已完成首款芯片的流片送样,搭载72颗芯片的整机系统计划于2027年下半年正式上市。Tensordyne表示,其72芯片系统运行大型大语言模型的速度是同等规模英伟达GB300系统的4倍,但功耗仅为后者的五分之一。当然,这些数据目前仍停留在理论模拟阶段,需等待年底真实系统运行后才能得到验证。

Tensordyne宣称新AI芯片性能大幅超越英伟达

Tensordyne新款Napier芯片实现超高能效的核心,在于其执行AI核心运算——矩阵乘法——的独特方式。该方案巧妙运用了对数运算的基本性质:log(A×B) = log(A) + log(B)。

"我们将乘法器转化为加法器,"Tensordyne联合创始人兼AI副总裁吉勒斯·巴克胡斯解释道。加法器相比乘法器体积更小、能耗更低,因此Napier芯片能够在更小的面积内集成更强的算力,同时有效降低功耗。

这一思路在学术界并非新鲜事,但此前一直无法实现商业化,因为在对数值与描述神经网络的浮点数之间进行转换既耗时又耗能,还会引入较大误差。巴克胡斯表示,如今这一难题已被攻克。

"迄今为止,还没有任何团队能像我们这样实现线性与对数之间的高效转换,这正是整个方案的关键所在。我们的工程师在硅芯片上找到了一种极为优雅、精确且低成本的实现方式。"

数字格式的重要性,业界早已有共识。英伟达首席科学家比尔·达利在2023年IEEE Hot Chips大会上指出,当时英伟达GPU性能提升的主要驱动力,正是采用了更短的数字格式及其所需的更小电路。研究人员也在探索类对数格式(如posit)及其科学计算版本takum的计算电路,但由于硬件实现与传统浮点运算差异过大,至今未能进入主流应用。

随着AI智能体的兴起,推理——即神经网络模型的执行——正变得比训练新的大语言模型更为重要。成本和响应速度成为主导因素,促使AI公司寻找更适合推理场景的系统架构。Tensordyne的管理层表示,他们早已预见到这一趋势,并据此进行了针对性的系统设计。

执行大语言模型主要分为两个阶段:预填充(prefill)和解码(decode)。预填充阶段,模型将输入文本转化为Token,并构建一种称为键值缓存的工作记忆,这是一个计算密集型过程。解码阶段,大语言模型根据上一个Token和键值缓存逐步生成输出Token,这种顺序生成方式导致解码过程相对较慢,且更依赖内存和网络延迟,而非算力。

因此,AI芯片厂商开始针对这两种不同需求进行系统设计。英伟达推出了一种方案:采用满载B300 GPU的服务器机架处理预填充,再搭配多个搭载Groq 3处理器的机架来负责解码。亚马逊云服务则将其自研Trainium AI芯片机架用于预填充,并结合多个Cerebras晶圆级计算机机架完成解码。

Tensordyne宣称其系统能够同时胜任这两项任务。"我们同时在攻克两个艰巨的挑战,"Tensordyne首席产品官兼联合创始人R.K.阿南德说,"我们是第一家证明无需依赖多个供应商和多个机架就能同时完成两项任务的公司。"

预填充所需的密集算力源于对数运算;解码所需的能力则依托144GB高带宽内存,以及一套延迟仅1微秒的自研互联网络——Tensordyne Napier Link。

在一个占用标准机架四分之一空间的"pod"系统里,Tensordyne集成了72颗Napier芯片、8颗英特尔至强CPU以及64TB固态存储。据该公司称,四个pod组成的完整机架在处理2万亿参数大语言模型时,每用户每秒可输出1300个Token,每百万Token成本约为11美元,功耗为120千瓦,其中1个pod负责预填充,3个pod负责解码。相比之下,要实现相近的每用户每秒Token数,需要九机架规模的Rubin与Groq 3组合系统,功耗预计高达1.5兆瓦。

上述数据是否准确,还需等待年内进一步实测验证。Tensordyne计划通过云端提供测试版本,让客户提前体验,预计大约一年后开始向客户批量交付系统。

Q&A

Q1:Tensordyne的Napier芯片是如何实现高能效的?
A:核心创新在于利用对数运算替代传统矩阵乘法。因为log(A×B)=log(A)+log(B),乘法可以转化为加法,加法器比乘法器体积更小、能耗更低。这样一来,Napier芯片就能在更小的面积内集成更强的算力,同时大幅降低功耗。Tensordyne称,其工程师攻克了长期存在的线性与对数数值相互转换精度差、效率低的难题,实现了在硅芯片上的高精度、低成本转换。

Q2:Tensordyne的72芯片系统与英伟达系统相比,性能差距有多大?
A:根据Tensordyne的模拟数据,其72芯片系统运行大型大语言模型的速度是同等规模英伟达GB300系统的4倍,功耗仅为后者的五分之一。在处理2万亿参数大语言模型时,四pod机架可实现每用户每秒1300个Token,功耗120千瓦,每百万Token成本约11美元;而实现相近性能的英伟达Rubin与Groq 3九机架系统,预计功耗高达1.5兆瓦。当然,这些数据目前仅为模拟测试结果,需等待真实系统上线后才能最终验证。

Q3:Tensordyne的系统何时能商用?普通客户如何体验?
A:Tensordyne计划在2027年下半年正式开售搭载72颗Napier芯片的商用系统。在此之前,预计大约一年内开始向客户批量发货,并打算先通过云端提供测试版本,让客户提前上手体验和评估。目前,首款芯片已完成流片送样,处于研发验证阶段。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Tensordyne宣称新一代AI芯片性能大幅超越英伟达要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://ai.zhiding.cn/2026/0629/3191912.shtml
Tensor

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-06-30 19:04
AI驱动的Degiro投资组合跟踪与可视化工具

在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打

AI热点2026-06-30 19:04
Lorna基于CFMS数据驱动决策的投资平台

在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金

AI热点2026-06-30 19:03
前街购买记录追踪查询方法

Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一

AI热点2026-06-30 19:03
一款专业Finta AI驱动筹款助手,高效智能募资工具

在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A

延伸阅读