安谋科技新一代NPU IP如何赋能终端AI应用爆发
2025年,端侧AI的浪潮正以前所未有的速度席卷全球科技产业。从售价下探至299美元的Meta Ray-Ban AI智能眼镜,到智能手机拍照的实时AI优化、汽车自动驾驶的本地化决策,这些前沿应用的背后,都指向一个共同的核心挑战:对端侧AI SoC芯片算力与能效比的极致追求。在此背景下,上游半导体IP厂商的技术创新,正成为驱动这场“芯”变革的关键引擎。
在近期于上海张江举办的一场端侧AI技术研讨会上,安谋科技(中国)有限公司高级产品经理叶斌分享了行业洞察。他指出,端侧AI已从早期的概念验证阶段,步入规模化商业落地的关键前夜。安谋科技自主研发的“周易”NPU(神经网络处理器)IP,正致力于驱动终端算力实现关键性跃迁,助力中国芯片产业把握这一历史性机遇。
端侧大模型参数持续攀升,安谋科技DSA架构赋能芯片极致能效
当前,主流端侧设备所能承载的AI大模型参数规模,上限大约在100亿(10B)级别。反观Meta最新开源的Llama 3系列模型,其参数已涵盖80亿、300亿乃至700亿等多种规格。这清晰地揭示了一个产业趋势:未来,复杂的数据训练与通用性更强的超大参数模型将集中于云端完成,而终端设备则专注于运行经过剪枝、量化等轻量化处理后的精炼模型。这种“云边协同”的分工模式优势显著——能够带来更低的响应延迟、更强的个性化适配能力,以及天然的隐私数据安全保护。
从旗舰手机、高性能平板到智能汽车座舱和AI PC,硬件平台快速迭代,对AI SoC提出了明确且统一的要求:采用多核异构设计并持续提升算力,已成为不可逆转的技术主流。

随着技术演进,计算的重心必然向更高效、更专业的架构倾斜,以在峰值性能、功耗与成本之间找到最佳平衡点,从而支撑起大模型及各类AI应用的广泛部署。在此背景下,专为特定计算领域设计的DSA(领域专用架构),依然是端侧AI芯片追求极致能效比和面积效率的必然选择。通过NPU IP与其他处理单元的多核协同与算力融合来实现整体性能突破,正成为技术破局的核心路径。
安谋新一代周易NPU IP支持高精度浮点运算,前瞻布局未来应用场景
为应对未来更复杂的端侧AI计算挑战,安谋科技推出了新一代自研“周易”NPU IP。其在核心架构设计上持续针对Transformer模型进行深度优化,同时兼顾传统CNN卷积网络在超分辨率等场景的加速需求。更为关键的是,公司投入重兵完善其软件工具链与开发生态,不断丰富和扩展算子库,旨在高效支持大语言模型(LLM)的轻量化部署与实时响应,以敏捷满足AI PC、高端智能手机、智能座舱及高级驾驶辅助系统(ADAS)等新兴端侧应用场景的苛刻需求。

大模型要提升其对复杂语境的理解与生成能力,扩大上下文窗口(Context Window)和序列长度是必然的技术路径。这对AI处理器的内部架构设计提出了新课题:必须对计算单元、存储带宽及数据流进行精心的全局考量与平衡。
端侧AI的发展始终面临算力、内存带宽和功耗能效这三重挑战。从应用与底层算力匹配的角度看,存储技术的演进至关重要。目前,LPDDR5X内存能够支撑端侧10B以下参数模型的流畅运行,主要覆盖手机、平板和PC;汽车智能座舱的模型也大致在这一量级;而物联网(IoT)设备的模型则更小、更轻量。未来,随着存储技术向LPDDR6标准演进,预计端侧设备可承载的AI模型容量与复杂度将提升50%以上。
大模型的最终落地,是一个算法创新与硬件平台“双向奔赴”的协同过程。随着更低比特位宽(如INT4、FP8)的量化算法日益成熟,在保证模型精度的同时,其体积得以进一步压缩,最终使得参数量更大的模型部署在资源受限的端侧成为可能。行业预测,未来两到三年,参数规模在200亿至400亿的AI大模型出现在高端端侧设备上,将逐渐成为现实。
趋势已然明朗:端侧AI应用对算力的需求呈指数级增长,且所需计算精度正从CNN时代的INT低精度整数运算,转向需要更高表达能力的FLOAT浮点运算。为此,新一代周易NPU进行了全面架构升级,支持从INT4、INT8、INT16到BF16、FP16、FP32的多数据类型混合运算。在硬件设计上充分考虑了计算单元的能效复用,并致力于通过片上缓存优化减少片外内存的数据搬运,通过专用硬件加速模块来提升整体效率。针对长上下文序列处理场景,其AI加速模块得到了针对性增强;同时,多任务并行执行的QoS(服务质量)调度技术也进行了强化,以确保多样化的端侧AI应用都能获得稳定、流畅的实时体验。

AI大模型对内存带宽提出了前所未有的高要求,同时计算的核心也在从传统的卷积操作向注意力机制偏移。结合端侧部署大模型的具体诉求,采用专用NPU并追求极致的能效比和面积效率,是当前市场的最优解。通过引入多层次智能缓存系统和优化的硬件流水线结构,使数据尽可能在计算单元附近完成处理,能显著降低因频繁数据搬运所带来的巨额功耗开销。
在端侧AI设备加速普及、AI SoC设计热潮涌动的双重推动下,半导体IP的战略价值与产业地位日益凸显。安谋科技采取了灵活的IP授权与合作模式,全面覆盖从硬件架构到软件栈的完整解决方案。除了先进的DSA架构,NPU配套的软件生态同样至关重要。公司继承了ARM在移动计算领域的深厚基因,为“周易”NPU IP配备了一套成熟、完整的软件工具链,包括最新的GPU协同量化工具、动态形状识别支持以及持续维护的开源模型库。通过持续加大投入完善算子库,凭借软硬件深度协同的系统级创新,新一代周易NPU IP有望更好地满足新兴端侧AI应用的多元化与高性能需求,为终端用户带来兼具强大算力与超低功耗的卓越体验。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
CIS技术如何满足AI智能眼镜的成像需求
Meta与雷朋合作的Wayfarer智能眼镜,成功点燃了AI眼镜市场的热度。苹果、小米、三星等科技巨头的相继入局,更让这一赛道成为消费电子领域备受关注的新增长点。 然而,如果暂时抛开前沿概念,回归当前的技术与成本现实,我们会发现,目前能够大规模普及的消费级AI眼镜,多数尚未集成完整的AR显示功能。其
阿里千问3.7编程能力全球第二仅次于Claude
阿里Qwen3 7-Max在CodeArena编程榜单以1541分位列全球第二,仅次于Claude系列。该榜单通过实战PK评测,公信力强。模型专为智能体设计,在编程、长程任务等方面表现突出,能独立高效完成复杂项目,显著提升生产力,且推理成本低、生成质量高。
智能眼镜影像处理单元升级,摄像模组成竞争关键
当AI智能眼镜从概念走向规模化应用,其视觉感知系统——影像单元,正经历一场关键性迭代。其中,摄像头已从辅助模块升级为决定产品能力的核心部件。以多摄像头阵列与AI算法深度融合为代表的技术路径,正成为行业竞争与创新的主战场。 影像处理单元全面升级,摄像模组成竞争核心 今年三月,Meta面向开发者与研究人
Harness时代AI优先组织架构从信任人到信任AI的转变
Harness工程正成为AI时代组织架构的新范式,其核心在于构建动态系统以“驯化”AI,使其自我优化并主导流程。实践表明,AI驱动开发可大幅提升效率,如将产品周期从数周缩至一天。组织需转向信任AI、重构流程,人类角色则转变为监督协同,关键能力在于发现AI缺陷并判断价值。中小企业可能更易实现此类转型。
RK3576开发板车辆检测算法实现与优化指南
车辆检测是计算机视觉与深度学习领域的一项核心技术,旨在从图像或视频流中精准定位并识别车辆目标。作为智能交通、智慧园区等应用的关键基础,该技术广泛应用于违停监控、交通流量分析、路口拥堵监测等场景,为城市智能化管理提供可靠的技术支持。 我们推出的高性能车辆检测算法,在标准数据集上取得了优异的评估结果,具
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

