阿里云Qwen3-VL-30B开源模型性能对标GPT-5-Mini

10月4日最新动态,阿里云通义千问团队正式开源发布Qwen3-VL-30B-A3B-Instruct和Thinking两大模型,同时推出FP8精度的新版本,以及超大规模模型Qwen3-VL-235B-A22B的FP8优化版本。
据介绍,最新开源的Qwen3-VL-30B-A3B-Instruct与Thinking模型虽然参数规模更精简,但依然保持了卓越性能,完整继承了Qwen3-VL系列的核心能力。仅需30亿激活参数,就能在STEM学科、视觉问答(VQA)、文字识别(OCR)、视频理解和智能体(Agent)等多项任务中,与GPT-5-Mini和Claude4-Sonnet等业界标杆相抗衡,部分场景表现更胜一筹。
目前这些模型已在魔搭社区和Hugging Face平台开放免费下载,并同步上线Qwen Chat服务。
以Qwen3-VL-30B-A3B-Instruct为例,其主要特性包括:
通义千问3-VL系列——迄今为止最先进的视觉语言模型。
新一代产品在各项能力上实现全方位升级:更精准的文本理解与生成能力、更敏锐的视觉感知与推理能力、更长的上下文处理长度、更强的空间定位与视频动态理解能力,以及更出色的智能体交互性能。
提供从边缘计算到云端部署的密集型和MoE架构选择,同时包含标准Instruct版本和推理增强型Thinking版本,满足不同场景需求。
核心技术突破:
• 视觉智能体:支持操作PC/移动端图形界面,可识别UI元素、理解功能逻辑、调用系统工具完成复杂任务
• 视觉编码增强:直接从图像/视频生成Draw.io图表和HTML/CSS/JS代码
• 三维空间感知:准确判断目标的相对位置、视角关系和遮挡状态,在2D场景理解基础上拓展3D空间推理能力
• 长文本与视频理解:原生支持256K上下文窗口,可扩展至1M规模,能完整解析书籍内容和数小时视频素材
• 多模态推理:在STEM和数学领域展现出强大的因果分析和逻辑推理能力
• 全场景视觉识别:经过高质量训练,可精准识别名人面孔、动漫角色、商品品牌、地理地标、动植物种类等
• 多语言OCR:支持32种语言文字识别(原19种),在低光照、模糊抖动等恶劣条件下仍保持稳定表现
• 媲美纯文本模型的语义理解能力:实现视觉与语言信息的无缝融合,形成统一认知体系
资源获取渠道:
魔搭社区:Qwen3-VL
Hugging Face:Qwen3-VL
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
1美元换OpenAI入股,AMD芯片能否改写AI算力格局?
一场震动芯片行业与人工智能领域的重大合作浮出水面——AMD与OpenAI宣布达成深度战略协议,AMD将以每股0 01美元的极低价格,允许OpenAI认购其10%股权(约1 6亿股)。这场交易不仅涉及
智元机器人与原力智能双双斩获亿元订单
工业场景与文旅领域正迎来具身智能机器人的批量落地潮。近期,智元机器人与龙旗科技达成数亿元框架合作,后者将采购近千台智元精灵G2机器人,首批设备将率先部署于消费电子平板产线,重点实现柔性抓取、多工位协
《智能体设计模式》新书上线:谷歌专家揭秘AI开发关键技巧
人工智能领域正掀起一股以AI Agent(智能体)为核心的技术浪潮。从跨国科技企业到初创团队,开发者们纷纷投身于构建能够自主理解复杂环境、规划行动路径并执行任务的智能系统。然而,在行业快速发展的背后
灵机天赐推出Jollybubu儿童AI陪伴硬件
AI儿童陪伴领域再传融资捷报。近日,北京灵机天赐科技有限公司宣布完成数千万元天使轮融资,本轮融资由德联资本领投,小恐龙基金、瑞昇基金跟投,探奇资本担任独家财务顾问。这家成立不满一年的企业,正以独特的
蚂蚁发布Ring-1T-preview大模型,万亿参数性能领先
蚂蚁集团近日在Hugging Face平台开源了全球首个万亿参数级别的自然语言推理大模型——Ring-1T-preview,这一突破性进展使其成为国内首家掌握万亿参数大模型技术的企业,同时打破了国外
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















