当前位置: 首页
AI教程
阿里开源视觉大模型Qwen2-VL可理解20分钟长视频性能比肩GPT-4o

阿里开源视觉大模型Qwen2-VL可理解20分钟长视频性能比肩GPT-4o

热心网友 时间:2026-07-03
转载
说个新鲜事:阿里通义千问昨天开源了新一代的视觉语言模型,名为Qwen2-VL。其中那个72B参数的版本,直接拿下了多项评测的最佳成绩,不仅刷新了开源多模态模型的天花板,甚至在不少指标上超越了GPT-4o和Claude 3.5 Sonnet这类闭源模型。 这次开源的新模型,有几个挺值得关注的升级点: - 能搞定不同分辨率和宽高比的图片。从数学推理到文档图表,再到现实场景和多语言文本理解,它的表现都挺抢眼。 - 能理解20分钟以上的长视频内容。这意味着它不只是跑马观花,而是可以基于视频做问答、对话甚至内容创作。 - 具备操作手机和机器人的能力。它融合了推理和决策,可以根据你给出的文字指令,自动执行操作。 - 多语言支持也来了。除了中文和英文,它还能识别图像里的欧洲各国语言、日语、韩语、阿拉伯语、越南语等等。 通义千问团队这次把Qwen2-VL-2B和7B版本以Apache 2.0协议开源了,同时提供了72B版本的API。开源代码已经集成到了Hugging Face Transformers、vLLM等主流框架里。 ![图片](http://img.318050.com/uploads/20260702/17829585536a45c9d9a87d6883186796.webp) GitHub项目地址:[https://github.com/QwenLM/Qwen2-VL](https://github.com/QwenLM/Qwen2-VL) ## 一、媲美GPT-4o!多个指标刷新最好表现,3种规模模型开源 通义千问团队从六个维度对Qwen2-VL的72B、7B和2B三个版本进行了评估。这些维度包括:大学级别的复杂问题解决、数学能力、文档与表格理解、多语言文本图像理解、通用场景问答、视频理解以及视觉智能袋里能力。 直接说结论:Qwen2-VL-72B在大多数关键指标上,拿下了最优成绩,甚至超越了GPT-4o和Claude 3.5 Sonnet这些闭源模型。它在文档理解这块优势尤其突出,不过在解决复杂的大学水平问题方面,和GPT-4o相比仍有一点差距。但无论如何,它已经刷新了开源多模态模型的最好表现。 ![图片](http://img.318050.com/uploads/20260702/17829585536a45c9d9e8eda443671708.webp) ▲Qwen2-VL-72B模型能力分数比较(图源:通义千问团队官方博客文章) 再看7B版本。它同样支持单图、多图和视频输入。别看规模不大,性能却相当能打。比如在DocVQA(文档理解)和MTVQA(多语言文本图片理解)这些测试中,它都达到了SOTA水平。 ![图片](http://img.318050.com/uploads/20260702/17829585546a45c9da3cac3537188594.webp) ▲Qwen2-VL-7B模型能力分数比较(图源:通义千问团队官方博客文章) 此外,团队还提供了一个2B版本的小模型,专门为了支持移动端应用而设计。别看它小,图像、视频、多语言理解能力一个不少,尤其是在视频文档和通用场景问答方面,相比同规模模型优势明显。 ![图片](http://img.318050.com/uploads/20260702/17829585546a45c9da7e0f9973387467.webp) ▲Qwen2-VL-2B模型能力分数比较(图源:通义千问团队官方博客文章) ## 二、手写字体、公式代码、网页截屏、视频影像……多场景识别理解不在话下 从官方博客展示的案例来看,Qwen2-VL的应用场景覆盖面相当广:能识别手写文字和图片里的文本,能转写数学公式和多种语言文字,能解几何题和LeetCode编程题,能读懂各种分辨率的长图,还能用特定格式输出答案,甚至能对视频内容进行总结解读。 ### 1、准确识别图中文字,轻松转写数学公式 来看几个例子。无论是手写文字还是融合在图像上的文字,Qwen2-VL都能准确识别出对应的语种和内容(图里涉及葡萄牙语和中文)。右下角的案例里,它不光能识别出数字,还能认出每个数字对应的盒子颜色。 ![图片](http://img.318050.com/uploads/20260702/17829585546a45c9dac1c41943269224.webp) ▲Qwen2-VL能够准确识别图中的文字(图源:通义千问团队官方博客文章) 再看左边这张图里的复杂数学公式,Qwen2-VL能直接用Markdown格式完美转写出来。右边那张图集中了中文、日语、韩语、西班牙语、葡萄牙语、爱尔兰语、英语、德语、波兰语、希腊语、越南语、蒙古语、俄语、印地语和斯瓦希里语,它也能一字不差地转录出来。 ![图片](http://img.318050.com/uploads/20260702/17829585556a45c9db3b314753633453.webp) ▲Qwen2-VL能够准确转录图中的复杂公式和多语种(图源:通义千问团队官方博客文章) ### 2、理解现实世界信息,准确输出问题答案 面对平面几何题、LeetCode编程题,甚至是1792×14400像素的技术文档截图,Qwen2-VL都能识别理解并给出正确答案。 ![图片](http://img.318050.com/uploads/20260702/17829585556a45c9db93069010546004.webp) ▲Qwen2-VL能够解决的各种问题(图源:通义千问团队官方博客文章) 它还能从天气预报截屏、网页搜索结果、Linux官方档案库截屏等不同来源中抓取你需要的信息,并以表格、段落编号或JSON数组等形式输出。 ![图片](http://img.318050.com/uploads/20260702/17829585556a45c9dbea3c6271787519.webp) ▲Qwen2-VL回答支持多种格式(图源:通义千问团队官方博客文章) ### 3、总结视频要点,解读视频内容 除了静态图像,Qwen2-VL也能处理视频内容。它能够总结视频要点、即时回答相关问题,并维持连贯对话,帮助用户从视频中提取有价值的信息。比如下面这个例子,用户上传了一段2分57秒的视频,让Qwen2-VL进行描述,结果描述得相当详细准确。接着用户问视频里人物穿的衣服是什么颜色,它也能给出符合事实的回答。 ![图片](http://img.318050.com/uploads/20260702/17829585566a45c9dc4a23b745877788.webp) ▲Qwen2-VL能够识别视频,并围绕该视频回答相应问题(图源:通义千问团队官方博客文章) ## 三、实时数据检索+实时环境交互,或将碰撞出更多可能性 官方博客还提到Qwen2-VL在视觉袋里方面展现出了潜力。它能初步利用视觉能力,实现一些自动化工具的调用和交互。所谓视觉袋里,其实就是一种AI系统,它能处理和理解视觉信息(如图像或视频),并在此基础上进行决策或执行任务。 Qwen2-VL支持函数调用,这意味着它可以利用外部工具进行实时数据检索,比如查询航班状态、天气预报或包裹追踪。 ![图片](http://img.318050.com/uploads/20260702/17829585566a45c9dc9b05d864314927.webp) ▲Qwen2-VL根据用户提供的航班信息调用“weather_hour24”工具查询天气状况(图源:通义千问团队官方博客文章) 通义千问团队还做了一些初步探索,试图让模型能够更像人一样与环境交互。官方博客文章里说,这让Qwen2-VL不再只是一个观察者,而是有了代替人去做更多事情的潜力。 ## 结语:语言能力已经远远不够!模型正在卷向多模态 AI技术发展得飞快,语言模型曾一度是技术竞争的焦点。但自从2023年3月OpenAI发布了能读图的GPT-4后,多模态模型的战鼓就越来越响了。模型不再只处理单一的文本数据,而是通过整合图像、视频、音频等多种信息源,展现出更强的认知和理解能力。 视觉语言模型是多模态模型中的一个重要细分方向。它们通过结合计算机视觉与自然语言处理技术,在图像理解、生成及跨模态交互等领域表现出巨大潜力。未来,它们有望在医疗诊断、机器人技术等更多领域实现更广泛的应用。
来源:https://www.aiagiai.com/3489.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
批处理BAT入门教程第一篇

批处理BAT入门教程第一篇

提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。

时间:2026-07-03 16:15
从零开始批处理命令For循环详解与实战案例

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。

时间:2026-07-03 16:14
批评你的人是你生命中的贵人

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。

时间:2026-07-03 16:14
测试人员角色定位与职责详解

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。

时间:2026-07-03 16:14
经营成功测试生涯的实用方法与策略

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通

时间:2026-07-03 16:14
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜