当前位置: 首页
AI
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

热心网友 时间:2026-04-28
转载

DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

北京时间今日凌晨,AI领域又迎来一个重磅消息。DeepSeek正式开源了其全新的视觉多模态模型 Janus-Pro-7B。这可不是普通的更新,从已披露的测试结果看,它在GenEval和DPG-Bench基准测试中,已经超越了Stable Diffusion和OpenAI的DALL-E 3。深夜发布,出手就是王炸。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

附上核心资源地址,感兴趣的开发者可以立即上手:

  • GitHub:点此前往
  • HuggingFace:点此前往

官方的技术说明,直指其核心创新点。简单来说,Janus-Pro实现了一种创新的自回归框架,目标是把多模态信息的“理解”和“生成”统一起来。关键突破在于,它不再将视觉编码过程视为一个整体,而是聪明地将其拆分成多条独立的路径。这种解耦设计,有效避免了传统框架中视觉编码器在既理解又生成时可能出现的“内部打架”问题,模型的灵活性也因此大增。结果就是,Janus不仅在统一模型中表现出色,即便跟那些专门为某个任务打造的模型相比,也毫不逊色。它简洁、灵活且高效的特点,让人很难不把它看作是下一代统一多模态模型的有力竞争者。

再来看看技术摘要里划出的重点:Janus-Pro本质上是一个统一的多模态大语言模型。它的高效秘诀,正是将视觉编码过程从繁重的多模态理解和生成任务中“解放”出来,实现解耦。这个模型是基于 DeepSeek-LLM-1.5b-base 和 7b-base 版本构建的。具体操作上,在处理多模态理解任务时,它调用SigLIP-L作为视觉编码器,支持最高384 x 384像素的图像输入;而当任务切换到图像生成时,则启用一个来自特定来源的、降采样率为16的分词器。分工明确,各司其职。

Janus-Pro是此前Janus模型的进阶版。那么,进阶在哪儿?主要集中在三个方面:整合了更优的训练策略、扩展了训练数据的规模,并且将模型体量进一步放大。这一系列组合拳打下来,效果立竿见影:Janus-Pro在多模态理解能力和文本到图像的指令跟随能力上取得了显著进步,同时,文本到图像生成的稳定性也得到了切实增强。

更值得玩味的是其背后的JanusFlow架构。官方介绍,这是一种极为简约的设计思路,创新性地将自回归语言模型与校正流——一种当前顶流的生成模型方法——集成在了一起。研究发现,校正流竟然可以直接在大型语言模型的框架内进行训练,无需进行复杂的架构魔改。大量实验数据给出了有力证明:JanusFlow在其涉及的领域内,取得了与专用模型旗鼓相当、甚至更优的性能,并且在标准基准测试中,显著超越了现有的各类统一方法。这无疑标志着,我们向构建更高效、更通用的视觉语言模型,又扎实地迈进了一大步。

来源:https://www.1ai.net/27888.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
英伟达谷歌抢投AI独角兽新秀,欧洲史上最大种子轮诞生

英伟达谷歌抢投AI独角兽新秀,欧洲史上最大种子轮诞生

欧洲AI新纪录:前AlphaGo核心科学家创立的Ineffable,获11亿美元种子轮融资 今天,一则来自路透社的消息震动了科技圈:由前谷歌DeepMind首席科学家戴维·席尔瓦(Da vid Silver)创立的英国AI独角兽Ineffable,刚刚完成了高达11亿美元(约合软妹币75 14亿元)

时间:2026-04-28 22:27
midjourney怎么用?Midjourney其他前置指令详解:/blend、/describe、/shorten等

midjourney怎么用?Midjourney其他前置指令详解:/blend、/describe、/shorten等

深入掌握Midjourney:五大前置指令的实战解析 接下来,我们一起拆解Midjourney中几个非常实用的前置指令。这些功能像是工具箱里的专属工具,用对了能极大提升创作效率与作品质量。咱们的目标很明确:搞懂它们各自能做什么,以及具体该怎么用。 一、 blend(混合模式):你的创意“搅拌机” 想

时间:2026-04-28 22:01
midjourney怎么用?Midjourney后置指令全解析(一):画幅、权重、风格化等

midjourney怎么用?Midjourney后置指令全解析(一):画幅、权重、风格化等

深入Midjourney后置指令:从画幅控制到风格化调节 要想让Midjourney真正听你的话,创作出符合预期的图像,光有好的提示词可不够。关键在于掌握那些位于提示词末尾的后置指令。它们就像一把把精准的刻刀,能帮你调整画面的比例、决定风格的浓淡、甚至是反复试错以求最优解。接下来,我们就将这些核心工

时间:2026-04-28 22:01
midjourney怎么用?Midjourney景别详解:如何运用景别创造视觉冲击

midjourney怎么用?Midjourney景别详解:如何运用景别创造视觉冲击

深入探讨Midjourney中的景别运用 想让AI生成的图像不只是一张“图”,而是有故事感和情绪张力的“作品”?一个常被忽视却至关重要的技巧,就是景别。没错,就是那个在摄影和电影中决定了画面范围与观众情绪距离的核心概念。今天,我们就来聊聊在Midjourney里,如何通过精准操控景别,为你的创意注入

时间:2026-04-28 22:01
midjourney怎么用?Midjourney视角讲解:如何通过视角变化塑造画面

midjourney怎么用?Midjourney视角讲解:如何通过视角变化塑造画面

深入探讨Midjourney中的视角运用 今天我们来聊聊Midjourney创作中一个至关重要,却又常常被忽视的技巧:视角。这可不是摄影师的专属,在AI绘画中,视角的微妙变化直接决定了画面的情绪基调和叙事走向。简单来说,它就像你观察世界的“眼睛”位置,是平视、仰望还是俯瞰,传达出的信息天差地别。下面

时间:2026-04-28 22:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程