Falcon 180B开源模型将如何改变行业竞争格局
近日,阿联酋TII研究中心开源的Falcon 180B模型,一经发布便被社区冠以“当前最强开源大模型”的称号。
原极狐GitLab创始人、现OpenCSG创始人陈冉与王伟在模型发布后迅速进行了实测,他们的反馈是“能力很强”。然而,也有不少大模型创业者坦言尚未尝试,原因很直接:推理成本太高,用不起。
从官方评测数据看,Falcon 180B在自然语言任务上的表现确实亮眼。它在Hugging Face开源大模型榜单上以68.74的评分超越了Meta的Llama 2(67.35),位列榜首。在MMLU基准测试中,它超过了Llama 2 70B和OpenAI的GPT-3.5,在HellaSwag、LAMBADA等十余项测评中,其表现与谷歌的PaLM 2-Large不相上下。
一时间,“超越Llama 2”、“优于GPT-3.5”、“接近GPT-4”的赞誉将Falcon 180B推上风口。其背后的TII研究中心位于阿联酋阿布扎比,今年5月底才刚刚开源了该国首个大规模AI模型Falcon 40B,并预告了180B版本的开发。短短四个月后,承诺便已兑现。
从架构上看,Falcon 180B是40B版本的升级,并引入了Multi-Query Attention等创新以提升模型的可扩展性。该系列模型由TII旗下的AI and Digital Science Research Center (AIDRC)团队研发,该团队此前还曾推出全球最大的阿拉伯语NLP模型NOOR。有基金投资人透露,Falcon团队中有部分成员来自阿里巴巴。
一个有趣的现象是,Falcon 180B展现出了超出预期的中文理解能力。当外界猜测这是否是团队有意为之的结果时,Hugging Face中国区负责人王铁震给出了不同的答案:模型作者对此也感到惊讶,他们并未在数据集中刻意添加中文内容,但在训练过程中就已发现模型具备简单的中英文转换能力。
然而,在一片喝彩声中,也夹杂着理性的质疑。英伟达资深研究员Jim Fan公开指出,Falcon-180B的训练数据中代码仅占5%,缺乏强大的代码能力,因此声称“优于GPT-3.5”或“接近GPT-4”可能为时过早。前述基金投资人也持保留态度,认为鉴于该公司过往的宣传风格,Falcon 180B的实际性能或许需要打个八折来看。
与此同时,国内开发者社区的讨论焦点则集中在两个更现实的问题上:第一,在已有Llama 2的情况下,中东“土豪”再推出一个Falcon 180B,意义究竟何在?第二,模型推理成本如此之高,到底有没有实际应用价值?
更进一步,行业也在思考:Llama 2、Falcon 180B这类国际顶尖开源大模型的接连涌现,将对国内大模型创业生态产生何种影响?国内的基础模型厂商将面临怎样的冲击?这又会将国内大模型的开源与闭源之争引向何方?
一些争议
回想年初,ChatGPT的横空出世曾让业界担忧,全球大模型的知识产出是否会就此被OpenAI一家垄断。当时Hugging Face的CEO Clement Delangue曾安抚社区:不必慌张,年底前必定会有超越GPT-3.5的模型出现。如今,Llama 2在7月开源,Falcon 180B在9月跟进,开源社区的任务不仅完成了,还提前了半年。
每一次巨量参数模型的开源,都无异于给社区注入一剂强心针,它壮大了开源阵营的力量,也激发了更多可能性。
面对围绕Falcon 180B的种种争议,王铁震的看法是,首先要看到其开源行为本身的价值。训练一个1800亿参数的模型,耗资必然在千万美元级别,其背后公司愿意将其开源,本身就值得敬佩。在行业仍处于爬坡阶段的当下,各家分享不同的训练思路,对整个行业都是一种宝贵的启发。Falcon 180B就提供了一种新的思路:它主要使用了RefinedWeb数据集(约占85%),并在多达4096个GPU上对3.5万亿个token进行了训练,其训练数据量是Llama 2的近两倍,是目前token数量最多的开源大模型之一。这向行业表明,除了精细清洗数据,单纯扩大高质量数据的规模,也能显著提升模型效果。
关于“推理成本太高,根本用不起”的质疑,王铁震认为,当前阶段,将模型能力推到边界至关重要。只有先知道能力的上限在哪里,开源社区才能群策群力,共同攻克降低推理成本的难题。他给出了一个乐观的预测:大家普遍推测GPT-3.5是一个约1750亿参数规模的模型。因此,理论上OpenAI能做到的推理成本,开源社区同样可以做到,甚至可能更低。一旦像Falcon 180B这样的大模型能将推理成本降至与GPT-3.5相当甚至更低的水平,企业的选择天平自然会向开源模型倾斜。
更令人振奋的是,王铁震透露,开源社区开发者GGML的Georgi Gerganov已经成功将180B模型通过4比特量化压缩,运行在了苹果电脑上。这意味着180B并非遥不可及,个人开发者利用消费级硬件进行大模型探索的未来,或许已经开启。
在另一些观察者看来,Falcon系列似乎意在成为参数、性能与实用易用性均衡的“六边形战士”。此前的Falcon 40B在多项表现上超越了参数更多的LLaMA 65B,且所需显存更低。如果180B版本延续了这一设计思想,其对开发者的长期吸引力不容小觑。
然而,王铁震也表达了一丝忧虑:Falcon 180B已经消耗了3.5万亿个token。如果“堆数据”是当前提升模型效果的有效路径,那么当网络上公开的高质量数据集被消耗殆尽时,模型该如何继续扩展?未来,大模型对高质量数据的争夺势必会更加激烈。
大模型创业者蒋磊则从另一个角度提出了疑问:Falcon 180B的架子(参数量)搭得这么大,却只用了3.5万亿token进行训练?作为对比,Llama 2接受了2万亿token训练,近期发布的Baichuan 2是在2.6万亿token上训练的,而Baichuan 2的参数量仅130亿,不到Falcon 180B的十分之一。因此,蒋磊怀疑Falcon 180B可能像之前的BLOOM模型一样,存在欠拟合的问题。当然,参数增大后带来的思维链(CoT)、涌现等能力,还需要更复杂的实验来验证。
此外,Falcon 180B在中文理解上优于Llama 2,也被认为是其使用了更多token或不同数据源的结果。尽管作者声称未刻意添加中文数据,但王铁震猜测这或许得益于其更大的数据规模或与Llama 2不同的数据构成。值得注意的是,作为一个诞生于中东的模型,Falcon 180B并未将阿拉伯语作为主要甚至次要训练语料,这在蒋磊看来,与当年的BLOOM一样,充满了一种“理想主义的光辉”。
开源大模型带来了怎样的冲击
抛开技术细节的讨论,一个更核心的问题是:Falcon 180B这类顶级开源模型的登场,将对国内大模型赛道产生何种实质性的冲击?
蒋磊认为,Falcon 180B对中国公司的影响有限。因为其主要训练语料是英语、德语、西班牙语和法语,若要增强其中文能力,仍需大量额外工作。即使使用LoRA或QLoRA等高效微调技术,对于小型团队和开源社区而言,扩展其中文能力依然门槛很高。
面壁智能CTO、OpenBMB开源社区发起人曾国洋指出,由于参数量巨大,微调和使用Falcon 180B对于普通开发者及中小企业来说成本高昂。它可能更适合那些有充足资源、想使用大模型的大型厂商。
OpenCSG创始人陈冉与王伟认为,Falcon 180B对国内厂商的短期直接影响不会太剧烈。虽然其规格和评测成绩惊艳,但在不少实际场景中仍有提升空间,微调效果也需要更多验证。中长期来看,它可能会冲击国内流行的“小规格模型开源+大规格模型商用”模式,因为客户多了一个基于强大开源模型进行微调的选择。不过,即便选择在Falcon 180B上微调,企业所需投入的软硬件资源和时间成本依然不菲。
王铁震预测,国内很快就会出现基于Falcon 180B的微调版本。一旦其推理成本能被降至与GPT-3.5相当甚至更低,市场将乐于拥抱它。对于国内生态而言,未来头部几家会坚持从零训练自研模型,而大量其他模型必然基于微调产生。因此,拥有一个更强的开源底座并非坏事。他认为冲击存在,但不大,因为Falcon 180B的中文能力肯定无法与使用海量中文语料训练的国内模型相比。只有当国内出现一个百亿参数级别、并用巨量token训练的开源模型时,大家才会争相使用,从而规避使用国外模型可能涉及的合规风险。
目前,国内开源大模型以智源研究院为首,创业公司如百川、面壁、智谱AI、澜舟科技、深势科技等纷纷跟进。互联网大厂中,目前仅有阿里云开源了通义千问,百度、腾讯、华&为、字节等则选择了闭源路线。
有行业人士指出,Falcon 180B这轮开源,对选择To B和To C不同路径的公司冲击程度不同,对一些以To C为核心的基础大模型创业公司冲击较大。例如,某家采用“开源小模型引流+闭源大模型盈利”策略的公司,其生态位正接连受到Llama 2和Falcon 180B的“降维打击”。
另一个值得玩味的现象是,国内迄今尚未出现一个千亿参数级别的开源大模型。究其原因,在于国内大多数机构和企业将开源视为商业策略的一环,有价值则开,无价值则不开。有魔搭社区的相关人士透露,此前积极贡献开源模型的一家公司,近期开源意愿明显下降,猜测可能与商业化压力有关。毕竟,坚持开源意味着持续的巨大投入,千万乃至上亿的融资在大模型训练面前也烧不了多久。
曾国洋认为,超大规模模型训练需要巨额资金,若没有良好的商业模式支撑,投入难以为继。目前国内外开源大模型都尚未探索出清晰的商业模式,因此国内开源模型的参数规模可能长期停留在百亿级别以内。
当然,也有更尖锐的观点认为,强大开源模型的出现对某些国内基础模型厂商是“致命”的。正如李开复曾警示的,当更强的开源模型出现时,一些厂商可能会发现过去的投入打了水漂,原先训练的模型价值大打折扣。
开源VS闭源
有句俗语恰如其分地形容了闭源与开源的关系:一个人走得更快,一群人走得更远。行业既需要那些集中资源、深耕技术与场景的闭源大模型,也需要那些充满理想主义、推动集体进步的开源大模型。
澜舟科技创始人周明曾表示,创业首先要“活着”。他认为,大模型创业是一场艰难的持久战。对许多创业者而言,经费是生存的关键。随着Llama 2、Falcon 180B等优质开源模型不断涌现,积极拥抱开源,或许是一条更现实的出路。因此,澜舟科技当前的策略是拥抱开源:将开源模型作为L0级基础底座,在其上构建L1通用语言模型、L2行业模型和L3场景模型。
在这股创业潮中,越来越多创业者开始转向拥抱开源。有人形容,这波开源潮就像把“自来水厂”免费接到了家门口。但如果“自来水厂”不愿开闸,惠及范围有限,整个行业的发展速度势必会放缓。因此,开源社区急需来自中国的力量。
然而,在一位业内人士看来,目前国内开源的一些模型,与Llama 2、Falcon 180B还“不在一个竞争层面”,更像是“小玩具”。真正的竞争力,或许要等到千亿参数级别的开源模型出现才能建立。
不过,也无需过于担忧。多位受访者指出,像智源研究院、上海人工智能实验室这类不以模型盈利为首要目标的官方机构,最有动力和意愿去打造更大规模的开源模型。它们没有商业公司迫切的盈利压力,更多是为了推动整个行业的发展。一旦它们准备就绪,国内很有希望出现千亿参数级别的开源大模型,助力国内开源生态突破瓶颈。
展望未来,开源与闭源将长期共存。闭源大模型将由少数在技术、人才和商业上占据绝对优势的超级玩家主导;而开源大模型则将催生出一个更加广泛、百花齐放的生态系统。
陈冉与王伟认为,在国内,闭源大模型必然对具体应用更友好(性能更强、更定制化),而开源大模型则必然对生态建设更友好(降低门槛、促进协作)。
开源与闭源并非对立,而是密不可分。在王铁震看来,开源是闭源发展的“脚底板”,为行业奠定基础、探索方向;闭源则是开源发展的“天花板”,代表着商业化的高度和性能的极致。因为任何闭源模型,无论是从头训练还是基于开源微调,其价值都建立在必须比同时期的开源模型做得更好之上。纵观开源软件历史,取得巨大成功的项目未必是当时技术最领先的,但一定是对开发者和生态建设最友好的。
开源的竞争,本质上是生态的竞争。谁能为开发者提供最友好的工具、最活跃的社区,谁就能吸引最多的开发者,从而像滚雪球一样不断壮大生态。开源的价值在于持续推动行业前进。而当商业公司从中获利后,也可能通过开源模型、贡献数据集等方式反哺社区,形成良性循环。
陈冉与王伟指出,未来开源大模型的竞争,除了模型规格与能力,将更多围绕配套工具链、生态建设、垂直领域能力、安全性与推理性能优化等方面展开。
这也引出了一个现实的无奈。蒋磊曾疑惑,为何至今没有出现基于MoE(混合专家)架构的Llama模型?他曾在相关社区倡议共同构建一个MoE模型,但应者寥寥。这反映出,构建一个大型模型,仍然需要一个中等体量的公司或一个拥有充足赞助、团结一致的开源社区才能完成。
在他看来,国产大模型若真想做好开源,其中必须蕴含一些理想主义。“开源,难道不是互联网最美、最深刻的理想主义么?”
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
南方电网携手百度智能云发布行业首个电力大模型
南方电网发布人工智能平台及电力大模型,提供模型即服务,已应用于智能创作、设备巡检及调度等核心场景。例如在调度中,模型可秒级生成处置方案并自动报告,提升应急效率。百度智能云提供全栈技术支持,双方通过生态共建与人才培养,推动AI与电力行业深度融合,助力新型电力系统建设。
阿里云开源通义千问14B大模型 周靖人详解开源战略
阿里云开源140亿参数模型Qwen-14B及其对话版,免费商用。该模型基于超3万亿Token数据训练,支持多语言与8K上下文,性能超越同规模模型。对话版在准确性、人性化与工具调用方面表现突出,大幅降低开发门槛。阿里云通过持续开源推动大模型生态繁荣,助力创新应用落地。
对话港科大郭毅可提问型AI比复刻ChatGPT更具价值
香港成立生成式人工智能研发中心,旨在打造本地开源基础大模型,聚焦实际应用而非技术排名。港科大率先部署校园ChatGPT以研究教育变革,强调培养批判性思维。人工智能应被视为工具,推动人机协作与职业演化。创新不应简单复制他人模式,而需立足自身特色与需求,务实推进技术发展。
Falcon 180B开源模型将如何改变行业竞争格局
阿联酋TII开源Falcon180B模型,评测表现超越Llama2等,但因推理成本高、中文能力不足且微调成本高,实际应用及对国内生态冲击有限。其开源行为引发行业对数据消耗与模型欠拟合的思考。未来开源与闭源模型将长期共存,竞争重点在工具链、生态及垂直领域能力。
AI大模型如何加速科学发现与科研创新
大模型技术正通过注入专业知识推动AIforScience发展,提升医疗、科研等领域的推理与决策能力,辅助诊断、预测蛋白质结构等。尽管面临语义理解、数据稀缺等挑战,但产学研结合正促进其从新药研发到量子计算等场景落地,不仅解决具体问题,更可能催生新科学发现与研究范式。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

