雷军千万年薪招募DeepSeek天才,小米AI论文突破新成果

10月16日消息,大家是否还记得去年底引发热议、登上热搜的“95后AI天才少女”罗福莉?
据媒体报道,小米与北京大学联合署名的论文近日发表在arXiv上,曾经被曝获得小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉,出现在这篇论文的通讯作者之列。
不过值得注意的是,论文作者中并未标注罗福莉属于小米大模型团队。
公开报道显示,罗福莉是95后,本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。
毕业后的罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作,2024年入职DeepSeek,参与了MoE大模型DeepSeek-V2的研发。
去年底,据证券时报独家报道称,小米创始人雷军亲自出手“挖人”,以千万年薪的优厚条件,成功招揽了DeepSeek开源大模型DeepSeek-V2的关键开发者之一——罗福莉,让她领导小米的AI大模型团队。
这也使其冲上热搜,但双方至今都未公开声明是否正式入职小米。
不过,今年2月18日,罗福莉在朋友圈发文呼吁:“请互联网还我一片安安静静做事的氛围吧!几年前就说过我并非天才少女,神化一个人的结果就是捧得多高摔得多重!”
据了解,这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay(R3)。
当下,强化学习已成为提升大语言模型能力的关键方法。然而在MoE模型中,路由机制往往会引入不稳定性,甚至导致强化学习训练崩溃,但现有的引入重要性采样机制等并不能提升训练稳定性。
不同于此前采取诸如丢弃差异较大的数据之类的变通方法,这篇论文的研究人员希望通过解决路由分布也就是R3来根本性地解决这个问题。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
老乡鸡董事长分享:美团、卫星店与商圈销量前三秘诀
10月16日美团第八届餐饮产业大会上,老乡鸡董事长束小龙透露,老乡鸡美团卫星店销量均排在所属商圈前三,“我们很多外卖卫星店,一天能交付1000到1500笔订单”。品牌卫星店是连锁餐饮品牌为专注外卖业
荣耀Magic8标准版上手:骁龙8 Gen3加持AI体验,4499元起
荣耀近日举办“见新局・见未来”HGDC发布会,正式推出Magic 8系列智能手机。这款新品搭载第五代骁龙8至尊版芯片,配合MagicOS 10系统实现多项AI功能创新,预售将于今晚9点半启动,10月
神舟二十号即将返回,神舟二十一号准备升空交接
2025年4月24日,神舟二十号载人飞船顺利升空,执行为期约六个月的飞行任务,预计将于2025年10月底返回地面。在此期间,航天员陈冬、陈中瑞和王杰在中国空间站内完成了各项既定的科学实验与技术验证工
提前揭秘iOS 18设计细节:iPhone 16为新机让路现谷底价
10 月 16日消息,今年 7月,苹果公司对乔恩普罗瑟(Jon Prosser)和迈克尔拉马乔蒂(Michael Ramacciotti)提起诉讼,指控二人涉嫌窃取公司的商业机密。诉状称,两人合
微信朋友圈活跃度报告:7.8亿人每日浏览,1.2亿用户持续发圈
近日,“微信派”微信公众号发布了一篇题为《真的没有人发朋友圈了吗?》的文章,针对近期关于朋友圈使用情况的讨论作出了回应。针对“越来越多人不再发朋友圈,朋友圈是否已经失去热度”的质疑,微信公关总监在“
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















