Meta新爬虫部署，为AI模型大规模收集数据

AI热点日报时间：2026-07-05

热点解读

Meta发布新网络爬虫MetaExternalAgent，用于抓取网页文本和对话数据以训练AI模型。目前仅2%网站屏蔽该爬虫，远低于GPTBot的25%。此举旨在为Llama系列模型补充增量训练数据，加速模型迭代。

Meta近期低调推出了一项全新举措——发布了一款全新的网络爬虫，专门用于从互联网上采集数据，为其AI模型提供训练素材。这一动作并未大张旗鼓地宣传，但多家追踪网络爬虫的第三方公司已经察觉并开始关注。

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

这款代号为Meta External Agent的新爬虫于上月正式上线。其运作方式与OpenAI的GPTBot如出一辙：广泛抓取网页内容，例如新闻文章文本、在线讨论区对话——简而言之，就是AI训练数据的“搬运工”。

根据历史记录，Meta确实在7月底悄然更新了面向开发者的网站页面，其中一页标签揭示了新爬虫的存在。但截至目前，官方始终未公开发布相关消息。这种低调处理的方式，反而更加引人注目。

Meta旗下的Llama系列模型，是目前规模最大的大型语言模型之一。尽管最新版本Llama 3的训练数据来源尚未公开，但初代版本确实使用了Common Crawl这类公开数据集。值得注意的是，今年早些时候，扎克伯格在财报电话会议上曾自信地表示：自家社交平台积累的数据集，已经“超越了Common Crawl”。

既然如此，为什么还要推出新爬虫？答案显而易见：Meta的数据“库存”可能已经不足。 Llama需要持续迭代，Meta AI的功能也在不断扩展，高质量的新增训练数据始终是刚需。即便旧的数据再丰富，也难以支撑模型日益庞大的规模。

根据Dark Visitors的数据，全球约25%的热门网站已屏蔽了GPTBot，但屏蔽Meta新爬虫的网站仅有2%。换句话说，大多数网站尚未反应过来，Meta因此获得了充裕的“数据采集”窗口期。不过，随着隐私与版权问题持续发酵，这种“先下手为强”的策略究竟能持续多久，仍是一个未知数。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Meta新爬虫部署，为AI模型大规模收集数据要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.1ai.net/18437.html

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

上一篇：发票数据自动提取转Excel会计工具

下一篇：Wow年轻人自己的AI朋友社区

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周OmniParser基于AI的解析工具 02 / 本周通义灵码智能编码助手助你高效编程 03 / 本周基于AI的自动化道路巡逻与资产数据收集方案 04 / 本周通义智文AI助你高效阅读全网文章 05 / 本周Applitools Eyes 基于人工智能的端到端测试平台

01 / 本月OmniParser基于AI的解析工具 02 / 本月通义灵码智能编码助手助你高效编程 03 / 本月基于AI的自动化道路巡逻与资产数据收集方案 04 / 本月通义智文AI助你高效阅读全网文章 05 / 本月Applitools Eyes 基于人工智能的端到端测试平台

热点快看

07-05 19:47OmniParser基于AI的解析工具 07-05 19:47通义灵码智能编码助手助你高效编程 07-05 19:47基于AI的自动化道路巡逻与资产数据收集方案 07-05 19:47通义智文AI助你高效阅读全网文章 07-05 19:47Applitools Eyes 基于人工智能的端到端测试平台

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别