Meta新爬虫部署,为AI模型大规模收集数据
Meta发布新网络爬虫MetaExternalAgent,用于抓取网页文本和对话数据以训练AI模型。目前仅2%网站屏蔽该爬虫,远低于GPTBot的25%。此举旨在为Llama系列模型补充增量训练数据,加速模型迭代。
Meta近期低调推出了一项全新举措——发布了一款全新的网络爬虫,专门用于从互联网上采集数据,为其AI模型提供训练素材。这一动作并未大张旗鼓地宣传,但多家追踪网络爬虫的第三方公司已经察觉并开始关注。

这款代号为Meta External Agent的新爬虫于上月正式上线。其运作方式与OpenAI的GPTBot如出一辙:广泛抓取网页内容,例如新闻文章文本、在线讨论区对话——简而言之,就是AI训练数据的“搬运工”。
根据历史记录,Meta确实在7月底悄然更新了面向开发者的网站页面,其中一页标签揭示了新爬虫的存在。但截至目前,官方始终未公开发布相关消息。这种低调处理的方式,反而更加引人注目。
Meta旗下的Llama系列模型,是目前规模最大的大型语言模型之一。尽管最新版本Llama 3的训练数据来源尚未公开,但初代版本确实使用了Common Crawl这类公开数据集。值得注意的是,今年早些时候,扎克伯格在财报电话会议上曾自信地表示:自家社交平台积累的数据集,已经“超越了Common Crawl”。
既然如此,为什么还要推出新爬虫?答案显而易见:Meta的数据“库存”可能已经不足。 Llama需要持续迭代,Meta AI的功能也在不断扩展,高质量的新增训练数据始终是刚需。即便旧的数据再丰富,也难以支撑模型日益庞大的规模。
根据Dark Visitors的数据,全球约25%的热门网站已屏蔽了GPTBot,但屏蔽Meta新爬虫的网站仅有2%。换句话说,大多数网站尚未反应过来,Meta因此获得了充裕的“数据采集”窗口期。不过,随着隐私与版权问题持续发酵,这种“先下手为强”的策略究竟能持续多久,仍是一个未知数。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Meta新爬虫部署,为AI模型大规模收集数据要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。
通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。
基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。
阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。
- 日榜
- 周榜
- 月榜
热点快看
