CA88会员入口“AI数据荒”雪上加霜！MIT：网页数据的公开共享正走向衰落

分类：【学术讲坛】发稿时间：2024-08-17 17:46:25 来源：ca88苹果手机登录作者：ca88手机版登陆唯一官方网站浏览次数：36

　　【新智元导读】人工智能系统依靠充足、高质量的训练数据来获得高性能，但MIT等机构最近的一项研究发现，曾经免费提供的数据在多个方面变得越来越难获取。

　　最近，吴恩达在网站The Batch上提及了一篇有关数据许可的研究，其结果似乎让本就迫近的「AI数据荒」雪上加霜。

　　研究人员发现，C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议，曾经触手可及的开放数据越来越难以获取。

　　主持该研究的是非营利组织The Data Provenance Initiative，由来自世界各地的AI研究人员志愿加入组成。论文所涉及的数据标注以及分析全过程已经全部公开在GitHub上，方便未来研究参考使用。

　　从服务条款的结果来看，C4数据集的45%已被限制。通过这种趋势可以预测，不受限制的开放网络数据将会逐年减少。

　　相比其他的开发者，OpenAI的爬虫更加不受欢迎。不一致性体现在，robots.txt和服务条款（Terms of Service, ToS）中经常存在矛盾之处。这表明用于传达数据使用意图的工具存在效率低下的问题。

　　这些语料中有相当高比例的用户生成内容、多模态内容和商业变现内容（俗称带货广告），敏感或露骨内容的比例仅仅略少一些。

　　排名靠前的网站域名包括新闻、百科和社交媒体网站，其余的组织机构官网、博客和电子商务网站构成了长尾部分。

　　网络上爬取的相当一部分数据与AI模型的训练用途并不一致，这对模型对齐、未来的数据收集实践以及版权都会造成影响。

　　REP的诞生还要追溯到AI时代之前的1995年，这个协议要求在网站源文件中包含robots.txt以管理网络爬虫等机器人的活动，比如用户代理（user agent）或具体文件的访问权限。

　　你可以将robots.txt的效力视为张贴在健身房、酒吧或社区中心墙上的「行为准则」标志。它本身没有任何强制效力，好的机器人会遵循准则，但坏的机器人可以直接无视。

　　论文共调查了3个数据集的网站来源，具体如表1所示。这些都是有广泛影响力的开源数据集，下载量在100k～1M+不等。

　　每个数据来源，token总量排名前2k的网站域名，取并集，共整理出3.95k个网站域名，记为HEADAll，其中仅来源于C4数据集的记为HEADC4，可以看作是体量最大、维护最频繁、最关键领域的AI训练数据来源。

　　随机采样10k个域名（RANDOM10k），其中再随机选取2k个进行人工标注（RANDOM2k）。RANDOM10k仅从三个数据集的域名交集中采样，这意味着他们更可能是质量较高的网页。

　　如表2所示，对RANDOM2k进行人工标注时涵盖了许多方面，包括内容的各种属性以及访问权限。为了进行时间上的纵向比对，作者参考了Wayback Machine收录的网页历史数据。

　　从robots.txt的限制来看，从GPTBot出现（2023年中期）后，进行完全限制的网站数量激增，但服务条款的限制数量增长较为稳定且均衡，更多关注商业用途。

　　根据SARIMA模型的预测，无论是robots.txt还是ToS，这种限制数增长的趋势都会持续下去。

　　下面这种图计算了网站限制的特定组织或公司的agent比例，可以看到OpenAI的机器人遥遥领先，其次是Anthropic、谷歌以及开源数据集Common Crawl的爬虫。

　　OpenAI、Anthropic和Common Crawl的受限占比位列前三，都达到了80%以上，而网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。

　　robots.txt主要用于规范网页爬虫的行为，而网站的服务条款是和使用者之间的法律协议，前者较为机械化、结构化但可执行度高，后者能表达更丰富、细微的策略。

　　二者本应相互补足，但在实际中，robots.txt常常无法捕捉到服务条款的意图，甚至常常有互相矛盾的含义（图3）。

　　论文将网页内容与WildChat数据集中的问题分布进行对比，这是最近收集的ChatGPT的用户数据，包含约1M份对线中可以发现，二者的差别十分显著。网页数据中占比最大的新闻和百科在用户数据中几乎微不足道，用户经常使用的虚构写作功能在网页中也很难找到。