OpenAI推出了名为GPTBot的网络爬虫,用于扫描网站内容以训练其大型语言模型(LLM)。
然而,在有关该机器人的消息传出后,网站所有者和创作者迅速展开反抗,争相交流如何阻止GPTBot获取其网站数据。
当OpenAI添加了GPTBot支持页面时,他们还引入了一种阻止该服务获取网站数据的方法。对网站的robots.txt文件进行轻微修改即可阻止内容与OpenAI分享。
然而,由于网络数据的广泛获取,目前尚不清楚仅仅阻止GPTBot是否足以完全停止内容被纳入LLM训练数据中。
OpenAI发言人在电子邮件中表示:“我们定期从互联网收集公共数据,这些数据可能用于改进未来模型的能力、准确性和安全性。“
”在我们的网站上,我们提供了如何禁止我们的收集机器人访问网站的说明。网页经过筛选,以删除付费墙源、已知收集个人可识别信息(PII)的源,或违反我们政策的文本。”
网站加强了自身防御。例如,The Verge等网络媒体已添加了robots.txt标志,以阻止OpenAI模型抓取内容并添加到其LLM中。
Casey Newton已在他的Substack新闻通讯“Platformer”中询问读者是否应该阻止OpenAI收集他的内容。科幻杂志Clarkesworld的编辑Neil Clarke在X(曾用名Twitter)上宣布将阻止GPTBot的访问。
在GPTBot的推出被公开后不久,OpenAI宣布向纽约大学的亚瑟·L·卡特新闻学院授予39.5万美元的赠款,并建立合作伙伴关系。
由前路透社总编辑斯蒂芬·阿德勒领导,纽约大学的伦理与新闻倡议旨在帮助学生以负责任的方式在新闻业中利用人工智能。
OpenAI知识产权和内容主管汤姆·鲁宾在周二的一份声明中表示:“我们对新的伦理与新闻倡议的潜力感到兴奋,并非常高兴支持其目标,即解决记者在努力在职业道德和责任上行使他们的职业时所面临的各种挑战,特别是与AI的实施相关的挑战。”
在发布的声明中,鲁宾没有提到公共网络爬虫,也没有提到围绕它的争议。
“已知”的东西实际上无法被遗忘
尽管对于谁可以使用开放网络上的内容有了更多控制,但目前尚不清楚仅仅阻止GPTBot是否足以阻止LLMs获取不受付费墙限制的内容。
LLMs和其他生成式AI平台已经使用大量的公共数据集来训练它们目前使用的数据集。
谷歌的Colossal Clean Crawled Corpus(C4)数据集和非营利机构Common Crawl是众所周知的训练数据集。
如果您的数据或内容被捕获在这些爬取活动中,专家表示它很可能是用于启用OpenAI的ChatGPT、谷歌的Bard或Meta的LLaMA平台的训练信息的永久部分。
像CommonCrawl这样的服务确实允许类似的robots.txt阻止,但在收集任何数据之前,网站所有者需要实施这些更改。
这凸显了在人工智能领域,随着技术的进步,与数据隐私和使用权之间的平衡问题仍然具有挑战性。
发布者:5840,转转请注明出处:https://www.5840.cn/lives/634.html
评论列表(0条)