OpenAI震撼发布GPTBot网络爬虫,引爆网站封锁风暴!

OpenAI近期发布GPTBot网络爬虫后,网站所有者和创作者迅速反击,寻找封锁方法,以免其获取数据。

OpenAI推出了名为GPTBot的网络爬虫,用于扫描网站内容以训练其大型语言模型(LLM)。

然而,在有关该机器人的消息传出后,网站所有者和创作者迅速展开反抗,争相交流如何阻止GPTBot获取其网站数据。

当OpenAI添加了GPTBot支持页面时,他们还引入了一种阻止该服务获取网站数据的方法。对网站的robots.txt文件进行轻微修改即可阻止内容与OpenAI分享。

然而,由于网络数据的广泛获取,目前尚不清楚仅仅阻止GPTBot是否足以完全停止内容被纳入LLM训练数据中。

OpenAI发言人在电子邮件中表示:“我们定期从互联网收集公共数据,这些数据可能用于改进未来模型的能力、准确性和安全性。“

”在我们的网站上,我们提供了如何禁止我们的收集机器人访问网站的说明。网页经过筛选,以删除付费墙源、已知收集个人可识别信息(PII)的源,或违反我们政策的文本。”

网站加强了自身防御。例如,The Verge等网络媒体已添加了robots.txt标志,以阻止OpenAI模型抓取内容并添加到其LLM中。

Casey Newton已在他的Substack新闻通讯“Platformer”中询问读者是否应该阻止OpenAI收集他的内容。科幻杂志Clarkesworld的编辑Neil Clarke在X(曾用名Twitter)上宣布将阻止GPTBot的访问。

在GPTBot的推出被公开后不久,OpenAI宣布向纽约大学的亚瑟·L·卡特新闻学院授予39.5万美元的赠款,并建立合作伙伴关系。

由前路透社总编辑斯蒂芬·阿德勒领导,纽约大学的伦理与新闻倡议旨在帮助学生以负责任的方式在新闻业中利用人工智能。

OpenAI知识产权和内容主管汤姆·鲁宾在周二的一份声明中表示:“我们对新的伦理与新闻倡议的潜力感到兴奋,并非常高兴支持其目标,即解决记者在努力在职业道德和责任上行使他们的职业时所面临的各种挑战,特别是与AI的实施相关的挑战。”

在发布的声明中,鲁宾没有提到公共网络爬虫,也没有提到围绕它的争议。

“已知”的东西实际上无法被遗忘

尽管对于谁可以使用开放网络上的内容有了更多控制,但目前尚不清楚仅仅阻止GPTBot是否足以阻止LLMs获取不受付费墙限制的内容。

LLMs和其他生成式AI平台已经使用大量的公共数据集来训练它们目前使用的数据集。

谷歌的Colossal Clean Crawled Corpus(C4)数据集和非营利机构Common Crawl是众所周知的训练数据集。

如果您的数据或内容被捕获在这些爬取活动中,专家表示它很可能是用于启用OpenAI的ChatGPT、谷歌的Bard或Meta的LLaMA平台的训练信息的永久部分。

像CommonCrawl这样的服务确实允许类似的robots.txt阻止,但在收集任何数据之前,网站所有者需要实施这些更改。

这凸显了在人工智能领域,随着技术的进步,与数据隐私和使用权之间的平衡问题仍然具有挑战性。

发布者:5840,转转请注明出处:https://www.5840.cn/lives/634.html

(0)
Lomu nini
上一篇 2023年08月09日 14:14
下一篇 2023年08月09日 14:50

发表回复

登录后才能评论

评论列表(0条)

相关推荐

  • WhatsApp Business API入门:功能、收费、申请方法全解析

    WhatsApp Business API是为企业量身打造的一种高级服务,它提供了一组编程接口(API),而不是一个可以直接操作的用户界面。与免费版的WhatsApp Business应用不同,WhatsApp Business API并不能在应用商店如App Store或Google Play中直接下载。企业需要通过认证的第三方服务提供商获取这些API,或者根据自己的需求找技术人员进行定制开发。

    2024年02月29日
    344 0
  • Facebook自动回复优化指南:提升客户满意度的策略

    在这个数字化的时代,快速响应已经成为企业在与客户沟通的必备要素。但是当经常面对大量的相同信息时,如何可以提高效率呢?目前很多社交媒体平台都内设了自动回复功能,像是Facebook。这个功能确保无论何时有人联系你,都会立即收到回复,无需24小时紧盯屏幕,客户依然感受到被重视和及时服务的体验。

    2024年02月22日
    132 0
  • Facebook自动回复优化指南:提升客户满意度的策略

    在这个数字化的时代,快速响应已经成为企业在与客户沟通的必备要素。但是当经常面对大量的相同信息时,如何可以提高效率呢?目前很多社交媒体平台都内设了自动回复功能,像是Facebook。这个功能确保无论何时有人联系你,都会立即收到回复,无需24小时紧盯屏幕,客户依然感受到被重视和及时服务的体验。

    2024年02月22日
    179 0
  • LINE官方账号全攻略:设置流程与基本功能

    LINE官方账号是一种适合企业和品牌的社交媒体平台,它在中国台湾、日本和东南亚等地区拥有庞大的用户基数和影响力。LINE官方账号提供了多种商业功能和定制选,帮助企业更有效地进行营销和服务.

    2024年02月05日
    695 0
  • 学会使用Facebook Messenger:一步步教你配置Messenger来助力推广营销

    是全球最受欢迎的通讯工具之一,不仅可以用于个人沟通,还可以用于商业用途,如与客户互动,提供客服,发送通知,甚至进行销售。Facebook Messenger还有一个广告平台,可以帮助企业触达潜在客户。

    2024年01月31日
    184 0

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@5840.com

工作时间:周一至周六,9:30-18:30,节假日休息

关注微信