要闻

Claude团队引众怒,为爬数据不择手段,给爬虫改名字无视禁止规则

量子位 2024-08-01 15:59:21
科技

Claude团队这次惹了众怒!

原因:24小时内访问某公司服务器100万次,以不付费形式,爬虫抓取网站内容。

不仅明目张胆无视了“禁止爬取”的公告,还强行占用了服务器资源。

这家“受害者”公司其实尽力防御了,但阻止失败,内容数据还是被Claude抓走了。

公司负责人气得吹胡子瞪眼,在x上激情开麦:

嘿,Anthropic,我知道您渴望数据。Claude真的很聪明!
但你造吗,这一点也不!酷!哦!

许多网友为此愤愤不平,有个搞文案工作的网友留言称:

我建议用‘偷’,而不是‘不付费’来描述Anthropic的这种行为。”

一时之间,群情激愤!

支持声讨的,要求Claude付费的,评论区简直乱成一锅粥了。

这是怎么回事

强烈谴责Anthropic的这家公司叫做iFixit,是一家美国电子商务和操作指南网站。

iFixit的业务的一部分,是为消费电子产品和小工具提供类维基百科的免费在线维修指南。

网站内有数百万个页面,包括修理指南、指南的修订历史、博客、新闻帖子和研究、论坛、社区贡献的修理指南和问答部分等。

但,iFixit突然发现,Claude的爬虫程序ClaudeBot在几个小时内,每分钟都有数千次请求访问。

这约等于一天内访问其网站近百万次。

据统计,它一天内访问了10 TB的文件,整个5月份总计访问了73 TB。

为此,iFixit的CEO老K(Kyle Wiens)丢下一句话:

未经许可,ClaudeBot偷走我们所有的数据,还把我们的服务器占满了……Fine,这也没什么大不了。
不知道它有没有爬到我们的许可说明??

对你没看错,「未经许可」。

iFixit其实有写声明——

未经iFixit明确事先书面许可,严禁因为任何其他目的(包括训练机器学习或人工智能模型)复制、复制或分发本网站上的任何内容、材料或设计元素。

然并卵。

Claude不仅视若无睹地继续疯狂访问-抓取,还躲避了iFixit的防御。

iFixit其实成功阻止了两个Anthropic的AI抓取机器人,分别名为“ANTHROPIC-AI”和“CLAUDE-WEB”。

但这俩AI抓取机器人似乎已经是过去式了,目前的主力爬虫正是没被阻止成功的“ClaudeBot”。

逼不得已,老K表示,iFixit本周修改了robots.txt文件,专门用来阻止Anthropic的爬虫机器人。

那,Anthropic那边有啥反应不?

它们倒是没有闭麦,对媒体回应道:

ANTHROPIC-AI 和 CLAUDE-WEB 这俩确实是公司使用过的旧爬虫,但现在已经停止使用了。

当然了,Anthropic回避了现在活跃的ClaudeBot是否尊重防爬虫robots.txt阻止被爬取的问题。

AI公司不是第一次干这事儿了

翻看Anthropic的官方网站可以发现,早就挂着一篇名为《Anthropic是否从网络上抓取数据?网站所有者如何阻止抓取工具?》的文章。

里面提到:

根据行业标准,Anthropic使用各种数据源进行模型开发,例如通过网络爬虫收集的来自互联网的公开数据。

我们的爬取不应具有侵入性或破坏性

我们的目标是通过考虑爬取相同域的速度,并在适当的情况下尊重爬行延迟来将干扰降到最低

但一片舆论声中不难发现,Anthropic显然不是这么做的。

它,未经允许爬取别人数据,老惯犯了

就说今年4月的时候,Linux Mint论坛就惨遭被爬。

在几个小时中,ClaudeBot多次访问论坛爬取数据,导致论坛在几个小时内处于超低速or崩溃状态,最终完全崩掉。

有人表示,在同一时间内,ClaudeBot占用的流量独占鳌头,是第二名的20倍、第三名的40倍。

在4月事件和本次事件的讨论贴中,都有人建议:

既然放禁爬取公告没有用,那不放在网站中搞一些带有可追踪or独特信息的虚假信息,以便检测是谁偷走了数据。

iFixit确实也这么做了。

而且真的有用——发现自家网站的信息不仅被Claude爬个底朝天,还被OpenAI也爬走了……

讲道理,有什么办法呢?真的一点办法也没有。

因为除了Claude和GPT以外,这样强行偷家的AI挺不少的。

前几天就有一家名为Tollbit的机器人检测初创公司声称Perplexity、Claude、OpenAI会忽略爬取网站上的robots.txt设置——当时有人跑去问了OpenAI的态度,OpenAI不予置评。

再往前看,上个月也闹过一次。

《福布斯》谴责AI搜索产品Perplexity涉嫌抄袭其新闻文章;一石激起千层浪,更多媒体站出来,指责Perplexity的爬虫机器人PerplexityBot非法抓取自家网站信息。

而Perplexity一直的态度都是:

尊重出版商不抓取内容的要求,并且在合理使用版权法的范围内运营。

理论上讲,不管是ClaudeBot还是PerplexityBot,在遇到标明“禁止抓取”“禁止robot.txt”的文件时,都应该遵从协议,规避爬取声明方网站的内容。

既然声明无效,就有人呼吁创作者把内容尽可能转移到付费区域,来防止无限制的抓取。

你觉得这样的办法会有效吗?

本文来源:量子位

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

当游戏依旧是唯一主角,ChinaJoy还能看什么? 科技要闻
当游戏依旧是唯一主角,ChinaJoy还能看什么?
董宇辉单飞的路不好走 科技要闻
董宇辉单飞的路不好走
无房无贷的年轻人,开始挑战用利息生活 科技要闻
无房无贷的年轻人,开始挑战用利息生活
手机操作系统“新三国杀”,华为、苹果、小米谁会是赢家? 科技要闻
手机操作系统“新三国杀”,华为、苹果、小米谁会是赢家?
马斯克改口了!他承认之前对自动驾驶过于乐观 科技要闻
马斯克改口了!他承认之前对自动驾驶过于乐观
马斯克唠硬嗑,市值没了4000亿 科技要闻
马斯克唠硬嗑,市值没了4000亿
宗馥莉再「回宫」,这次稳了吗? 科技要闻
宗馥莉再「回宫」,这次稳了吗?
iPhone要出折叠屏了!值不值得让我们再等两年? 科技要闻
iPhone要出折叠屏了!值不值得让我们再等两年?
一夜掉粉百万,被流量反噬的网红们踩了哪些雷区? 科技要闻
一夜掉粉百万,被流量反噬的网红们踩了哪些雷区?
“精致女生坐高铁”,带货网红大团建 科技要闻
“精致女生坐高铁”,带货网红大团建
相关产品
取消