建站知识
INSTRUMENTS
资讯中心News
联系我们contact us
- 地址:
- 山西省临汾市曲沃县乐昌镇
- 邮箱:
- bossmsw@qq.com
- 电话:
- 155-2924-2867
- 网址:
- www.cngxfh.com
建站知识
当前位置:首页 > 建站知识 > 一键禁用 AI 模型爬虫机器人,Cloudflare 推出防火墙服务
一键禁用 AI 模型爬虫机器人,Cloudflare 推出防火墙服务 发布时间:2024.07.07 新闻来源:曲沃县蓝羽网络工作室 浏览次数:
网络服务商Cloudflare近日推出一款名为“Bot Fight Mode”的防火墙工具,站长们可以在控制台开启相关服务,从而防止自己网站的内容被用于训练AI的机器人爬虫扒取。
爬虫是一种自动化的程序,可以在互联网上搜索和获取信息,目前许多厂商使用相关爬虫扒取各大网站信息用于训练AI模型,相关爬虫容易导致被扒网站产生大量异常流量,为此站长需支付高昂的网络带宽费用,同时也容易导致网站上大量原创/隐私内容泄露。
据悉,Cloudflare推出的相关工具主要利用签名比对、启发式算法、机器学习和行为分析技术来辨别爬虫,站长还可以按照需要放行“好的AI机器人”抓取信息(此类“好的AI机器人”主要寻找网站的robots.txt来获取信息,通常不会对网站本身产生异常流量,也不会将网页所有数据直接用于全盘训练模型)。
互联网为许多大语言模型(如OpenAI的GPT模型和谷歌的Bard)提供了大部分的训练数据,如今许多厂商为了刷自家AI模型分数,大肆通过网络爬虫“拿来式”地获取训练数据,从而让本应你情我愿的行为变得“污名化”,各大网络商直接推出此类禁用AI爬虫的服务也在意料之中。
爬虫是一种自动化的程序,可以在互联网上搜索和获取信息,目前许多厂商使用相关爬虫扒取各大网站信息用于训练AI模型,相关爬虫容易导致被扒网站产生大量异常流量,为此站长需支付高昂的网络带宽费用,同时也容易导致网站上大量原创/隐私内容泄露。
据悉,Cloudflare推出的相关工具主要利用签名比对、启发式算法、机器学习和行为分析技术来辨别爬虫,站长还可以按照需要放行“好的AI机器人”抓取信息(此类“好的AI机器人”主要寻找网站的robots.txt来获取信息,通常不会对网站本身产生异常流量,也不会将网页所有数据直接用于全盘训练模型)。
互联网为许多大语言模型(如OpenAI的GPT模型和谷歌的Bard)提供了大部分的训练数据,如今许多厂商为了刷自家AI模型分数,大肆通过网络爬虫“拿来式”地获取训练数据,从而让本应你情我愿的行为变得“污名化”,各大网络商直接推出此类禁用AI爬虫的服务也在意料之中。