用Robots.txt禁止多个爬虫/蜘蛛访问

idcbe.com

最近编写了一个程序专门检测搜索引擎蜘蛛机器人访问情况,经过多日的观察,发现美国一家名为Cuil的搜索爬虫和搜狗爬虫的访问量相当惊人,每天爬行次数几百倍于其他爬虫,但是来自于这些搜索引擎的访问却一个都没有!于是我毅然决定使用Robots.txt文件把这些爬虫干掉!

但是,要干掉多个搜索爬虫在Robots.txt里该怎么写呢?

禁止多个爬虫访问,可以用多组命令来实现,例如,禁止Cuil和搜狗:

# 完全禁止Cuil的爬虫
User-agent: Twiceler
Disallow: /
# 完全禁止搜狗的爬虫
User-agent:sogou spider
Disallow: /


[本日志由 edwin 于 2010-05-06 10:33 AM 编辑]
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 爬虫 蜘蛛 搜索引擎 Robots
评论: 0 | 引用: 0 | 查看次数: 9356
发表评论
昵 称:
密 码: 游客发言不需要密码.
内 容:
验证码: 验证码
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 50 字 | UBB代码 关闭 | [img]标签 关闭
idcbe.com