idcbe.com
Tag: 爬虫预览模式: 普通 | 列表

用Robots.txt禁止多个爬虫/蜘蛛访问

最近编写了一个程序专门检测搜索引擎蜘蛛机器人访问情况,经过多日的观察,发现美国一家名为Cuil的搜索爬虫和搜狗爬虫的访问量相当惊人,每天爬行次数几百倍于其他爬虫,但是来自于这些搜索引擎的访问却一个都没有!于是我毅然决定使用Robots.txt文件把这些爬虫干掉!

但是,要干掉多个搜索爬虫在Robots.txt里该怎么写呢?

禁止多个爬虫访问,可以用多组命令来实现,例如,禁止Cuil和搜狗:

# 完全禁止Cuil的爬虫
User-agent: Twiceler
Disallow: /
# 完全禁止搜狗的爬虫
User-agent:sogou spider
Disallow: /

Tags: 爬虫 蜘蛛 搜索引擎 Robots

分类:网站建设 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 9224