怎么查看网站robots设置的蜘蛛访问权限
的有关信息介绍如下:怎么查看网站设置的蜘蛛访问权限?这里的蜘蛛不是动物蜘蛛,是搜索引擎蜘蛛,包括百度蜘蛛、雅虎蜘蛛、搜狗蜘蛛、谷歌蜘蛛等,这些都是抓取网页内容的爬虫,当然有的搜索引擎把这个不叫蜘蛛,我这里统称为蜘蛛,方便识别。
网站需要设定蜘蛛访问的页面,需要设置不允许访问后台的文件,或者某些不需要被搜索的页面。
那么怎么查看网站给搜索引擎爬虫设置的权限是什么呢?
找到想要了解的网站,这里我以百度为例。打开百度官网:www.baidu.com。
在域名栏输入:www.baidu.com/robots.txt。回车进入。如图。
“User-agent:”+蜘蛛爬虫代码,表示针对某个搜索引擎。
Baiduspider表示百度蜘蛛、Googlebot表示谷歌爬虫、Baiduspider-image表示百度图片蜘蛛、Sosospider搜搜蜘蛛、Sogou web spider搜狗蜘蛛……
“User-agent: * ”表示针对所有搜索引擎。
“Disallow:”+文件夹/名 表示不被允许访问的页面或栏目页。
“Allow:”+文件夹/名 表示被允许访问的页面或栏目页。
“Sitemap:”+ 网站地图 告诉爬虫这个页面是网站地图