如何防止他人利用robots.txt找网站后台地址

说在最开始:

robots.txt这个文件存在的目的是为了告诉搜索引擎这个网站下的哪些目录不可以访问和收录。

当爬虫访问你的站点时,它会首先检查你站点根目录下是否有robots.txt。
1、如果有robots.txt,搜索引擎就会根据此文件中的内容来确定访问的范围;
2、如果没有robots.txt,它将可以访问你网站上的所有页面。这将给网站带来各种安全隐患。
例如:通过Google搜索“.com/admin/login.asp”就会出现一堆网站的后台,这就是某些站长没做好工作导致后台暴露到全网。


那么如何防止他人通过robots.txt找到你的后台呢?

方法1(简单,只需编辑文本的能力):
假设我们后台目录是 /wp-admin/,那么我们可以在设置的时候这样写:
User-agent: *
Disallow: /wp
Disallow: /wp
这样写就会阻止搜索引擎访问任何以“wp”开头的文件和目录。为了防止别人猜出你的后台目录,这里截取的越短越好,比如:
User-agent: *
Disallow: /w
这样,同样起到作用,但留的字母更少就更难猜了,这时会阻止搜索引擎访问所有以w开头的文件和目录。
为了避免影响其它目录的收录,可以修改一下网站后台目录文件名(比如aab-admin)。如果后台目录以某个字母或几个字母开头,就可以避免其它需要被收录的文件或目录被屏蔽了。

方法2(稍微麻烦,需要懂点基础代码知识):
后台目录做个首页文件, 跳转到真正的后台首页文件。比如:
后台首页是index.php,而服务器优先index.html,你就写个index.html文件,让其跳转到index.php
index.html文件在<head>中加入
<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>
搜索爬虫就不会继续到该目录下的其他页面了

注:
NOINDEX指令:表示拒绝搜索机器人索引本页,但可跟踪该页上的链接;
NOFOLLOW指令:表示拒绝机器人跟踪本页链接,但可索引本页。
或许,你还可以加入NOARCHIVE指令:告诉Google不要保存含此标签的网页的快照。

补充:
只是拦截百度蜘蛛爬取网页,而允许其他搜索引擎收录:
<META NAME=”baiduspider” CONTENT=”NOINDEX, NOFOLLOW”>

允许搜索引擎收录你的网页,但禁止其收录网页上的图片:
<META NAME=”ROBOTS” CONTENT=”NOIMAGEINDEX”>

如果是linux+apache, 还可以用.htaccess文件限制。

robots.txt其实挺有东西可搞,希望这些内容对大家有所帮助。

Have fun~.

Comments

近期阅读最多的文章

龙虎斗新功略实操视频,文件较大将近500Mb,建议攀上梯子再看。

用裸藻制造分泌“减肥激素”的物质

简单讲解隔空盗刷,大伙要注意防盗啊