欢迎您来到贝乐乐科技!
当前身份:游客 [ 登录 | 注册 ]
当前位置:首页>>文章阅读>>网站优化

如何防止机器人或者网络爬虫爬取自己的网站?

来源:中山网站优化 发布时间:2024-07-11 10:36  阅读次数:131次  剩余奖励:480金币

网站搭建成功之后,如何在搜索引擎上展现给用户是当前最为迫切的事情。在搜索引擎上面获得展现机会,离不开搜索引擎爬虫对我们网站的抓取。大家在关注网站日志时会发现,不仅有很多官方公开的爬虫IP在抓取网页,还有一些不明的IP也同样在抓取,甚至有些IP还在找后台、代码渗透等等,这些是严重影响到我们网站安全的。那么如何防止机器人或者网络爬虫爬取自己的网站?

如何防止机器人或者网络爬虫爬取自己的网站?

为什么那么多非搜索引擎蜘蛛爬我们的网站?

我们一般判断是否是搜索引擎蜘蛛爬行,会通过查看访问日志中的user-agent,比如百度搜索的baiduspider,谷歌Googlebot等等,这些搜索引擎蜘蛛的访问我们是欢迎的,是有助于我们网站在搜索引擎上获得收录和索引的。但是也有很多非搜索引擎的蜘蛛爬我们的网页,其目的要么是为了采集我们的内容,要么是查找我们网站的后台,要么是查找我们网站的漏洞以攻击我们的网站。

网站要减轻负荷,就得屏蔽一些恶意抓取。我们可以通过服务器控制面板直接屏蔽掉恶意的IP/段,未免误伤到搜索引擎和正常的人工访问,我们需要认真分析,严加区别。

怎么区分人工访问和伪装爬虫?

搜索引擎蜘蛛在官方是能够查到其特点或者IP的,所以不难区分。但是人工和其它网络爬虫我们不太容易分辨,只能通过以下几种方式去分析:

1、伪装搜索爬虫

很多网络爬虫都会伪装成百度、搜狗、bing等等,对于这种,我们只需要搜索一下其IP是否为搜索引擎蜘蛛即可,把非搜索引擎的爬虫屏蔽掉即可。

2、是否在找后台

正常的爬虫和人工访问,是不会一直尝试找我们后台的。一些机器人或者网络爬虫会尝试找我们后台,这种不用多数,直接屏蔽即可。

如何防止机器人或者网络爬虫爬取自己的网站?

3、是否在尝试注入

这个跟找后台一样恶心,都是在尝试获取我们网站的管理权限,实现其卑鄙想法,直接屏蔽。

维护网站的安全不能掉以轻心,我之前有一段时间就是太过松弛了,由于网站没有好的收录就没有检查服务器日志,直到大量蜘蛛抓取时,又同时发现了无数垃圾网络爬虫,才临时去封禁IP、更换服务器,导致错失良机,网站的收录戛然而止。

本文网址:http://www.xalmi.com/article/227.html转载请注明出处!文章内容为作者原创或者采编,不代表本站立场,如有侵犯,请联系a5b5_su@163.com。

类似文章