
别让这些爬虫【白嫖】你的WordPress服务器
你的WordPress网站是否经常变慢,甚至突然崩溃?服务器资源莫名其妙被耗尽?罪魁祸首可能不是访客,也不是网络攻击,很可能是那些疯狂抓取的爬虫!有些爬虫(如Googlebot)是必要的,但许多恶意或过度活跃的爬虫会像“吸血鬼”一样吸干你的服务器资源,导致服务器的CPU和内存飙升100%,最终网站无法访问。
今天,我将教你如何精准屏蔽这些有害爬虫,优化网站性能,甚至节省服务器成本!
一、怎么查看有哪些爬虫正在【白嫖】我的WordPress服务器?
如果你对服务器运维不了解,请咨询你的技术人员提供网站的访问日志,比如下面的代码就是访问日志:
172.71.194.246 - - [01/Apr/2025:02:30:39 +0000] "GET /shop?filter_color=silver,graphite,green,purple&orderby=popularity HTTP/2.0" 403 548 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36" 172.70.34.205 - - [01/Apr/2025:02:30:40 +0000] "GET /shop?filter_color=starlight,midnight-green,red&filter_display-size=5-4-inches&orderby=price HTTP/2.0" 403 548 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36"
从上面的访问日志可以看出,亚马逊的爬虫Amazonbot正在疯狂对网站进行高频率的爬取。
二、哪些爬虫应该被屏蔽?
- SEO工具类爬虫(过度抓取,浪费带宽)
AhrefsBot、SemrushBot、MJ12bot:这些SEO分析工具会疯狂抓取你的内容,导致服务器负载飙升。
DotBot、BLEXBot:常用于数据采集,可能窃取你的定价或原创内容。 - 垃圾爬虫(采集邮箱、制造垃圾流量)
spbot、LinkpadBot:专门爬取联系方式,导致垃圾邮件泛滥。
PetalBot(华为爬虫):部分站长反馈它抓取频率过高,影响性能。 - 伪装爬虫(黑客常用手段)
有些爬虫会伪装成Googlebot,但IP并非来自谷歌官方,可能是恶意扫描工具。 - 过时或无用的爬虫
BaiduSpider(如果不需要中文SEO)
YandexBot(如果不需要俄罗斯流量)
三、如何屏蔽这些垃圾爬虫?
1. 用robots.txt阻止(基础防护),在网站根目录的robots.txt中添加类似如下代码:
User-agent: AhrefsBot Disallow: /
⚠️ 注意:恶意爬虫可能无视robots.txt,需结合下面的进阶方法。
2. Apache服务器屏蔽,在网站根目录下面的.htaccess文件添加如下代码
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|DotBot|Scrapy) [NC] RewriteRule .* - [F,L]
3. Nginx服务器屏蔽,在Nginx配置或伪静态规则中添加如下代码:
if ($http_user_agent ~* (AhrefsBot|SemrushBot|spbot)) { return 403; }
然后重启Nginx生效。
四、重要提醒:
如果你正在进行谷歌推广,千万不要误封谷歌的爬虫,否则会影响广告审核和SEO!常见的谷歌爬虫如下:
Googlebot – 抓普通网页(电脑+手机版)。
Googlebot-Image – 只抓图片。
Googlebot-Video – 只抓视频。
Googlebot-News – 只抓新闻网站。
AdsBot-Google – 检查广告页面质量。
Mediapartners-Google – 抓AdSense广告内容。
Google-Extended – 训练AI(如Gemini/Bard)。