【已解答】爬虫抓取无意义页面,如何解决?Nginx相关问题。
爬虫抓取无意义页面,如何解决?Nginx相关问题。网站的各种爬虫,不单单是bingbot,一直会抓取我网站的一些无意义的页面、空白页面、无内容页面,
我已经在单独网站的server配置里面、包括Nginx的主配置里面,都设置了禁止爬虫抓取指定样式的页面,
我设置的是如下样式,举例:
禁止抓取baidu.com/a/*
允许抓取baidu.com/a/c-*
允许抓取baidu.com/a/t-*
上面的*是任意网址内容。
具体配置如下图:
但是爬虫依旧会去抓取这种类型的页面,并且持续去抓取这些无意义的空白页面。
如下图:
为什么在Nginx里面的设置,没有起作用?
是宝塔自身的Bug,还是我的Nginx的配置不正确导致的?
请问可能是什么原因,该如何解决这个问题?
网站配置文件添加下面配置:
location ^~ /a/ {
# 更严格的User-Agent匹配,不区分大小写
if ($http_user_agent ~* (baiduspider|baidubot|googlebot|yandexbot|bingbot|bytespider|bytebot|sogouspider|sogoubot|mj12bot|360spider|semrushbot|ahrefsbot)) {
return 403;
}
可以用curl模拟请求,验证是否生效;
curl -I -A "bingbot"请求页面url
页:
[1]