宝塔用户_negqqw 发表于 2025-9-18 08:52:34

【已解答】爬虫抓取无意义页面,如何解决?Nginx相关问题。

爬虫抓取无意义页面,如何解决?Nginx相关问题。
网站的各种爬虫,不单单是bingbot,一直会抓取我网站的一些无意义的页面、空白页面、无内容页面,
我已经在单独网站的server配置里面、包括Nginx的主配置里面,都设置了禁止爬虫抓取指定样式的页面,


我设置的是如下样式,举例:
禁止抓取baidu.com/a/*
允许抓取baidu.com/a/c-*
允许抓取baidu.com/a/t-*
上面的*是任意网址内容。


具体配置如下图:

但是爬虫依旧会去抓取这种类型的页面,并且持续去抓取这些无意义的空白页面。
如下图:






为什么在Nginx里面的设置,没有起作用?
是宝塔自身的Bug,还是我的Nginx的配置不正确导致的?
请问可能是什么原因,该如何解决这个问题?



阿珂 发表于 2025-9-18 11:03:33

网站配置文件添加下面配置:
location ^~ /a/ {
    # 更严格的User-Agent匹配,不区分大小写
    if ($http_user_agent ~* (baiduspider|baidubot|googlebot|yandexbot|bingbot|bytespider|bytebot|sogouspider|sogoubot|mj12bot|360spider|semrushbot|ahrefsbot)) {
      return 403;
    }
可以用curl模拟请求,验证是否生效;
curl -I -A "bingbot"请求页面url
页: [1]
查看完整版本: 【已解答】爬虫抓取无意义页面,如何解决?Nginx相关问题。