【已解答】爬虫抓取无意义页面，如何解决？Nginx相关问题。

宝塔用户_negqqw 发表于 2025-9-18 08:52:34

爬虫抓取无意义页面，如何解决？Nginx相关问题。
网站的各种爬虫，不单单是bingbot，一直会抓取我网站的一些无意义的页面、空白页面、无内容页面，
我已经在单独网站的server配置里面、包括Nginx的主配置里面，都设置了禁止爬虫抓取指定样式的页面，

我设置的是如下样式，举例：
禁止抓取baidu.com/a/*
允许抓取baidu.com/a/c-*
允许抓取baidu.com/a/t-*
上面的*是任意网址内容。

具体配置如下图：

但是爬虫依旧会去抓取这种类型的页面，并且持续去抓取这些无意义的空白页面。
如下图：

为什么在Nginx里面的设置，没有起作用？
是宝塔自身的Bug，还是我的Nginx的配置不正确导致的？
请问可能是什么原因，该如何解决这个问题？

阿珂发表于 2025-9-18 11:03:33

网站配置文件添加下面配置：
location ^~ /a/ {
# 更严格的User-Agent匹配，不区分大小写
if ($http_user_agent ~* (baiduspider|baidubot|googlebot|yandexbot|bingbot|bytespider|bytebot|sogouspider|sogoubot|mj12bot|360spider|semrushbot|ahrefsbot)) {
return 403;
}
可以用curl模拟请求，验证是否生效；
curl -I -A "bingbot"请求页面url

页: [1]

宝塔面板论坛's Archiver

【已解答】爬虫抓取无意义页面，如何解决？Nginx相关问题。