宝塔双11特惠活动,企业版2299元/3年,SSL证书低至9.9元!查看活动
当前位置:论坛首页 > Linux面板 > 讨论

【已解答】爬虫抓取无意义页面,如何解决?Nginx相关问题。

发表在 Linux面板2025-9-18 08:52 [复制链接] 1 310

爬虫抓取无意义页面,如何解决?Nginx相关问题。
网站的各种爬虫,不单单是bingbot,一直会抓取我网站的一些无意义的页面、空白页面、无内容页面,
我已经在单独网站的server配置里面、包括Nginx的主配置里面,都设置了禁止爬虫抓取指定样式的页面,


我设置的是如下样式,举例:
禁止抓取  baidu.com/a/*
允许抓取  baidu.com/a/c-*
允许抓取  baidu.com/a/t-*
上面的*是任意网址内容。


具体配置如下图:
2.png 1.png
但是爬虫依旧会去抓取这种类型的页面,并且持续去抓取这些无意义的空白页面。
如下图:
3.png


4.png


为什么在Nginx里面的设置,没有起作用?
是宝塔自身的Bug,还是我的Nginx的配置不正确导致的?
请问可能是什么原因,该如何解决这个问题?



使用道具 举报 只看该作者 回复
发表于 2025-9-18 11:03:33 | 显示全部楼层
网站配置文件添加下面配置:
  1. location ^~ /a/ {
  2.     # 更严格的User-Agent匹配,不区分大小写
  3.     if ($http_user_agent ~* (baiduspider|baidubot|googlebot|yandexbot|bingbot|bytespider|bytebot|sogouspider|sogoubot|mj12bot|360spider|semrushbot|ahrefsbot)) {
  4.         return 403;
  5.     }
复制代码

可以用curl模拟请求,验证是否生效;
curl -I -A "bingbot"  请求页面url
使用道具 举报 回复 支持 反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

普通问题处理

论坛响应时间:72小时

问题处理方式:排队(仅解答)

工作时间:白班:9:00 - 18:00

紧急运维服务

响应时间:3分钟

问题处理方式:宝塔专家1对1服务

工作时间:工作日:9:00 - 18:30

宝塔专业团队为您解决服务器疑难问题

点击联系技术免费分析

工作时间:09:00至18:30

快速回复 返回顶部 返回列表