宝塔618特惠活动,企业版999元/年,宝塔SSL证书买1送1!限时抢购!查看活动
当前位置:论坛首页 > Linux面板 > 求助

百度蜘蛛自动加/*&%5E%25$,转码后/*&^%$的造成404的应急方案

发表在 Linux面板2019-1-3 20:27 [复制链接] 16 7473

本帖最后由 宝塔用户_weuauj 于 2019-1-21 17:50 编辑

这几天发现很多错误日志,打开一看,大部分由百度蜘蛛访问后产生,原本正常的URL,蜘蛛的来路却多了一个/*&%5E%25$从而导致404错误。
错误案例:


运行环境:
1.CentOS Linux 7.6.1810 (Core)
2.NGINX
3.PHP5.4
4.阿里云服务器
原因(可能性%):
1.网站程序(0%,无论是DX或DZ,都出现了该错误。)
2.百度蜘蛛?(10%,最近一周移动网络打不开百度站长工具,今天才恢复。)
3.阿里云?(0%,安装宝塔面板的服务器出现该错误,其他几个使用阿里云虚拟主机的网站没问题)
4.宝塔(90%,同一台服务器,几个不同的网站程序,无一例外都有该错误)
不良影响:
1.产生大量的404页面,降低网站的权重得分。
2.收录下降。
应急方案:
1.将错误的URL写入robots.txt(这个方法不太好,禁止访问后,蜘蛛虽然不爬取,但是我们会因此忽略错误的存在)
2.301重定向,设置伪静态规则:rewrite ^/([0-9]+)/([0-9]+).html/(.*) /$1/$2.html permanent;(NGINX规则)APCHE规则:RedirectMatch 301 ^/(\d+)/(\d+)\.html/(.*)$ /$1/$2.html


使用道具 举报 只看该作者 回复
发表于 2019-1-3 20:28:39 | 显示全部楼层
错误案例:正常的URL:https://www.zhusun123.com/2018/701.html
蜘蛛访问的URL:https://www.zhusun123.com/2018/701.html/*&%5E%25$
301处理后的响应日志:
220.181.108.156 - - [03/Jan/2019:19:07:51 +0800] "GET /2018/205.html/*&%5E%25$ HTTP/1.1" 301 178 "-" "Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
我的QQ:62525 1211,欢迎遇到同样问题的朋友共同探讨解决方案。

使用道具 举报 回复 支持 反对
发表于 2019-1-7 14:14:42 | 显示全部楼层
特别提醒
上述伪静态规则仅针对/([0-9]+)/([0-9]+).html/*&%5E%25$的错误有效。
对于根目录下的/*&%5E%25$或二级目录下的/A/*&%5E%25$错误,需另写伪静态规则。
因为包含了特殊字符,我也不知道如何匹配写法,希望看到的大神帮个忙,在此表示感谢!
使用道具 举报 回复 支持 反对
发表于 2019-1-11 08:54:50 | 显示全部楼层
宝塔5.9.1
确认有这个问题。部份页面出现:*&%5E%25$
蜘蛛访问为404
使用道具 举报 回复 支持 反对
发表于 2019-1-14 03:17:53 | 显示全部楼层
应该是百度的问题吧   我的也是这样  一天蜘蛛来几百次  百度站长也打不开  我移动网络

我好几个站,用宝塔的全部出现该错误,而没用宝塔的却没有。 基本上说明是宝塔的原因  发表于 2019-1-14 20:05
使用道具 举报 回复 支持 反对
发表于 2019-1-15 02:54:14 | 显示全部楼层
我的站,宝塔面板,带www的没这个问题,不带www出现这个问题,而且都是移动抓取出差。
使用道具 举报 回复 支持 反对
发表于 2019-1-15 18:39:59 | 显示全部楼层
@管理员
宝塔官方不应该出来解决一下吗?
使用道具 举报 回复 支持 反对
发表于 2019-1-15 18:42:24 | 显示全部楼层
这个问题提交了多次,而且很多宝塔用户都出现该错误,宝塔的求助帖秒回,我目前还没有看到官方的正面回应。
我是VIP用户,出现该问题后收录骤减,现在只剩下四分之一了!
使用道具 举报 回复 支持 反对
发表于 2019-1-16 03:05:10 | 显示全部楼层
我还是10个服务器VIP的用户呢?也是这个问题,这个问题对网站来讲是毁灭性打击,希望宝塔官方看看这个问题啊!
使用道具 举报 回复 支持 反对
发表于 2019-1-16 09:41:52 | 显示全部楼层
暂时没有发现这个问题。。。
不过确实听说很多次了,我模拟过百度蜘蛛访问过据说跳转的网站
但是并没有跳转。。。
并且反查过某贴主日志里的ip,均不为百度蜘蛛ip
使用道具 举报 回复 支持 反对
发表于 2019-1-16 10:43:20 | 显示全部楼层
2293310198 发表于 2019-1-16 09:41
暂时没有发现这个问题。。。
不过确实听说很多次了,我模拟过百度蜘蛛访问过据说跳转的网站
但是并没有跳转 ...

哪里凉快哪里呆着去!
模拟能说明什么?为什么宝塔环境都出现该问题?
你能模拟出百度蜘蛛频繁抓取吗?你能模拟出蜘蛛的一切行为吗?搞笑至极!
使用道具 举报 回复 支持 反对
发表于 2019-1-16 10:50:38 | 显示全部楼层
本帖最后由 痞子哥 于 2019-5-7 14:03 编辑

应该不是宝塔的问题。半年前有个没用宝塔的windows服务器上的一个站点 也出现过这个情况
使用道具 举报 回复 支持 反对
发表于 2019-1-16 10:59:08 | 显示全部楼层
1499605410sfdq 发表于 2019-1-16 10:50
应该不是宝塔的问题。半年前有个没用宝塔的windows服务器上的一个站点 也出现过这个情况 ...

又是一个准内厕成员,你们的内厕能权威一些吗?什么叫应该?
使用道具 举报 回复 支持 反对
发表于 2019-1-24 23:02:28 | 显示全部楼层
按照官方的建议升级了nginx和防火墙,结果问题没解决,还导致伪静态用不了(提示400错误),日了狗了。

上次看了管理员说让你联系他,你有联系他们吗,有没有什么进展?

使用道具 举报 回复 支持 反对
发表于 2019-1-26 14:21:59 | 显示全部楼层
宝塔用户_weuauj 发表于 2019-1-16 10:59
又是一个准内厕成员,你们的内厕能权威一些吗?什么叫应该?

准内测成员和内测组成员,是这样来的,首先安装5.x的内测插件,绑定论坛账号。然后,如果你在论坛发个贴,就是内测组成员,如果没发帖,就是准内测成员。
现在5.x内测插件下线了,这个论坛用户组又暂时没有和6.x的测试版关联。所以给一些人造成了误会。
准内测成员和内测组成员只是安装过“申请内测”插件的普通用户,任何言论都不代表官方,也不具有权威性。
使用道具 举报 回复 支持 反对
12下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

普通问题处理

论坛响应时间:72小时

问题处理方式:排队(仅解答)

工作时间:白班:9:00 - 18:00

紧急运维服务

响应时间:3分钟

问题处理方式:宝塔专家1对1服务

工作时间:工作日:9:00 - 18:30

宝塔专业团队为您解决服务器疑难问题

点击联系技术免费分析

工作时间:09:00至18:30

快速回复 返回顶部 返回列表