【已排查】Nginx防火墙 8.5.3 BUG,百度模拟爬取无法正常抓取
软件:Nginx防火墙 8.5.3问题描述:升级到Nginx防火墙 8.5.3版本后,今天测试发现通过百度抓取诊断(https://ziyuan.baidu.com/crawltools/index)及服务器日志分析,百度无法抓取,关闭防火墙后可以正常抓取。
抓取错误截图:
具体百度描述错误为:【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。
百度官方描述链接: https://ziyuan.baidu.com/college/courseinfo?id=267&page=9#009
将防火墙中的UA关闭以后,百度可正常抓取 宝塔面板体验一直都非常不错,但是防火墙的插件更新可以说是非常频繁,但是最近是真的发现出现问题了,结果在论坛返回问题发布五小时,没有任何回应了,很无奈宝塔现在已经开始忽略bug了,感觉宝塔有点让人失望。 .......
我昨天就测试过了。百度的那个只是模拟抓取。然后宝塔waf 那个是七层应用层的一个东西。根本就影响不了四层的tcp 通信。
我昨天测试的结果。socket 的读写错误。都没有发包到我服务器。所以我感觉是那边分发。或者连接服务器的防火墙导致的一个问题。(机房防火墙或者链路中断)
这个socket 读取失败。并不影响百度的爬虫进行爬取你的网站。
你说严重bug 我也很无辜啊。服务器都没有收到百度那边模拟爬虫的任何请求
访问的IP 并不是爬虫的IP 也就是说明。这个socket 读取失败。并不影响你网站的一个录入。之类的。
具体的为什么socket 连接失败。我这边排查也是无果。
【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。
这个防火墙是四层路由的防火墙。宝塔WAF是一个七层的一个软WAF 根据就控制不了你这一层。 百度的那个抓取诊断 是模拟蜘蛛爬取的。并不是真实的蜘蛛。宝塔防火墙针对真实的蜘蛛都是放行白名单。你这里测试的一个socket读取错误。
并不会影响百度真实蜘蛛爬取你你的网站。
2020-06-16 和 2020-06-17 的对比
爬取2020-06-17
2020-06-16
我的感觉还是通信中导致的问题
兄弟,这个百度抓取错误,是百度那边的问题,已经大半年了,时好时坏,但实际不影响抓取收录的 suibian 发表于 2020-6-17 21:00
兄弟,这个百度抓取错误,是百度那边的问题,已经大半年了,时好时坏,但实际不影响抓取收录的 ...
抱歉,可能是我测试不够全面,确实是时好时坏,应该是百度那边的抓取问题。麻烦了 子凡 发表于 2020-6-18 16:05
抱歉,可能是我测试不够全面,确实是时好时坏,应该是百度那边的抓取问题。麻烦了 ...
问题不大的,不影响蜘蛛抓取,只是我们看着像抓不到,其实正常的 宝塔技术-小强 发表于 2020-6-17 10:35
.......
我昨天就测试过了。百度的那个只是模拟抓取。然后宝塔waf 那个是七层应用层的一个东西。根本就影响 ...
大家不要相信他的说法今天我发现我的首页都被K了Nginx防火墙已升级到 8.6.1 开起防火墙 百度抓取失败 看网站日志是 500错误220.181.51.87 - - "GET / HTTP/1.1" 500 170 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; + sadsdaasdf 发表于 2020-8-7 21:28
大家不要相信他的说法今天我发现我的首页都被K了Nginx防火墙已升级到 8.6.1 开起防火墙 百度抓取失败 ...
你这个百度蜘蛛都跑到澳大利亚去了哦
宝塔技术-小强 发表于 2020-8-8 10:24
你这个百度蜘蛛都跑到澳大利亚去了哦
大哥,你把人家IP都输错了,这个确实是百度的抓取IP,不管是IIS防火墙还是nginx防火墙,只要开启,百度后台放入抓取诊断就会异常缓慢。
页:
[1]