子凡 发表于 2020-6-16 10:04:25

【已排查】Nginx防火墙 8.5.3 BUG,百度模拟爬取无法正常抓取

软件:Nginx防火墙 8.5.3
问题描述:升级到Nginx防火墙 8.5.3版本后,今天测试发现通过百度抓取诊断(https://ziyuan.baidu.com/crawltools/index)及服务器日志分析,百度无法抓取,关闭防火墙后可以正常抓取。
抓取错误截图:



具体百度描述错误为:【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。

百度官方描述链接: https://ziyuan.baidu.com/college/courseinfo?id=267&page=9#009

子凡 发表于 2020-6-16 10:07:22

将防火墙中的UA关闭以后,百度可正常抓取

子凡 发表于 2020-6-16 15:06:31

宝塔面板体验一直都非常不错,但是防火墙的插件更新可以说是非常频繁,但是最近是真的发现出现问题了,结果在论坛返回问题发布五小时,没有任何回应了,很无奈宝塔现在已经开始忽略bug了,感觉宝塔有点让人失望。

宝塔技术-小强 发表于 2020-6-17 10:35:56

.......
我昨天就测试过了。百度的那个只是模拟抓取。然后宝塔waf 那个是七层应用层的一个东西。根本就影响不了四层的tcp 通信。

我昨天测试的结果。socket 的读写错误。都没有发包到我服务器。所以我感觉是那边分发。或者连接服务器的防火墙导致的一个问题。(机房防火墙或者链路中断)

这个socket 读取失败。并不影响百度的爬虫进行爬取你的网站。

你说严重bug 我也很无辜啊。服务器都没有收到百度那边模拟爬虫的任何请求





访问的IP 并不是爬虫的IP 也就是说明。这个socket 读取失败。并不影响你网站的一个录入。之类的。


具体的为什么socket 连接失败。我这边排查也是无果。



宝塔技术-小强 发表于 2020-6-17 10:39:46

【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。

这个防火墙是四层路由的防火墙。宝塔WAF是一个七层的一个软WAF 根据就控制不了你这一层。

宝塔技术-小强 发表于 2020-6-17 10:41:50

百度的那个抓取诊断 是模拟蜘蛛爬取的。并不是真实的蜘蛛。宝塔防火墙针对真实的蜘蛛都是放行白名单。你这里测试的一个socket读取错误。
并不会影响百度真实蜘蛛爬取你你的网站。

宝塔技术-小强 发表于 2020-6-17 10:46:43


2020-06-16 和 2020-06-17 的对比




爬取2020-06-17

2020-06-16



我的感觉还是通信中导致的问题



suibian 发表于 2020-6-17 21:00:11

兄弟,这个百度抓取错误,是百度那边的问题,已经大半年了,时好时坏,但实际不影响抓取收录的

子凡 发表于 2020-6-18 16:05:22

suibian 发表于 2020-6-17 21:00
兄弟,这个百度抓取错误,是百度那边的问题,已经大半年了,时好时坏,但实际不影响抓取收录的 ...

抱歉,可能是我测试不够全面,确实是时好时坏,应该是百度那边的抓取问题。麻烦了

suibian 发表于 2020-8-1 11:38:35

子凡 发表于 2020-6-18 16:05
抱歉,可能是我测试不够全面,确实是时好时坏,应该是百度那边的抓取问题。麻烦了 ...

问题不大的,不影响蜘蛛抓取,只是我们看着像抓不到,其实正常的

sadsdaasdf 发表于 2020-8-7 21:28:45

宝塔技术-小强 发表于 2020-6-17 10:35
.......
我昨天就测试过了。百度的那个只是模拟抓取。然后宝塔waf 那个是七层应用层的一个东西。根本就影响 ...

大家不要相信他的说法今天我发现我的首页都被K了Nginx防火墙已升级到 8.6.1 开起防火墙 百度抓取失败 看网站日志是 500错误220.181.51.87 - - "GET / HTTP/1.1" 500 170 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +

宝塔技术-小强 发表于 2020-8-8 10:24:26

sadsdaasdf 发表于 2020-8-7 21:28
大家不要相信他的说法今天我发现我的首页都被K了Nginx防火墙已升级到 8.6.1 开起防火墙 百度抓取失败 ...



你这个百度蜘蛛都跑到澳大利亚去了哦

小星星曦曦 发表于 2021-7-10 10:50:02

宝塔技术-小强 发表于 2020-8-8 10:24
你这个百度蜘蛛都跑到澳大利亚去了哦

大哥,你把人家IP都输错了,这个确实是百度的抓取IP,不管是IIS防火墙还是nginx防火墙,只要开启,百度后台放入抓取诊断就会异常缓慢。
页: [1]
查看完整版本: 【已排查】Nginx防火墙 8.5.3 BUG,百度模拟爬取无法正常抓取