当前位置:论坛首页 > BUG提交 > Linux面板

【已排查】Nginx防火墙 8.5.3 BUG,百度模拟爬取无法正常抓取

发表在 BUG提交2020-6-16 10:04 [复制链接] 12 12588

软件:Nginx防火墙 8.5.3
问题描述:升级到Nginx防火墙 8.5.3版本后,今天测试发现通过百度抓取诊断(https://ziyuan.baidu.com/crawltools/index)及服务器日志分析,百度无法抓取,关闭防火墙后可以正常抓取。
抓取错误截图:


11.jpg
具体百度描述错误为:【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。

百度官方描述链接: https://ziyuan.baidu.com/college/courseinfo?id=267&page=9#009
使用道具 举报 只看该作者 回复
发表于 2020-6-16 10:07:22 | 显示全部楼层
将防火墙中的UA关闭以后,百度可正常抓取
使用道具 举报 回复 支持 反对
发表于 2020-6-16 15:06:31 | 显示全部楼层
宝塔面板体验一直都非常不错,但是防火墙的插件更新可以说是非常频繁,但是最近是真的发现出现问题了,结果在论坛返回问题发布五小时,没有任何回应了,很无奈宝塔现在已经开始忽略bug了,感觉宝塔有点让人失望。
使用道具 举报 回复 支持 反对
发表于 2020-6-17 10:35:56 | 显示全部楼层
.......
我昨天就测试过了。百度的那个只是模拟抓取。然后宝塔waf 那个是七层应用层的一个东西。根本就影响不了四层的tcp 通信。

我昨天测试的结果。socket 的读写错误。都没有发包到我服务器。所以我感觉是那边分发。或者连接服务器的防火墙导致的一个问题。(机房防火墙  或者链路中断)

这个socket 读取失败。并不影响百度的爬虫进行爬取你的网站。

你说严重bug 我也很无辜啊。服务器都没有收到百度那边模拟爬虫的任何请求


TIM截图20200617103420.png


访问的IP 并不是爬虫的IP 也就是说明。这个socket 读取失败。并不影响你网站的一个录入。之类的。


具体的为什么socket 连接失败。我这边排查也是无果。



使用道具 举报 回复 支持 反对
发表于 2020-6-17 10:39:46 | 显示全部楼层
【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。

这个防火墙是四层路由的防火墙。宝塔WAF是一个七层的一个软WAF 根据就控制不了你这一层。
使用道具 举报 回复 支持 反对
发表于 2020-6-17 10:41:50 | 显示全部楼层
百度的那个抓取诊断 是模拟蜘蛛爬取的。并不是真实的蜘蛛。宝塔防火墙针对真实的蜘蛛都是放行白名单。你这里测试的一个socket读取错误。
并不会影响百度真实蜘蛛爬取你你的网站。
使用道具 举报 回复 支持 反对
发表于 2020-6-17 10:46:43 | 显示全部楼层

2020-06-16 和 2020-06-17 的对比 TIM截图20200617104456.png
TIM截图20200617104451.png



爬取2020-06-17
TIM截图20200617104502.png
2020-06-16
TIM截图20200617104511.png


我的感觉还是通信中导致的问题



使用道具 举报 回复 支持 反对
发表于 2020-6-17 21:00:11 | 显示全部楼层
兄弟,这个百度抓取错误,是百度那边的问题,已经大半年了,时好时坏,但实际不影响抓取收录的
使用道具 举报 回复 支持 反对
发表于 2020-6-18 16:05:22 | 显示全部楼层
suibian 发表于 2020-6-17 21:00
兄弟,这个百度抓取错误,是百度那边的问题,已经大半年了,时好时坏,但实际不影响抓取收录的 ...

抱歉,可能是我测试不够全面,确实是时好时坏,应该是百度那边的抓取问题。麻烦了
使用道具 举报 回复 支持 反对
发表于 2020-8-1 11:38:35 | 显示全部楼层
子凡 发表于 2020-6-18 16:05
抱歉,可能是我测试不够全面,确实是时好时坏,应该是百度那边的抓取问题。麻烦了 ...

问题不大的,不影响蜘蛛抓取,只是我们看着像抓不到,其实正常的
使用道具 举报 回复 支持 反对
发表于 2020-8-7 21:28:45 | 显示全部楼层
宝塔技术-小强 发表于 2020-6-17 10:35
.......
我昨天就测试过了。百度的那个只是模拟抓取。然后宝塔waf 那个是七层应用层的一个东西。根本就影响 ...

大家不要相信他的说法  今天我发现我的首页都被K了  Nginx防火墙已升级到 8.6.1 开起防火墙 百度抓取失败 看网站日志是 500错误  220.181.51.87 - - [07/Aug/2020:21:13:37 +0800] "GET / HTTP/1.1" 500 170 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +
使用道具 举报 回复 支持 反对
发表于 2020-8-8 10:24:26 | 显示全部楼层
sadsdaasdf 发表于 2020-8-7 21:28
大家不要相信他的说法  今天我发现我的首页都被K了  Nginx防火墙已升级到 8.6.1 开起防火墙 百度抓取失败 ...

TIM截图20200808102353.png

你这个百度蜘蛛都跑到澳大利亚去了哦
使用道具 举报 回复 支持 反对
发表于 2021-7-10 10:50:02 | 显示全部楼层
宝塔技术-小强 发表于 2020-8-8 10:24
你这个百度蜘蛛都跑到澳大利亚去了哦

大哥,你把人家IP都输错了,这个确实是百度的抓取IP,不管是IIS防火墙还是nginx防火墙,只要开启,百度后台放入抓取诊断就会异常缓慢。
使用道具 举报 回复 支持 反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

普通问题处理

论坛响应时间:72小时

问题处理方式:排队(仅解答)

工作时间:白班:9:00 - 18:00

紧急运维服务

响应时间:3分钟

问题处理方式:宝塔专家1对1服务

工作时间:工作日:9:00 - 18:30

宝塔专业团队为您解决服务器疑难问题

点击联系技术免费分析

工作时间:09:00至18:30

快速回复 返回顶部 返回列表