这是正常抓取的情况,GET后面的地址是不带域名的:
[23/Aug/2019:06:52:22 +0800] "GET /1149.html
个别网页可以正常访问,抓取却带了域名导致404:
[23/Aug/2019:05:14:02 +0800] "GET /xxxx/3724.html
还有一个页面,出现了两只蜘蛛抓取完全不同的结果:
[23/Aug/2019:08:17:16 +0800] "GET /3075.html
[23/Aug/2019:03:48:59 +0800] "GET /xxxx/3075.html "
请问这到底是蜘蛛的问题,还是我自己的问题?
|
|