网站无法访问的原因免费seo快速收录工具
爬取妹子图可能在爬虫里面没有什么技术含量了,新手练练手还是可以的。
今天爬取的网址是:http://www.youzi4.cc/mm/meinv/index_1.html
注意:爬取图片一般要加上referer,要不然就就出现,链接正确,总是返回<response 404>
1,分析网页
我们可以发现网页结构还是比较简单的,src链接就是图片的真实链接,那么我们就想办法获取了。
2,代码如下
from bs4 import BeautifulSoup
import requests
import re
num=1
content='http://www.youzi4.cc/mm/meinv/index_'
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36','Referer':'http://www.youzi4.cc/','Cookie':'BUSER=95b22bacda2b256ad16f4716a2cb9642; UM_distinctid=16