urllib.request.urlretrieve-零基础爬虫|一步一步实例教学

生活百科 0 24

这是菜鸟学Python的粉丝第2篇原创投稿

阅读本文大概需要3分钟

本篇主要面向于对Python爬虫感兴趣的零基础的同学，实例为下载煎蛋网中指定页面的妹子图。为什么选取这个网站,这个网站比较好爬取，适合入门好了，话不多说，让我们一步一步从零基础开始开始吧！

准备篇

所需工具

1.打开Pycharm并且创建项目

配置Pycharm完成后应该是这个页面

urllib.request.urlretrieve_urllib.request.urlretrieve_urllib.request.urlretrieve

urllib.request.urlretrieve_urllib.request.urlretrieve_urllib.request.urlretrieve

urllib.request.urlretrieve_urllib.request.urlretrieve_urllib.request.urlretrieve

2.导入库

库是干什么的？Python之所以很好用就是因为他有许多自带的库以及第三方库，这些库可以直接提供方法给用户使用

例如导入math库，就可以用来计算平方根；导入time库，就可以计算程序运行时间等等功能。无需我们自己再次重写这些功能（也叫造轮子）

这样就完成了所需库的导入，此外，由于第三方库你并没有安装后续会报错，这里提供一种简单的方法，Pycharm > Setting > 左上角搜索Project Interpreter

urllib.request.urlretrieve_urllib.request.urlretrieve_urllib.request.urlretrieve

检索上述你没有安装的库，点击绿色的+号后，搜索点击安装等待片刻即可.(当然也还有其他的很多安装库的方法，比如pip,Anaconda等）

动手篇

1.开始写代码

按照图中的代码键入，右键 run’ooxx’,下方就会显示

来看第8行，等号右边的表示调用requests库的get方法，中间的参数填入我们所要访问的网址，然后将其整体赋予左边的wb_data，打印wb_data，返回状态码200，可以说只要状态码不是200的都不算正常访问。

注意：例如当网站识别出你为爬虫访问，就会返回404或者其他状态码，那么你就得不到想要的数据，就要用到一些反爬虫的策略

2.解析网页

1.解析网页这里我们用的是BeautifulSoup，在原来的代码下加上：

soup = BeautifulSoup(wb_data.text, ‘lxml’)

这时打印soup，我们就可以看见比较美观的网页源码了。

2.这时候我们需要找到我们需要下载的图片在网页中的位置！

首先添加两行代码：

img = soup.select(‘ ‘) # select中填入的selector就是我们需要找的

print(img)

了解一点html的同学都知道，网页是有结构的，如下图:

3.可以看到图中那一列的图片都包含在网页中一个叫做ol.commentlist下面，我们右键图片，点击检查

4.找到这个图片的地址

urllib.request.urlretrieve_urllib.request.urlretrieve_urllib.request.urlretrieve

如上图所示，我们所复制的selector

#comment-3535468 > div > div > div.text > p > img:nth-child(3)

就是这个元素所独有的地址，根据这个我们肯定是不能找到所有的图片链接的

5.所以我们需要做适当的调整，以匹配所有的图片链接

6.获取所有的链接src部分

其中i.get(‘src’)就是获取内部src处的文本

这里我们获取的链接没有头部，所以我们需要自行在循环中添加

3.下载环节

接下来就是最激动人心的下载环节了，我们有两种方式：

urllib.request.urlretrieve方法如图：

这里选择E盘picture为例。并且加入计数器方便给图片命名。

urllib.request.urlretrieve(pic_link, folder_path + ‘\’ + str(n) + pic_link[-4:])

这里的文件名是以文件夹加上\然后文件名并且以链接的最后4个字符（用作后缀）给图片命名，就保证不会重名等问题。

4.最后,爬取多个页面

这里我直接上最终的代码

最终效果图:

作者(解救吾小姐)：感悟

这个教程适合的对象为零基础或者有一点点基础的想学爬虫无从下手的同学，所以用到的方法尽量少且简单

爬虫涉及到的知识点非常非常多，一篇文章远远说不够，所以这篇文章更多的我想是激发各位学爬虫的热情

我知道肯定文中有很多地方对于新手来说还是不太好理解，希望大家碰到问题学会使用搜索引擎，学会检索信息就能解决很多问题，并且收获更多，还有比如说debug，查看帮助文档，Python Console的使用等等

我也是个新手，爬虫之路也许才刚走到门槛上面，希望和大家共同进步！

欢迎大家关注菜鸟学Python”,更多好玩有趣的Python原创教程,趣味算法,经验技巧,行业动态，尽在菜鸟学Python,一起来学python吧

量化交易人气文章

限时特惠： 本站每日持续更新海量各大内部创业教程，一年会员只需98元，全站资源免费下载点击查看详情
站长微信： lzxmw777

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

urllib.request.urlretrieve

相关文章

urllib.request.urlretrieve-神级程序员教你用Python任意下VIP视频！

urllib.request.urlretrieve-神级程序员教你用Python任意下VIP视频！

生活百科 9月前 19

urllib.request.urlretrieve-利用 AdaNet 将多个 TensorFlow Hub 模块组合成一个集成网络

urllib.request.urlretrieve-利用 AdaNet 将多个 TensorFlow Hub 模块组合成一个集成网络

生活百科 1年前 7

urllib.request.urlretrieve-你还在付费爱奇艺VIP？神级程序员教你用Python任意下！

urllib.request.urlretrieve-你还在付费爱奇艺VIP？神级程序员教你用Python任意下！

生活百科 1年前 17

押汇-畅通金融“活水”激活“蓝色引擎”

押汇-畅通金融“活水”激活“蓝色引擎”

生活百科 6月前 20

发表回复取消回复