文章列表 - Python 爬虫练习网站

Spiderbuf

Python爬虫实战E02带验证码的登录爬取案例解析

发布日期：1735641485 阅读数：942

打开Python爬虫实战练习页面带验证码的登录爬取_E02_Spiderbuf，只看到一个登录页面，而且是带验证码的。尝试一下不输入验证码直接点击登录，发现不行。我们在E01-用户名密码登录爬取后台数据当中试过抓包取得用户名密码后直接在Python爬虫代码中把用户名密码传输到后台登录成功的，但现在有验证码这个方法就不好用了。很多人看到验证码，第一时间就想到通过OCR的方式把验证码识别出来，其实OCR是有很高的错误率的，只有通过机器学习针对性训练才能提高这个准确度。条条大道通罗马，因为用户名密码我们已经有了（网页上已经有值），我们可以尝试别的方法。这里先科普一下网站跟B/S架构的系统登录...

Python爬虫实战E03无序号翻页案例解析

发布日期：1735641409 阅读数：785

打开Python爬虫实战练习页面无序号翻页_E03_Spiderbuf，可以看到页面很简单，内容是《2021胡润中国500强》排行榜，总共有5页。点击一下翻页，发现浏览器地址栏中并没有出现以往翻页的页面，取而代之的是一串字符串。在网页上右键 -> 网页源码，往下滚动查找翻页的HTML代码，或者在开发者工具（F12）直接通过光标选中页面翻页区域，得到以下的代码。 <nav aria-label="Page navigation"> <ul class="pagination"> <li><span>共...

Python爬虫实战N01User-Agent与Referer校验反爬案例解析

发布日期：1735573203 阅读数：971

打开Python爬虫实战练习页面User-Agent与Referer校验反爬_N01_Spiderbuf，可以看到页面很简单，内容是《2021胡润中国500强》排行榜。在网页上点击右键 > 显示网页源代码，找到数据的起始位置，发现所有数据都明晃晃地放在HTML源码里面。这就不用多说了，这样的页面前面也爬过很多了，直接用Python写爬虫代码并运行。 url = 'http://www.spiderbuf.cn/playground/n01' myheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Appl...

Python爬虫实战H01CSS样式偏移混淆文本内容的解析与爬取案例解析

发布日期：1735573127 阅读数：787

打开Python爬虫实战练习页面CSS样式偏移混淆文本内容的解析与爬取_H01_Spiderbuf，可以看到页面很简单，内容是《2021胡润中国500强》排行榜。在网页上点击右键 > 显示网页源代码，找到数据的起始位置，发现其它内容都是直接放在 &lt;p&gt; 标签里面的，唯独企业名称与企业估值(亿元)的位置内容比较多。把企业名称与企业估值(亿元)的HTML源码的内容与网页上显示的作一下对比，会发现内容的位置不一致。 <div class="col-xs-6 col-lg-4" style="margin-bottom: 30p...

Python爬虫实战N02使用Base64编码的图片爬取与解码还原案例解析

发布日期：1735573040 阅读数：785

打开Python爬虫实战练习页面使用Base64编码的图片爬取与解码还原_N02_Spiderbuf，可以看到页面很简单，只有一小段文字及一张图片组成。在网页上点击右键 > 显示网页源代码，在HTML源码里面直接按Ctrl + F ，然后输入关键字img（img是HTML中加载图片的常用标签）进行搜索，在HTML代码的第63行我们找到了img标签。但与以往不同的是，img标签的src属性并没有像往常一样指向一个链接，而是一大串看似杂乱的字符串。 src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABWQAAAODCAYAAA...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22