2025-01-01阅读数:117
打开Python爬虫实战练习页面[http post请求的数据爬取_S08_Spiderbuf](https://spiderbuf.cn/playground/s08 "http post请求的数据爬取_S08_Spiderbuf"),看到页面上只有一个“查询数据”的按钮,点击一下这个按钮,然后页面加载了数据出来。但这时候可以看到,浏览器的地址栏的地址是没有任何变化的。 我们重新打开页面,打开发者工具(F12),切换到Network(网络)标签页,然后回到网页上点击查询数据。可以看到有个s08的请求,点击一下,在右边展开的详情页可以看到Request Method 的值是POST。 在之...
2024-12-31阅读数:92
打开Python爬虫实战练习页面[用户名密码登录爬取后台数据_E01_Spiderbuf](https://spiderbuf.cn/playground/e01 "用户名密码登录爬取后台数据_E01_Spiderbuf"),只看到一个登录页面。 打开发者工具(F12),切换到Network(网络)标签页,然后回到网页上点击登录。这时候我们看到网页自动跳转到了一个数据页面,如果直接尝试把这个页面的URL放到Python爬虫代码里面执行,发现是访问不了的。 回到开发者工具,我们可以看到有个login的post请求,点击一下,在右边展开的详情页可以看到Status Code 的值是302,3...
2024-12-31阅读数:75
打开Python爬虫实战练习页面[带验证码的登录爬取_E02_Spiderbuf](https://spiderbuf.cn/playground/e02 "带验证码的登录爬取_E02_Spiderbuf"),只看到一个登录页面,而且是带验证码的。尝试一下不输入验证码直接点击登录,发现不行。 我们在[E01-用户名密码登录爬取后台数据](https://spiderbuf.cn/playground/e01 "E01-用户名密码登录爬取后台数据")当中试过抓包取得用户名密码后直接在Python爬虫代码中把用户名密码传输到后台登录成功的,但现在有验证码这个方法就不好用了。 很多人看到验证码,...
2024-12-31阅读数:51
打开Python爬虫实战练习页面[无序号翻页_E03_Spiderbuf](https://spiderbuf.cn/playground/e03 "无序号翻页_E03_Spiderbuf"),可以看到页面很简单,内容是《2021胡润中国500强》排行榜,总共有5页。点击一下翻页,发现浏览器地址栏中并没有出现以往翻页的页面,取而代之的是一串字符串。 在网页上右键 -> 网页源码,往下滚动查找翻页的HTML代码,或者在开发者工具(F12)直接通过光标选中页面翻页区域,得到以下的代码。...
2024-12-30阅读数:137
打开Python爬虫实战练习页面[User-Agent与Referer校验反爬_N01_Spiderbuf](https://spiderbuf.cn/playground/n01 "User-Agent与Referer校验反爬_N01_Spiderbuf"),可以看到页面很简单,内容是《2021胡润中国500强》排行榜。 在网页上点击右键 > 显示网页源代码,找到数据的起始位置,发现所有数据都明晃晃地放在HTML源码里面。这就不用多说了,这样的页面前面也爬过很多了,直接用Python写爬虫代码并运行。...