打开Python爬虫实战练习页面[CSS样式偏移混淆文本内容的解析与爬取_H01_Spiderbuf](https://spiderbuf.cn/playground/h01 "CSS样式偏移混淆文本内容的解析与爬取_H01_Spiderbuf"),可以看到页面很简单,内容是《2021胡润中国500强》排行榜。
在网页上点击右键 > 显示网页源代码,找到数据的起始位置,发现其它内容都是直接放在 <p> 标签里面的,唯独企业名称与企业估值(亿元)的位置内容比较多。
把企业名称与企业估值(亿元)的HTML源码的内容与网页上显示的作一下对比,会发现内容的位置不一致。...
打开Python爬虫实战练习页面[使用Base64编码的图片爬取与解码还原_N02_Spiderbuf](https://spiderbuf.cn/playground/n02 "使用Base64编码的图片爬取与解码还原_N02_Spiderbuf"),可以看到页面很简单,只有一小段文字及一张图片组成。
在网页上点击右键 > 显示网页源代码,在HTML源码里面直接按Ctrl + F ,然后输入关键字img(img是HTML中加载图片的常用标签)进行搜索,在HTML代码的第63行我们找到了img标签。
但与以往不同的是,img标签的src属性并没有像往常一样指向一个链接,而是一大串看似杂乱的...
打开Python爬虫实战练习页面[限制访问频率不低于1秒_N03_Spiderbuf](https://spiderbuf.cn/playground/n03 "限制访问频率不低于1秒_N03_Spiderbuf"),可以看到页面内容是由NordPass发布的2022年全球最常用密码列表,总共20页数据。
在网页上点击右键 > 显示网页源代码,可以在HTML源码里面直接看到需要的数据,尝试翻页,发现数据依然能在HTML当中看到,而且翻页的链接也在HTML源码里面。
在人工浏览页面及翻页时,没有发现动态加载的数据,也没有觉察到有什么明显的反爬措施,这种情况我们可以根据以往的经验直接用Pyth...
打开Python爬虫实战练习页面[高分电影列表复杂页面的解析(仿豆瓣电影)- xpath高级用法_H02_Spiderbuf](https://spiderbuf.cn/playground/h02 "高分电影列表复杂页面的解析(仿豆瓣电影)- xpath高级用法)_H02_Spiderbuf"),可以看到页面内容是豆瓣电影评分。
在网页上点击右键 > 显示网页源代码,可以看到一部分的豆瓣电影评分内容,HTML代码很长,通过把网页上最后一个《唐伯虎点秋香》在HTML源码里搜索,就能发现网页上显示的内容都在HTML源码里面了。
这种情况我们就直接获取页面解析内容就可以了。
但当我们按照常规...
打开Python爬虫实战练习页面[网页滚动加载的原理及爬取(JavaScript加密混淆逆向基础)_H03_Spiderbuf](https://spiderbuf.cn/playground/h03 "网页滚动加载的原理及爬取(JavaScript加密混淆逆向基础)_H03_Spiderbuf"),可以看到页面内容是豆瓣电影评分,而且往下滚动页面会有几次内容的加载,到了《哈利·波特与魔法石》这里停了下来。
这种情况通常都是由JavaScript代码控制的,通过计算页面内容的高度及位置等判断是否需要加载新的数据。
在网页上点击右键 > 显示网页源代码,可以看到一部分的豆瓣电影评分内容,比我...