打开Python爬虫实战练习页面[lxml库进阶语法及解析练习_S03_Spiderbuf](https://spiderbuf.cn/playground/s03 "lxml库进阶语法及解析练习_S03_Spiderbuf"),看到页面上的内容比较简单,比之前的两个练习多了一些样式。
在页面上右键 -> 显示网页源代码,翻到数据内容的HTML源码,发现跟之前的练习对比就多了一些样式的控制跟a标签的包裹。直接使用Python编写爬虫代码运行能够很顺利地把网页爬取下来,说明这次的练习重点在内容的解析上。
同样的,我们还是使用lxml这个python库,构造xpath表达式对网页内容进行解析。...
打开Python爬虫实战练习页面[分页参数分析及翻页爬取_S04_Spiderbuf](https://spiderbuf.cn/playground/s04 "分页参数分析及翻页爬取_S04_Spiderbuf"),看到页面上的内容比较简单,右下角有几个分页导航。
点击一下分页试试翻页,留意一下浏览器地址栏的变化,就会发现就是在原有的URL地址后面加上了pageno这个参数。连续点击不同的页面都一样,而且这个参数的值与页码一致。
这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。
在页面上右键 -> 点击显示网页源代码,发现HTML源码里...
打开Python爬虫实战练习页面[网页图片的爬取及本地保存_S05_Spiderbuf](https://spiderbuf.cn/playground/s05 "网页图片的爬取及本地保存_S05_Spiderbuf"),看到页面上就只有几张图片。
这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。
在页面上右键 -> 点击显示网页源代码,发现HTML源码里面是没有图片的,这个是正常的现象。网页本身就是一堆字符串,经过浏览器的渲染才变成了我们看到的样子,这一堆字符串就是告诉浏览器如何去渲染这个页面的。...
打开Python爬虫实战练习页面[带iframe的页面源码分析及数据爬取_S06_Spiderbuf](https://spiderbuf.cn/playground/s06 "带iframe的页面源码分析及数据爬取_S06_Spiderbuf"),看到页面上的数据已经很熟悉了。
在页面上右键,留意一下,“显示网页源代码”正面多了一个“查看框架源代码”,这个菜单不是随机出现的,而是由你点击右键时的光标位置决定的。如果右键时光标位于框架内就会出现这个菜单。如果右键时没有这个菜单也没关系,我们点击显示网页源代码,发现数据并没有出现在HTML源码里面。
检查一下页面的HTML代码,对照页面上的内...
打开Python爬虫实战练习页面[ajax动态加载数据的爬取_S07_Spiderbuf](https://spiderbuf.cn/playground/s07 "ajax动态加载数据的爬取_S07_Spiderbuf"),看到页面上的数据已经很熟悉了。
在页面上右键 -> 显示网页源代码,发现数据并没有出现在HTML源码里面,但在HTML源码的最下方看到了一些JavaScript代码。
fetch("/playground/iplist").then(function (response) {
return response.json()...