打开Python爬虫实战练习页面[requests库及lxml库入门_S01_Spiderbuf](https://spiderbuf.cn/playground/s01 "requests库及lxml库入门_S01_Spiderbuf"),看到页面上的内容是一个很简单的表格。
在页面上右键 -> 显示网页源代码,发现HTML源码也很简单。
我们就使用Python的requests库爬取网页,并使用lxml库来解析网页。
这两个库都不是Python的标准库,所以我们需要通过pip命令进行安装。
...
打开Python爬虫实战练习页面[http请求分析及头构造使用_S02_Spiderbuf](https://spiderbuf.cn/playground/s02 "http请求分析及头构造使用_S02_Spiderbuf"),看到页面上的内容跟前一个练习一模一样。
在页面上右键 -> 显示网页源代码,发现HTML源码也基本一样。那我们就直接把上一个练习的Python代码改一下URL运行一下。
# coding=utf-8
import requests
from lxml import etree
url = 'http://www.spiderbuf.cn/p...
打开Python爬虫实战练习页面[lxml库进阶语法及解析练习_S03_Spiderbuf](https://spiderbuf.cn/playground/s03 "lxml库进阶语法及解析练习_S03_Spiderbuf"),看到页面上的内容比较简单,比之前的两个练习多了一些样式。
在页面上右键 -> 显示网页源代码,翻到数据内容的HTML源码,发现跟之前的练习对比就多了一些样式的控制跟a标签的包裹。直接使用Python编写爬虫代码运行能够很顺利地把网页爬取下来,说明这次的练习重点在内容的解析上。
同样的,我们还是使用lxml这个python库,构造xpath表达式对网页内容进行解析。...
打开Python爬虫实战练习页面[分页参数分析及翻页爬取_S04_Spiderbuf](https://spiderbuf.cn/playground/s04 "分页参数分析及翻页爬取_S04_Spiderbuf"),看到页面上的内容比较简单,右下角有几个分页导航。
点击一下分页试试翻页,留意一下浏览器地址栏的变化,就会发现就是在原有的URL地址后面加上了pageno这个参数。连续点击不同的页面都一样,而且这个参数的值与页码一致。
这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。
在页面上右键 -> 点击显示网页源代码,发现HTML源码里...
打开Python爬虫实战练习页面[网页图片的爬取及本地保存_S05_Spiderbuf](https://spiderbuf.cn/playground/s05 "网页图片的爬取及本地保存_S05_Spiderbuf"),看到页面上就只有几张图片。
这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。
在页面上右键 -> 点击显示网页源代码,发现HTML源码里面是没有图片的,这个是正常的现象。网页本身就是一堆字符串,经过浏览器的渲染才变成了我们看到的样子,这一堆字符串就是告诉浏览器如何去渲染这个页面的。...