打开Python爬虫实战练习页面requests库及lxml库入门_S01_Spiderbuf,看到页面上的内容是一个很简单的表格。 在页面上右键 -> 显示网页源代码,发现HTML源码也很简单。 我们就使用Python的requests库爬取网页,并使用lxml库来解析网页。 这两个库都不是Python的标准库,所以我们需要通过pip命令进行安装。 pip install requests pip install lxml 在linux或者macOS环境中,因为区分了Python 2与3的版本,所以命令要带上版本号。 pip3 install requests pip3 install...
打开Python爬虫实战练习页面http请求分析及头构造使用_S02_Spiderbuf,看到页面上的内容跟前一个练习一模一样。 在页面上右键 -> 显示网页源代码,发现HTML源码也基本一样。那我们就直接把上一个练习的Python代码改一下URL运行一下。 # coding=utf-8 import requests from lxml import etree url = 'http://www.spiderbuf.cn/playground/s02' html = requests.get(url).text print(html) 很不幸,返回了403,爬虫代码没有成功爬取到网页...
打开Python爬虫实战练习页面lxml库进阶语法及解析练习_S03_Spiderbuf,看到页面上的内容比较简单,比之前的两个练习多了一些样式。 在页面上右键 -> 显示网页源代码,翻到数据内容的HTML源码,发现跟之前的练习对比就多了一些样式的控制跟a标签的包裹。直接使用Python编写爬虫代码运行能够很顺利地把网页爬取下来,说明这次的练习重点在内容的解析上。 同样的,我们还是使用lxml这个python库,构造xpath表达式对网页内容进行解析。这里先教大家一个利用浏览器快速获取到指定网页元素的xpath表达式的方法: 打开浏览器开发者工具(F12),点击左上角的光标图标,然后把鼠...
打开Python爬虫实战练习页面分页参数分析及翻页爬取_S04_Spiderbuf,看到页面上的内容比较简单,右下角有几个分页导航。 点击一下分页试试翻页,留意一下浏览器地址栏的变化,就会发现就是在原有的URL地址后面加上了pageno这个参数。连续点击不同的页面都一样,而且这个参数的值与页码一致。 这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。 在页面上右键 -> 点击显示网页源代码,发现HTML源码里面是没有图片的,这个是正常的现象。网页本身就是一堆字符串,经过浏览器的渲染才变成了我们看到的样子,这一堆字符串就是告诉浏览器如何去渲染这...
打开Python爬虫实战练习页面网页图片的爬取及本地保存_S05_Spiderbuf,看到页面上就只有几张图片。 这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。 在页面上右键 -> 点击显示网页源代码,发现HTML源码里面是没有图片的,这个是正常的现象。网页本身就是一堆字符串,经过浏览器的渲染才变成了我们看到的样子,这一堆字符串就是告诉浏览器如何去渲染这个页面的。 在HTML里面,图片是通过img标签指向并加载的,链接是由src属性指定的。有些页面也会通过CSS样式或者JavaScript的方式指定图片的加载,所以当我们在HTMl源码里面...