Python爬虫实战S05网页图片的爬取及本地保存案例解析
打开Python爬虫实战练习页面网页图片的爬取及本地保存_S05_Spiderbuf,看到页面上就只有几张图片。 这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。 在页面上右键 -> 点击显示网页源代码,发现HTML源码里面是没有图片的,这个是正常的现象。网页本身就是一堆字符串,经过浏览器的渲染才变成了我们看到的样子,这一堆字符串就是告诉浏览器如何去渲染这个页面的。 在HTML里面,图片是通过img标签指向并加载的,链接是由src属性指定的。有些页面也会通过CSS样式或者JavaScript的方式指定图片的加载,所以当我们在HTMl源码里面...
Python爬虫实战S06带iframe的页面源码分析及数据爬取案例解析
打开Python爬虫实战练习页面带iframe的页面源码分析及数据爬取_S06_Spiderbuf,看到页面上的数据已经很熟悉了。 在页面上右键,留意一下,“显示网页源代码”正面多了一个“查看框架源代码”,这个菜单不是随机出现的,而是由你点击右键时的光标位置决定的。如果右键时光标位于框架内就会出现这个菜单。如果右键时没有这个菜单也没关系,我们点击显示网页源代码,发现数据并没有出现在HTML源码里面。 检查一下页面的HTML代码,对照页面上的内容,找到“设备信息”这里,页面上的内容是这几个字下面就是数据,但在HTML源码里面没有找到数据,紧跟着这几个字的内容出现了一个iframe标签。 ifra...
Python爬虫实战S07ajax动态加载数据的爬取案例解析
打开Python爬虫实战练习页面ajax动态加载数据的爬取_S07_Spiderbuf,看到页面上的数据已经很熟悉了。 在页面上右键 -> 显示网页源代码,发现数据并没有出现在HTML源码里面,但在HTML源码的最下方看到了一些JavaScript代码。 fetch("/playground/iplist").then(function (response) { return response.json(); }).then(function (data) { var dataContent = document.getElementById('mytable'); ...
Python爬虫实战S08 http post请求的数据爬取案例解析
打开Python爬虫实战练习页面http post请求的数据爬取_S08_Spiderbuf,看到页面上只有一个“查询数据”的按钮,点击一下这个按钮,然后页面加载了数据出来。但这时候可以看到,浏览器的地址栏的地址是没有任何变化的。 我们重新打开页面,打开发者工具(F12),切换到Network(网络)标签页,然后回到网页上点击查询数据。可以看到有个s08的请求,点击一下,在右边展开的详情页可以看到Request Method 的值是POST。 在之前的练习中,我们都是介绍的浏览器默认的HTTP GET 方法,其实HTTP中支持的方法有多种。 序号 方法 描述 1 GET 从服务器获取资源。用于...
Python爬虫实战E01用户名密码登录爬取后台数据案例解析
打开Python爬虫实战练习页面用户名密码登录爬取后台数据_E01_Spiderbuf,只看到一个登录页面。 打开发者工具(F12),切换到Network(网络)标签页,然后回到网页上点击登录。这时候我们看到网页自动跳转到了一个数据页面,如果直接尝试把这个页面的URL放到Python爬虫代码里面执行,发现是访问不了的。 回到开发者工具,我们可以看到有个login的post请求,点击一下,在右边展开的详情页可以看到Status Code 的值是302,302是一个重定向代码。说明登录成功了,并让浏览器重定向到指定的网址。 而且在Headers的右边多出来了一个Payload标签页面,这里又是一个...