打开Python爬虫实战练习页面带iframe的页面源码分析及数据爬取_S06_Spiderbuf,看到页面上的数据已经很熟悉了。 在页面上右键,留意一下,“显示网页源代码”正面多了一个“查看框架源代码”,这个菜单不是随机出现的,而是由你点击右键时的光标位置决定的。如果右键时光标位于框架内就会出现这个菜单。如果右键时没有这个菜单也没关系,我们点击显示网页源代码,发现数据并没有出现在HTML源码里面。 检查一下页面的HTML代码,对照页面上的内容,找到“设备信息”这里,页面上的内容是这几个字下面就是数据,但在HTML源码里面没有找到数据,紧跟着这几个字的内容出现了一个iframe标签。 ifra...
打开Python爬虫实战练习页面ajax动态加载数据的爬取_S07_Spiderbuf,看到页面上的数据已经很熟悉了。 在页面上右键 -> 显示网页源代码,发现数据并没有出现在HTML源码里面,但在HTML源码的最下方看到了一些JavaScript代码。 fetch("/playground/iplist").then(function (response) { return response.json(); }).then(function (data) { var dataContent = document.getElementById('mytable'); ...
打开Python爬虫实战练习页面http post请求的数据爬取_S08_Spiderbuf,看到页面上只有一个“查询数据”的按钮,点击一下这个按钮,然后页面加载了数据出来。但这时候可以看到,浏览器的地址栏的地址是没有任何变化的。 我们重新打开页面,打开发者工具(F12),切换到Network(网络)标签页,然后回到网页上点击查询数据。可以看到有个s08的请求,点击一下,在右边展开的详情页可以看到Request Method 的值是POST。 在之前的练习中,我们都是介绍的浏览器默认的HTTP GET 方法,其实HTTP中支持的方法有多种。 序号 方法 描述 1 GET 从服务器获取资源。用于...
打开Python爬虫实战练习页面用户名密码登录爬取后台数据_E01_Spiderbuf,只看到一个登录页面。 打开发者工具(F12),切换到Network(网络)标签页,然后回到网页上点击登录。这时候我们看到网页自动跳转到了一个数据页面,如果直接尝试把这个页面的URL放到Python爬虫代码里面执行,发现是访问不了的。 回到开发者工具,我们可以看到有个login的post请求,点击一下,在右边展开的详情页可以看到Status Code 的值是302,302是一个重定向代码。说明登录成功了,并让浏览器重定向到指定的网址。 而且在Headers的右边多出来了一个Payload标签页面,这里又是一个...
打开Python爬虫实战练习页面带验证码的登录爬取_E02_Spiderbuf,只看到一个登录页面,而且是带验证码的。尝试一下不输入验证码直接点击登录,发现不行。 我们在E01-用户名密码登录爬取后台数据当中试过抓包取得用户名密码后直接在Python爬虫代码中把用户名密码传输到后台登录成功的,但现在有验证码这个方法就不好用了。 很多人看到验证码,第一时间就想到通过OCR的方式把验证码识别出来,其实OCR是有很高的错误率的,只有通过机器学习针对性训练才能提高这个准确度。 条条大道通罗马,因为用户名密码我们已经有了(网页上已经有值),我们可以尝试别的方法。 这里先科普一下网站跟B/S架构的系统登录...