2024-12-24阅读数:169
打开Python爬虫实战练习页面[网页表单爬取(RPA初阶)_N06_Spiderbuf](https://spiderbuf.cn/playground/n06 "网页表单爬取(RPA初阶)_N06_Spiderbuf"),可以看到页面是由一些常见的表单控件组成的,有些表单控件有值,有些没有。 网页表单通常由标签 <form> 标签对包含起来,按照HTML5的标准,表单控件通常有text、email、password、url、number、range、Date pickers (date, month, week, time, datetime, datetime-local)...
2024-12-16阅读数:384
方法有多种,例如:模拟浏览器、JavaScript代码调试等。建议同时掌握多种解法,训练自己对网页爬虫的直觉。 小知识:普通人的手是无法使用鼠标划出一条完美的直线的,但机器人可以。。。...
2024-11-25阅读数:258
Zed is a next-generation code editor designed for high-performance collaboration with humans and AI. Zed是由原Atom代码编辑器的作者Nathan Sobo另起炉灶开发的一款代码编辑器。他们的目标是创建一个快速、简单且用户友好的代码编辑器。 Zed使用编译性开发语言Rust开发,这在本质上就决定了它的性能比较好,更何况还使用了GPU加速。开源以来已经在GitHub上获得了50K+的Star,可见Zed的受欢迎程度。甚至在YouTube上有人放出了Zed "kills" VS Code这样的标...
2024-11-24阅读数:342
打开Python爬虫实战练习页面[被屏蔽IP后使用代理服务器爬取页面_E04_Spiderbuf](https://spiderbuf.cn/playground/e04),可以看到页面并不复杂,留意页面右下角有翻面数字。 在网页上点击右键 > 显示网页源代码,可以看到网页结构也并不复杂。往下滚动查看源码,第193 - 199行是翻页的源码,但与页面显示的页面数量显示不符。 仔细对比各个翻页的链接,可以看到页数为6的链接样式类名多出一个“trap”,回到页面对比,发现页面上没有显示这个页数为6的链接。查找CSS样式类名为trap的样式代码,在第55行可以看到display: none;这样...
2024-11-19阅读数:467
打开Python爬虫练习页面[随机CSS样式类名,无Element ID_N07_Spiderbuf](https://spiderbuf.cn/playground/n07),可以看到页面数据并不复杂。 在网页上点击右键 > 显示网页源代码,可以看到网页结构也并不复杂。源码第16 - 29行有CSS样式代码,根据提示应该就是这里会变化,直接在源码的页面上刷新,可以看到CSS的类名发生了变化,而且每刷新一次都会变。 往下翻看源码,可以看到源码第70 - 1436行就是我们需要爬取的内容,div对应的CSS类名也会随刷新页面变化。 因为CSS类名每次都是随机的,就很难像之前那样直接使用XP...