Spiderbuf
爬虫练习
Python习题
技术文章
在线工具
捐赠
htmx afterRequest事件与afterSwap事件失效的场景及解决方法
发布日期:
1751216462
阅读数:6
htmx afterRequest事件与afterSwap事件失效的场景及解决方法 使用 htmx 进行开发产品,然后部署到阿里云、Cloudflare、AWS 等云服务器是我目前主要的做法。后端开发语言会根据情况采用 Python 或者 Golang,至于前端就采用 htmx 库。 可能是因为没有认真地研读过 htmx 源码,加上有时候懒散没有认真思考,所以在使用的过程中也会遇到一些看似莫名其妙但又似乎合情合理的问题。遇到的其中一个问题就是 htmx:afterRequest事件 及 htmx:afterSwap事件 失效的问题。 现在把前因后果及解决方法记录下来,以免日后重蹈覆辙。 htm...
动态代理IP:利用ScraperAPI打造不被侦测的Python网页爬虫
发布日期:
1750348590
阅读数:80
现在的电商网站、社交平台、金融平台等大型网站都会有网页爬虫的风控及检测机制,除了常见的 HTTP Headers之外,大部分的网站还加入了 AI 反爬虫的功能,一旦被检测到就会触发人机验证机制,严重的甚至会直接封 IP 地址。IP 地址被封后就不得不使用代理 IP 来继续爬取。 想要降低网页爬虫被检测到的方法之一,就是随机轮换不同的代理IP和请求头,最近看到 ScraperAPI提供了这样的解決方案,使用上也非常的简单,而且有 1000 次API 调用额度可以免费使用,所以这篇文章就來分享一下ScraperAPI的使用方式。 ScraperAPI是什么? 利用 ScraperAPI 运行 Py...
C05 - JS 逆向爬虫实战示例代码
发布日期:
1749209994
阅读数:204
coding=utf-8 @Author: spiderbuf from selenium import webdriver import time import json base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraper-practice-c05’ if name == ‘main’: client = webdriver.Chrome() print(‘Getting page…’) client.get(base_url) ti...
Python爬虫实战C05JS逆向实战练习案例解析
发布日期:
1749209915
阅读数:211
打开Python爬虫实战练习C05页面 爬虫实战练习C05,页面上只有一个拖动式验证码,这种页面我们经常会在电商网站上看到,只要把图片拖动到指定的位置就能够继续进行下一步的操作。 先看看这一关的目标数据是什么,点击 立即验证 ,发现是要求计算并提交各个航班机票价格的平均值。 这时候先按快捷键 F12 打开浏览器开发者工具,切换到 Network 标签,记得先清空掉 Network 里的内容避免干扰,这时候再拖动验证码,发现在加载数据的时候浏览器并没有对外发送请求。这说明数据已经在页面加载的时候一起加载了,我们需要把数据部分找出来,然后再看看是否有数据加密等等数据安全验证措施。 回到页面上,右键...
C08 - JS逆向爬虫实战练习通关提示(金融数据)
发布日期:
1748709420
阅读数:380
很多网站在检测到爬虫时会返回假数据,让人防不胜防!很多时候Selenium的特征指纹会被检测到,不妨试试其它的模拟浏览器,比如:微软开源的Playwright、Puppeteer、PyPpeteer等。金融及股票数据很多是公开的,例如:股票数据会开放一些API数据接口等,但很多时候数据还是会加密的,所以逆向JavaScript代码还是一项必备技能。...
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22