文章列表 - Python 爬虫练习网站

Spiderbuf

C06 - JS 逆向爬虫实战示例代码

发布日期：1752055232 阅读数：446

coding=utf-8 import requests import time from lxml import etree import hashlib import json base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraper-practice-c06’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like...

Python爬虫实战C06JS逆向实战练习案例解析

发布日期：1752055150 阅读数：501

打开Python爬虫实战练习C06页面爬虫实战练习C06，页面上有一部分电影数据，把页面滚动到底部，发现有一个“加载更多”的按钮，点击之后页面会新加载一部分数据。先看看这一关的目标数据是什么，点击立即验证，发现是要求计算并提交豆瓣评分的总值。鼠标右键查看一下页面源码，发现数据都是明晃晃地摆在那里。这种数据结构简单、又有 AJAX API 数据接口的爬虫，我们首先 Selenium。先通过浏览器开发者工具获取到“加载更多”按钮的 XPath 路径，再获取豆瓣电影评分的 XPath 路径，然后开始写 Python 爬虫代码来调用 Selenium。上代码： import reques...

htmx afterRequest事件与afterSwap事件失效的场景及解决方法

发布日期：1751216462 阅读数：282

htmx afterRequest事件与afterSwap事件失效的场景及解决方法使用 htmx 进行开发产品，然后部署到阿里云、Cloudflare、AWS 等云服务器是我目前主要的做法。后端开发语言会根据情况采用 Python 或者 Golang，至于前端就采用 htmx 库。可能是因为没有认真地研读过 htmx 源码，加上有时候懒散没有认真思考，所以在使用的过程中也会遇到一些看似莫名其妙但又似乎合情合理的问题。遇到的其中一个问题就是 htmx:afterRequest事件及 htmx:afterSwap事件失效的问题。现在把前因后果及解决方法记录下来，以免日后重蹈覆辙。 htm...

动态代理IP：利用ScraperAPI打造不被侦测的Python网页爬虫

发布日期：1750348590 阅读数：432

现在的电商网站、社交平台、金融平台等大型网站都会有网页爬虫的风控及检测机制，除了常见的 HTTP Headers之外，大部分的网站还加入了 AI 反爬虫的功能，一旦被检测到就会触发人机验证机制，严重的甚至会直接封 IP 地址。IP 地址被封后就不得不使用代理 IP 来继续爬取。想要降低网页爬虫被检测到的方法之一，就是随机轮换不同的代理IP和请求头，最近看到 ScraperAPI提供了这样的解決方案，使用上也非常的简单，而且有 1000 次API 调用额度可以免费使用，所以这篇文章就來分享一下ScraperAPI的使用方式。 ScraperAPI是什么？利用 ScraperAPI 运行 Py...

C05 - JS 逆向爬虫实战示例代码

发布日期：1749209994 阅读数：649

coding=utf-8 @Author: spiderbuf from selenium import webdriver import time import json base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraper-practice-c05’ if name == ‘main’: client = webdriver.Chrome() print(‘Getting page…’) client.get(base_url) ti...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25