文章列表 - Python 爬虫练习网站

Spiderbuf

MacBook 实现CGO交叉编译的解决方案

发布日期：1753084810 阅读数：200

背景使用 MacBook 作为开发环境，需要用 Golang 之类的编译型开发语言时，就避免不了交叉编译。因为阿里云、AWS 等云服务器都是使用的 Linux 操作系统，而且是 x86 架构的 CPU。之前也分享过在 VSCode 中配置 Golang 交叉编译环境的文章，有兴趣的朋友可以翻看一下《VSCode利用tasks.json实现交叉编译》。但是这次写好代码，要编译 Linux amd64 版本上传到生产环境的云服务器时就出现了诡异的问题，报了一大堆的异常信息。要知道，写这个代码的过程中是经过了多次本地调试的，代码运行一直都没问题的。这次编译跟代码调试时也就是交叉编译的区别，但...

C09-JS逆向练习案例通关提示

发布日期：1752510371 阅读数：398

真正的战场是危险的，一旦失误就有可能无法继续下去。Python爬虫开发，技术是一部分，细心及运气同样也是能力的一种。如果遇到了让你烦恼的拦路虎，可以试试ScraperAPI。幸好，这还不是真正的战场，留意返回的提示，可以交给时间解决。...

C06 - JS 逆向爬虫实战示例代码

发布日期：1752055232 阅读数：370

coding=utf-8 import requests import time from lxml import etree import hashlib import json base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraper-practice-c06’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like...

Python爬虫实战C06JS逆向实战练习案例解析

发布日期：1752055150 阅读数：421

打开Python爬虫实战练习C06页面爬虫实战练习C06，页面上有一部分电影数据，把页面滚动到底部，发现有一个“加载更多”的按钮，点击之后页面会新加载一部分数据。先看看这一关的目标数据是什么，点击立即验证，发现是要求计算并提交豆瓣评分的总值。鼠标右键查看一下页面源码，发现数据都是明晃晃地摆在那里。这种数据结构简单、又有 AJAX API 数据接口的爬虫，我们首先 Selenium。先通过浏览器开发者工具获取到“加载更多”按钮的 XPath 路径，再获取豆瓣电影评分的 XPath 路径，然后开始写 Python 爬虫代码来调用 Selenium。上代码： import reques...

htmx afterRequest事件与afterSwap事件失效的场景及解决方法

发布日期：1751216462 阅读数：231

htmx afterRequest事件与afterSwap事件失效的场景及解决方法使用 htmx 进行开发产品，然后部署到阿里云、Cloudflare、AWS 等云服务器是我目前主要的做法。后端开发语言会根据情况采用 Python 或者 Golang，至于前端就采用 htmx 库。可能是因为没有认真地研读过 htmx 源码，加上有时候懒散没有认真思考，所以在使用的过程中也会遇到一些看似莫名其妙但又似乎合情合理的问题。遇到的其中一个问题就是 htmx:afterRequest事件及 htmx:afterSwap事件失效的问题。现在把前因后果及解决方法记录下来，以免日后重蹈覆辙。 htm...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24