文章列表 - Python 爬虫练习网站

Spiderbuf

HTMX + Flask 实现用户登录：动态交互的完整教程

发布日期：1739088315 阅读数：700

htmx 官方文档过于简洁，而且有些细节容易被忽略，而且目前很难找到使用 htmx 的完整项目作为参考，所以有可能会导致大家在学习 htmx 的过程中卡壳。作者就以用户登录为例，带大家领略 htmx 的魅力。本示例包含了登录表单的验证、登录信息提交、错误处理等实际项目开发中必需的功能。完整的 htmx 用户登录源码已经上传至GitHub[GitHub](https://github.com/hhuayuan/htmx-chinese-examples/tree/main/01_login "htmx 用户登录源码") 完整项目总共3个文件，按 Flask 默认的目录结构搭建。...

Python爬虫实战C01爬虫实战练习案例解析

发布日期：1738756036 阅读数：1300

这是一个新的系列，与以往不同的是，之前的练习都会提示了大家网页用了什么反爬措施，目的是让大家先熟悉一下爬虫与反爬虫的套路。渐渐地有更多的小伙伴向我提出疑问：分析网页的反爬虫措施都是靠猜的吗？以上问题的答案是一定程度上是肯定的，确实要靠感觉。这感觉哪里来呢？大家把之前的练习都做了一遍两遍三遍甚至更多遍都没感觉出什么来。其中这中间一个细节影响了大家：就是大家都跳过了总结累积经验的步骤，都是直接按照提示去练的。不是说这个思路是错的，相反，这个思路是对的，现在是大家已经开始追求更高层面的知识了。所以就推出了爬虫实战练习系列，这个系列就是贴近爬虫实战，让大家从0开始分析网页、编写爬虫代码、调试爬虫...

C01-爬虫实战示例代码

发布日期：1738755651 阅读数：1361

coding=utf-8 import requests from lxml import etree import numpy as np base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraper-practice-c01/mnist’ my_headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom...

摘掉Json生成器的帽子，拥抱HTMX！

发布日期：1737211832 阅读数：775

HTMX是什么？ HTMX 最初以 intercooler.js 的形式诞生的，是一个用于构建动态网页的 JavaScript 库，它允许开发者通过简单的 HTML 属性来实现 AJAX 、CSS 动画、客户端事件等功能，而无需编写大量的 JavaScript 代码。 HTMX 的主要目的是简化动态网页的开发，使其更容易构建交互式用户界面。通过在 HTML 元素上添加自定义属性，开发者可以轻松地实现各种交互行为，例如请求数据、更新部分页面、错误处理等。 HTMX 支持 GET、POST、PUT、DELETE 等多种 HTTP 请求方式，方便与服务器进行交互。通过指定目标元素，HTMX...

C03 - Python爬虫练习通关提示

发布日期：1736920170 阅读数：1494

需要逆向分析JavaScript代码，找到生成HTTP请求参数的算法并分析代码逻辑，然后使用Python进行算法模拟。逆向JavaScript代码时留意混淆代码中的关键字，抽丝剥茧逐步调试。或者使用Selenium进行翻页爬取。...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24