C05 - Python爬虫实战案例练习提示
拖拽式验证码检测的维度是多样化的,除了检测人类手的抖动之类,其它跟人类特性有关的要素也会成为检测是否为爬虫的依据。可以仔细想一想,有哪些是机器人或者代码能轻易做到完美的,但人类却不行的。现在的验证码主要是通过当前用户是否具备人类的笨识别爬虫的,所以有时候你要让你的代码变得笨一点。逆向 JavaScript 时也需要留意一些重要的信息跟字符串,这些有可能成为爬虫成功与否的关键。...
OBS录制视频教程的最佳配置
由于经常需要录制一些爬虫案例的视频教程以及Axure RP设计产品的视频教程,免不了需要使用一些录屏软件。在录制视频教程方面开源免费的OBS无疑是最佳的选择,但在录制的过程中因为没有专业的录音环境跟设备,经常会遇到音频噪声多、质量低的问题,主要表现为以下几方面:环境噪音多、混响、呼吸声、声音忽高忽低等等...
C04 - Python爬虫实战案例练习提示
用户行为分析与传统人工参与识别的图像验证逻辑完全不同,通过分析用户的鼠标移动、点击速度、页面滚动等行为模式进行区分,这些是人类用户自然发生的行为,而机器人难以模拟。类似的技术应用较为广泛的是Cloudflare Turnstile。Cloudflare Turnstile 是一种现代化的人机验证技术,旨在替代传统的 CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)验证方式。与传统的 CAPTCHA 不同,Turnstile 采用更智能的方式来辨别用户是人类还是机器人,避免了传统...
HTMX + Flask 实现用户登录:动态交互的完整教程
htmx 官方文档过于简洁,而且有些细节容易被忽略,而且目前很难找到使用 htmx 的完整项目作为参考,所以有可能会导致大家在学习 htmx 的过程中卡壳。作者就以用户登录为例,带大家领略 htmx 的魅力。本示例包含了登录表单的验证、登录信息提交、错误处理等实际项目开发中必需的功能。 完整的 htmx 用户登录源码已经上传至GitHub[GitHub](https://github.com/hhuayuan/htmx-chinese-examples/tree/main/01_login "htmx 用户登录源码") 完整项目总共3个文件,按 Flask 默认的目录结构搭建。...
Python爬虫实战C01爬虫实战练习案例解析
这是一个新的系列,与以往不同的是,之前的练习都会提示了大家网页用了什么反爬措施,目的是让大家先熟悉一下爬虫与反爬虫的套路。渐渐地有更多的小伙伴向我提出疑问:分析网页的反爬虫措施都是靠猜的吗? 以上问题的答案是一定程度上是肯定的,确实要靠感觉。这感觉哪里来呢?大家把之前的练习都做了一遍两遍三遍甚至更多遍都没感觉出什么来。 其中这中间一个细节影响了大家:就是大家都跳过了总结累积经验的步骤,都是直接按照提示去练的。不是说这个思路是错的,相反,这个思路是对的,现在是大家已经开始追求更高层面的知识了。 所以就推出了爬虫实战练习系列,这个系列就是贴近爬虫实战,让大家从0开始分析网页、编写爬虫代码、调试爬虫...