《深入了解Python爬虫攻防》课程已上线

前段时间综合了长期以来维护爬虫练习网站Spiderbuf、免费爬虫视频的粉丝留言等信息，打造了一个关于Python爬虫攻防的课程，主要是帮助对网络爬虫感兴趣的朋友拓展知识面，让大家了解更多的爬虫技术原理、辅助工具、反爬措施等。

课程链接

课件及相关代码链接

课程大纲：

前言

常见的反爬措施

开发第一个网页

让网页跑起来 - Web服务器Nginx的搭建

浏览器F12的技术原理 - DevTools协议

抓包工具Fiddler的使用

网页的魔法：CSS与JavaScript

第三个网页与爬虫 - JavaScript动态获取数据

必须了解的常见加密算法及编码

Selenium的攻防

换了IP怎么还会被反爬 - 神秘的浏览器指纹

奔向Python之外的远方 - 用魔法打败魔法

Node.js库Puppeteer

第二轮归纳总结

实战一：开发一个需要登录的网页并爬取

实战二：开发一个验证时间戳的网页并爬取

实战三：开发一个用户行为检测的网页并爬取

本课程的目标：让大家知其然，也知其所以然！

授人以渔。大部分爬虫教程都是教一些基础或者是直接找一些案例讲解，已经入门但未熟练的人难以找到适合的课程及练习网站；只教人爬不教原理，以至于部分人学完还是知其然不知其所以然，无法灵活应用；而且很多课程掺杂了大量Python基础语法等内容充集数、知识点不连贯或者避重就轻等。

本课程以横向教学为主，介绍爬虫实际工作中用到的技术、思路及工具，并且以边开发网页边爬取的方式逐步深入爬虫与反爬虫的攻防知识，知己知彼。

编程的一些注意事项：开发环境的路径以及Python脚本文件名不要包含中文、空格等内容；初学者推荐选用开箱即用的开发工具，如：PyCharm等。

本课程所用到的环境及软件：

Python解释器：Python 3.11.1
Node.js 18.20.2
Python开发工具：PyCharm Community Edition 2022.2.5
Web开发工具：VS Code 1.88.1
Web服务器：Nginx 1.24.0
抓包工具：Fiddler Classic 5.0.20211.51073 for .NET 4.6.1
浏览器：Google Chrome 123.0.6312.123（正式版本）（64 位）
操作系统：Windows 10 64位家庭中文版

课件截选：

深入了解Python爬虫攻防课件