《深入了解Python爬虫攻防》课程已上线

2024-07-09阅读数:545
上一篇:Python调用Selenium爬取网页
下一篇:使用PyCharm写Python代码时遇到ModuleNotFoundError No module named 'xxx'

前段时间综合了长期以来维护爬虫练习网站Spiderbuf、免费爬虫视频的粉丝留言等信息,打造了一个关于Python爬虫攻防的课程,主要是帮助对网络爬虫感兴趣的朋友拓展知识面,让大家了解更多的爬虫技术原理、辅助工具、反爬措施等。

课程链接

课件及相关代码链接

课程大纲:

前言

常见的反爬措施

开发第一个网页

让网页跑起来 - Web服务器Nginx的搭建

浏览器F12的技术原理 - DevTools协议

抓包工具Fiddler的使用

网页的魔法:CSS与JavaScript

第三个网页与爬虫 - JavaScript动态获取数据

必须了解的常见加密算法及编码

Selenium的攻防

换了IP怎么还会被反爬 - 神秘的浏览器指纹

奔向Python之外的远方 - 用魔法打败魔法

Node.js库Puppeteer

第二轮归纳总结

实战一:开发一个需要登录的网页并爬取

实战二:开发一个验证时间戳的网页并爬取

实战三:开发一个用户行为检测的网页并爬取

本课程的目标:让大家知其然,也知其所以然!

授人以渔。大部分爬虫教程都是教一些基础或者是直接找一些案例讲解,已经入门但未熟练的人难以找到适合的课程及练习网站;只教人爬不教原理,以至于部分人学完还是知其然不知其所以然,无法灵活应用;而且很多课程掺杂了大量Python基础语法等内容充集数、知识点不连贯或者避重就轻等。

本课程以横向教学为主,介绍爬虫实际工作中用到的技术、思路及工具,并且以边开发网页边爬取的方式逐步深入爬虫与反爬虫的攻防知识,知己知彼。

编程的一些注意事项:开发环境的路径以及Python脚本文件名不要包含中文、空格等内容;初学者推荐选用开箱即用的开发工具,如:PyCharm等。

本课程所用到的环境及软件:

Python解释器:Python 3.11.1
Node.js 18.20.2
Python开发工具:PyCharm Community Edition 2022.2.5
Web开发工具:VS Code 1.88.1
Web服务器:Nginx 1.24.0
抓包工具:Fiddler Classic 5.0.20211.51073 for .NET 4.6.1
浏览器:Google Chrome 123.0.6312.123(正式版本) (64 位)
操作系统:Windows 10 64位 家庭中文版

课件截选:

深入了解Python爬虫攻防课件