前段时间综合了长期以来维护爬虫练习网站Spiderbuf、免费爬虫视频的粉丝留言等信息,打造了一个关于Python爬虫攻防的课程,主要是帮助对网络爬虫感兴趣的朋友拓展知识面,让大家了解更多的爬虫技术原理、辅助工具、反爬措施等。
课程大纲:
前言
常见的反爬措施
开发第一个网页
让网页跑起来 - Web服务器Nginx的搭建
浏览器F12的技术原理 - DevTools协议
抓包工具Fiddler的使用
网页的魔法:CSS与JavaScript
第三个网页与爬虫 - JavaScript动态获取数据
必须了解的常见加密算法及编码
Selenium的攻防
换了IP怎么还会被反爬 - 神秘的浏览器指纹
奔向Python之外的远方 - 用魔法打败魔法
Node.js库Puppeteer
第二轮归纳总结
实战一:开发一个需要登录的网页并爬取
实战二:开发一个验证时间戳的网页并爬取
实战三:开发一个用户行为检测的网页并爬取
本课程的目标:让大家知其然,也知其所以然!
授人以渔。大部分爬虫教程都是教一些基础或者是直接找一些案例讲解,已经入门但未熟练的人难以找到适合的课程及练习网站;只教人爬不教原理,以至于部分人学完还是知其然不知其所以然,无法灵活应用;而且很多课程掺杂了大量Python基础语法等内容充集数、知识点不连贯或者避重就轻等。
本课程以横向教学为主,介绍爬虫实际工作中用到的技术、思路及工具,并且以边开发网页边爬取的方式逐步深入爬虫与反爬虫的攻防知识,知己知彼。
编程的一些注意事项:开发环境的路径以及Python脚本文件名不要包含中文、空格等内容;初学者推荐选用开箱即用的开发工具,如:PyCharm等。
本课程所用到的环境及软件:
Python解释器:Python 3.11.1
Node.js 18.20.2
Python开发工具:PyCharm Community Edition 2022.2.5
Web开发工具:VS Code 1.88.1
Web服务器:Nginx 1.24.0
抓包工具:Fiddler Classic 5.0.20211.51073 for .NET 4.6.1
浏览器:Google Chrome 123.0.6312.123(正式版本) (64 位)
操作系统:Windows 10 64位 家庭中文版