Python爬虫常见问题

本网站是专门为学习Python爬虫及反爬知识而开发的实战靶场，在这里你可以自由练习爬虫技术，同时会提供由浅入深的Python爬虫实战环境及相应教程。

爬虫工程师、数据分析师、安全工程师、自动化测试、自动化运维、RPA工程师等群体都应该熟练掌握Python爬虫技术。

爬虫是指以技术手段批量获取网站信息的技术实现。

反爬虫是指以技术手段阻止别人批量获取网站信息的技术实现。

爬虫应该遵守网站robot协议，大部分网站都会在网站根目录下放一个robots.txt文件，文件会通过指令的方式告诉爬虫哪些信息可以爬，哪些不允许爬。这种做法起源于搜索引擎收集网站信息。

很多信息是公开的，网站为什么还要反爬？

虽然信息是公开的，但爬虫是批量获取，会在短时间内向网站服务器发起大量访问请求，占用大量带宽、服务器计算等资源，影响正常用户的访问体验，严重时甚至会导致服务器崩溃。

爬虫开发者通常会基于道德层面（也怕被封），降低爬虫的并发，不影响目标网站用户的正常访问。

爬虫与反爬是一场持久的攻防战，双方的技术手段都在更新迭代，反爬也不可能识别拦截所有爬虫，一般都是处理对正常业务产生影响的爬虫。

常见的反爬手段通常有从HTTP协议的Headers中识别爬虫、从IP的访问频率判断是否正常用户访问、验证码反爬、Ajax动态加载并加密JS脚本等方式。

安装Python、PyCharm，对照本网站视频教程开始。

任何编程语言都是一个工具，Python也不例外，工具就是熟能生巧，不能只看，要动手，还要多练，同样的代码反复写加深印象，通过一段时间的密集练习就能提高。