文章列表 - Python 爬虫练习网站

Spiderbuf

N05 - CSS Sprites （雪碧图）反爬

发布日期：1718095484 阅读数：1046

coding=utf-8 import os.path import requests from lxml import etree import time base_url = ‘https://spiderbuf.cn/web-scraping-practice/css-sprites’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4...

N04 - CSS伪元素反爬

发布日期：1718095454 阅读数：1090

coding=utf-8 import os.path import requests from lxml import etree import time base_url = ‘https://spiderbuf.cn/web-scraping-practice/css-pseudo-elements’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom...

H06 - 初识浏览器指纹：Selenium是如何被反爬的

发布日期：1718095425 阅读数：1131

coding=utf-8 import base64 import hashlib import time import requests from lxml import etree from selenium import webdriver base_url = ‘https://spiderbuf.cn/web-scraping-practice/selenium-fingerprint-anti-scraper’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10....

H05 - js逆向破解时间戳反爬

发布日期：1718095396 阅读数：1236

coding=utf-8 import base64 import hashlib import time import requests from lxml import etree from selenium import webdriver base_url = ‘https://spiderbuf.cn/web-scraping-practice/javascript-reverse-timestamp’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Wi...

H04 - js加密混淆及简单反调试

发布日期：1718095363 阅读数：1114

coding=utf-8 import requests from lxml import etree from selenium import webdriver import time base_url = ‘https://spiderbuf.cn/web-scraping-practice/javascript-confuse-encrypt-reverse’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24