文章列表 - Python 爬虫练习网站

Spiderbuf

动态代理IP：利用ScraperAPI打造不被侦测的Python网页爬虫

发布日期：1750348590 阅读数：351

现在的电商网站、社交平台、金融平台等大型网站都会有网页爬虫的风控及检测机制，除了常见的 HTTP Headers之外，大部分的网站还加入了 AI 反爬虫的功能，一旦被检测到就会触发人机验证机制，严重的甚至会直接封 IP 地址。IP 地址被封后就不得不使用代理 IP 来继续爬取。想要降低网页爬虫被检测到的方法之一，就是随机轮换不同的代理IP和请求头，最近看到 ScraperAPI提供了这样的解決方案，使用上也非常的简单，而且有 1000 次API 调用额度可以免费使用，所以这篇文章就來分享一下ScraperAPI的使用方式。 ScraperAPI是什么？利用 ScraperAPI 运行 Py...

C05 - JS 逆向爬虫实战示例代码

发布日期：1749209994 阅读数：567

coding=utf-8 @Author: spiderbuf from selenium import webdriver import time import json base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraper-practice-c05’ if name == ‘main’: client = webdriver.Chrome() print(‘Getting page…’) client.get(base_url) ti...

Python爬虫实战C05JS逆向实战练习案例解析

发布日期：1749209915 阅读数：577

打开Python爬虫实战练习C05页面爬虫实战练习C05，页面上只有一个拖动式验证码，这种页面我们经常会在电商网站上看到，只要把图片拖动到指定的位置就能够继续进行下一步的操作。先看看这一关的目标数据是什么，点击立即验证，发现是要求计算并提交各个航班机票价格的平均值。这时候先按快捷键 F12 打开浏览器开发者工具，切换到 Network 标签，记得先清空掉 Network 里的内容避免干扰，这时候再拖动验证码，发现在加载数据的时候浏览器并没有对外发送请求。这说明数据已经在页面加载的时候一起加载了，我们需要把数据部分找出来，然后再看看是否有数据加密等等数据安全验证措施。回到页面上，右键...

C08 - JS逆向爬虫实战练习通关提示（金融数据）

发布日期：1748709420 阅读数：945

很多网站在检测到爬虫时会返回假数据，让人防不胜防！很多时候Selenium的特征指纹会被检测到，不妨试试其它的模拟浏览器，比如：微软开源的Playwright、Puppeteer、PyPpeteer等。金融及股票数据很多是公开的，例如：股票数据会开放一些API数据接口等，但很多时候数据还是会加密的，所以逆向JavaScript代码还是一项必备技能。...

Google Adsense 收不到 PIN 码怎么办？

发布日期：1747759818 阅读数：339

终于收到了来自 Google Adsense 的 PIN 码信件，并且验证成功。中间经历了一些曲折并且踩了一个很大的坑，根据在我视频评论区留言的情况来看，踩相同的坑的人也有不少，所以在这里把这经历原原本本地还原出来，并且教大家如何顺利收到 Googl Adsense 的 PIN 码。由于本网站目前还是免费开放的，为了维持网站的正常运营，就给网站开通了 Google Adsense 来赚点微薄的收入补贴租用云服务器及域名的费用。因为网站流量也不算太多，而且平时也没什么人点击广告，所以收入是聊胜于无的状态，但有比没有的好，起码不用亏太多。开通谷歌广告后是需要在指定的时间内验证收件地址的，不过放...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24