文章列表 - Python 爬虫练习网站

Spiderbuf

C01 - Python爬虫练习通关提示

发布日期：1731778040 阅读数：2432

这是一个静态的页面，通过点击“mnist”超链接跳转到真实数据页面。注意使用浏览器开发者工具（F12）仔细分析超链接跳转时的请求头。然后检查自己的Python爬虫代码，看看是否漏掉了一些参数。。。...

MacBook Chrome谷歌浏览器无法访问虚拟机的Web服务

发布日期：1731600245 阅读数：894

在MacBook上逐步部署了开发环境，但因为之前没怎么使用过macOS操作系统，而且感觉macOS在权限管理方面比较细化也比较严格，在这个过程中踩了一些坑。其中一个就是使用VMware Fusion安装虚拟机，在虚拟机中安装了Ubuntu系统，安装并启动nginx服务后在MacBook上无法使用Chrome访问的问题。问题状况：在虚拟机里使用curl命令可以正常访问到nginx的欢迎页面，但回到MacBook上在Chrome浏览器地址栏输入虚拟机的IP则无法访问，提示无法访问此网站（ERR_ADDRESS_UNREACHABLE）。 curl http://localhost/ ...

N07 - 随机CSS样式类名，无Element ID

发布日期：1731486014 阅读数：1148

coding=utf-8 import requests from lxml import etree base_url = ‘https://spiderbuf.cn/web-scraping-practice/random-css-classname’ my_headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/53...

The current Flask app is not registered with this 'SQLAlchemy' instance.

发布日期：1728844772 阅读数：1071

The current Flask app is not registered with this 'SQLAlchemy' instance. Did you forget to call 'init_app', or did you create multiple 'SQLAlchemy' instances? 使用Flask开发Web应用时，必不可少的就是使用SQL Alchemy对数据库进行操作。但是经常会看到有些人遇到一个报错，就是以上这些报错提示。这样的报错通常发生在保存数据及提交时，如以下代码： ```python db.session.add(spiderbuf) db...

E04 - 被屏蔽IP后使用代理服务器爬取页面

发布日期：1728844662 阅读数：1454

coding=utf-8 import requests from lxml import etree import re base_url = ‘https://spiderbuf.cn/web-scraping-practice/block-ip-proxy’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24