Python 和爬虫资料经常混在一起:语法、Flask、包管理、Selenium、图片下载、压缩裁剪、上传工具。整理时不要按收藏顺序堆链接,而要按任务入口拆开。
语言基础
第一类是 Python 语言基础。
常见问题包括:
- 对象转字典。
- JSON 序列化。
- 装饰器。
functools.wraps。- 父子进程。
struct。- 动态语言特性。
这些内容适合放在“语言基础与序列化”专题里。写脚本、写接口、做数据转换时都会反复用到。
Flask 和服务部署
第二类是 Flask 与服务部署。
可以记录:
- Flask 学习路线。
- Gunicorn。
- RPC。
- HAProxy。
- 小型服务部署。
- 本地工具 HTTP 化。
Flask 适合把个人脚本变成轻量服务。等访问量、权限、任务队列和部署流程变复杂,再考虑更完整的工程方案。
环境和包管理
第三类是 Python 环境管理。
建议重点记录:
uv。.venv。pyproject.toml。uv.lock。- 旧
requirements.txt迁移。 - 命令运行方式。
Python 项目最容易乱在环境上。公开笔记里应该写清楚推荐方式,不要让全局 Python、虚拟环境和旧依赖混在一起。
爬虫工具和站点实践
第四类是爬虫工具。
可以拆成:
- Selenium。
- WebMagic。
- RSSHub。
- 站点抓取。
- 新闻和内容源。
- 历史爬虫方案。
这类内容要注意边界:公开文章只写工具选择、调试思路和合法使用场景,不写绕过限制、批量冲量或攻击性细节。
图片处理流程
第五类是图片处理。
常见任务包括:
- 图片下载。
- 压缩。
- 裁剪。
- 上传。
- 缩放。
- 尺寸计算。
图片流程适合单独维护,因为它往往和内容站、媒体库、特色图、对象存储有关。
维护建议
Python 与爬虫索引可以按问题组织:
- 我要处理数据。
- 我要写一个轻量服务。
- 我要管理 Python 环境。
- 我要抓取公开内容。
- 我要处理图片。
这样以后查资料时,会先进入任务场景,再进入具体工具,而不是在一堆 Python 链接里翻找。
正文完




