参考文档
- https://www.zhihu.com/question/268769681
- https://zhuanlan.zhihu.com/p/29436838 XPath
- http://blog.itpub.net/31557738/viewspace-2658869/ Readability 和 Newspaper 的介绍。
- https://xie.infoq.cn/article/60cdd679a5cd5d6da5116aee8 大规模爬虫
- https://cloud.tencent.com/developer/article/1602931 正文提取第三方库goose
- https://zhuanlan.zhihu.com/p/65650357 设计一个一天爬取一百万张页面的大型爬虫
关注点
- 法律风险
- 反爬
- 文本提取 XPATH、正则、NLP、视觉AI、GNE
- 分布式爬虫、调度
- 部署任务分派 Crawlab、K8S
- URL去重 Redis
- 自动化渲染技术 Selenium、Puppeteer
- 消息队列
- 资源问题 布隆过滤器
文本提取
- 用归类法,相似的内容归类到一起,然后给一类内容配置提取规则 XPATH
- 用正则,提取指定标签中的内容;
- 用深度学习,NLP 语义分析出哪里是有意义的内容,提取出来;
- 用计算机视觉,让人去点击,然后按照页面相似度分类提取(其实就是归类法的自动化版本);
- 用算法,计算出文本的密度,然后提取 GNE
去重
- Redis
- MySQL
- MongoDB
- 内存
自动化渲染
- Rod
- Chromedp
- Puppeteer/Pyppeteer
- Playwright
- Selenium
- Cypress
库
- Scrapy https://scrapy.org/
反爬
- UA
- IP
- 登录
- token/sign等加密参数
- 特殊的 headers 头验证
- aes 和 des 加密某字段
- 会员权限等级限制
- web 端的 js 混淆
- ssl pinning 检测
- 微信授权登录
商业软件
八爪鱼
后羿
crawlab
Java库
GNE
https://github.com/kingname/GeneralNewsExtractor
书籍
Python3 网络爬虫宝典
爬虫管理
https://juejin.cn/post/6844903912349122573
人名分词
- https://github.com/hankcs/HanLP
- https://github.com/fxsjy/jieba
- https://blog.csdn.net/IT_flying625/article/details/88669869
- https://www.cnblogs.com/baiboy/p/nltk2.html