0%

爬虫入门学习笔记

Posted on 2022-11-02

参考文档

https://www.zhihu.com/question/268769681
https://zhuanlan.zhihu.com/p/29436838 XPath
http://blog.itpub.net/31557738/viewspace-2658869/ Readability 和 Newspaper 的介绍。
https://xie.infoq.cn/article/60cdd679a5cd5d6da5116aee8 大规模爬虫
https://cloud.tencent.com/developer/article/1602931 正文提取第三方库goose
https://zhuanlan.zhihu.com/p/65650357 设计一个一天爬取一百万张页面的大型爬虫

关注点

法律风险
反爬
文本提取 XPATH、正则、NLP、视觉AI、GNE
分布式爬虫、调度
部署任务分派 Crawlab、K8S
URL去重 Redis
自动化渲染技术 Selenium、Puppeteer
消息队列
资源问题布隆过滤器

文本提取

用归类法，相似的内容归类到一起，然后给一类内容配置提取规则 XPATH
用正则，提取指定标签中的内容；
用深度学习，NLP 语义分析出哪里是有意义的内容，提取出来；
用计算机视觉，让人去点击，然后按照页面相似度分类提取（其实就是归类法的自动化版本）；
用算法，计算出文本的密度，然后提取 GNE

去重

Redis
MySQL
MongoDB
内存

自动化渲染

Rod
Chromedp
Puppeteer/Pyppeteer
Playwright
Selenium
Cypress

库

Scrapy https://scrapy.org/

反爬

UA
IP
登录
token/sign等加密参数
特殊的 headers 头验证
aes 和 des 加密某字段
会员权限等级限制
web 端的 js 混淆
ssl pinning 检测
微信授权登录

商业软件

八爪鱼
后羿

crawlab

https://www.v2ex.com/t/590527

Java库

GNE

https://github.com/kingname/GeneralNewsExtractor

书籍

Python3 网络爬虫宝典

爬虫管理

https://juejin.cn/post/6844903912349122573

人名分词

反爬检测

https://bot.sannysoft.com/

正文提取