BlueXIII's Blog

热爱技术,持续学习

0%

爬虫入门学习笔记

参考文档

关注点

  • 法律风险
  • 反爬
  • 文本提取 XPATH、正则、NLP、视觉AI、GNE
  • 分布式爬虫、调度
  • 部署任务分派 Crawlab、K8S
  • URL去重 Redis
  • 自动化渲染技术 Selenium、Puppeteer
  • 消息队列
  • 资源问题 布隆过滤器

文本提取

  • 用归类法,相似的内容归类到一起,然后给一类内容配置提取规则 XPATH
  • 用正则,提取指定标签中的内容;
  • 用深度学习,NLP 语义分析出哪里是有意义的内容,提取出来;
  • 用计算机视觉,让人去点击,然后按照页面相似度分类提取(其实就是归类法的自动化版本);
  • 用算法,计算出文本的密度,然后提取 GNE

去重

  • Redis
  • MySQL
  • MongoDB
  • 内存

自动化渲染

  • Rod
  • Chromedp
  • Puppeteer/Pyppeteer
  • Playwright
  • Selenium
  • Cypress

反爬

  • UA
  • IP
  • 登录
  • token/sign等加密参数
  • 特殊的 headers 头验证
  • aes 和 des 加密某字段
  • 会员权限等级限制
  • web 端的 js 混淆
  • ssl pinning 检测
  • 微信授权登录

商业软件

八爪鱼
后羿

crawlab

https://www.v2ex.com/t/590527

Java库

GNE

https://github.com/kingname/GeneralNewsExtractor

书籍

Python3 网络爬虫宝典

爬虫管理

https://juejin.cn/post/6844903912349122573

人名分词

反爬检测

https://bot.sannysoft.com/

正文提取