scrapy中文文档与使用心得

最近在学习和使用python爬虫框架:scrapy。

学习途径为,阅读官方文档,编写一个可配置的通用新闻内容爬虫FlexSpider。

目前FlexSpider已支持以下功能:

  • 通过配置文件配置页面内容提取方法,不需要直接修改代码
  • 可递归爬取多层页面,支持在最末级页面提取新闻内容
  • 可同时爬取多个网站
  • 支持提取页面图片
  • 借助scrapy-redis支持分布式部署

后续继续完善,以支持提取动态页面的内容。功能完善之后,计划发布到github上开源。

本文记录scrapy学习过程和使用心得。包括

  • 基于最新官方文档翻译的中文文档
  • 使用中遇到的一些问题及解决办法

以下为相关文章的链接:

  1. scrapy中文文档
  2. scrapy使用心得