Ai博堂-网络爬虫开发常用框架

爬虫框架就是一些爬虫项目的半成品，可以将一些爬虫常用的功能写好。然后留下一些接口，在不同的爬虫项目中，调用适合自己项目的接口，再编写少量的代码实现自己需要的功能。因为框架中己经实现了爬虫常用的功能，所以为开发人员节省了很多精力与时间。

1、Scrapy 爬虫框架

Scrapy 框架是一套比较成熟的Python 爬虫框架，简单轻巧，并且非常方便，可以高效率地爬取 Web 页面并从页面中提取结构化的数据。Scrapy 是一套开源的框架，所以在使用时不需要担心收取费用的问题。Scrapy 的官网地址为：https://scrapy.org。

Scrapy 开源框架对开发者提供了非常贴心的开发文档，文档中详细地介绍了开源框架的安装以及 Scrapy 的使用教程

2、Crawley 爬虫框架

Crawley也是Python 开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式

Crawley 的具体特性如下：

1. 基于 Eventlet 构建的高速网络爬虫框架．

2. 可以将数据存储在关系数据库中，如 Postgres、 MySOL、 Oracle、 SQLite 等数据库。

3. 可以将爬取的数据导入为 Json、XML格式

4. 支持非关系数据库，例如，Mongodb 和 Couchdb。

5. 支持命令行工具。

6. 可以使用您喜欢的工具进行数据的提取，例如，XPath 或 Pyquery 工具。

7. 支持使用 Cookie 登录或访问那些只有登录才可以访问的网页。

8. 简单易学（可以参照示例）。

Crawley 官网地址为: http://project.crawley-cloud.com

3、PySpider 爬虫框架

相对于 Scrapy 框架而言，PySpider 框架还是新秀。PySpider 框架采用 Python 语言编写，分布式架构支持多种数据库后端，强大的 WebUI 支持脚本编辑器，任务监视器，项目管理器以及结果杳看器。PySpider 框架的具体特性如下：

本文未完全显示，开通会员查看全文......