网络爬虫开发常用框架
爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好。爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好。然后留下一些接口,在不同的爬虫项目中,调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。因为框架中己经实现了爬虫常用的功能,所以为开发人员节省了很多精力与时间。
1、Scrapy 爬虫框架
Scrapy 框架是一套比较成熟的Python 爬虫框架,简单轻巧,并且非常方便,可以高效率地爬取 Web 页面并从页面中提取结构化的数据。Scrapy 是一套开源的框架,所以在使用时不需要担心收取费用的问题。Scrapy 的官网地址为:https://scrapy.org。
Scrapy 开源框架对开发者提供了非常贴心的开发文档,文档中详细地介绍了开源框架的安装以及 Scrapy 的使用教程
2、Crawley 爬虫框架
Crawley也是Python 开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式
Crawley 的具体特性如下:
1. 基于 Eventlet 构建的高速网络爬虫框架.
2. 可以将数据存储在关系数据库中,如 Postgres、 MySOL、 Oracle、 SQLite 等数据库。
3. 可以将爬取的数据导入为 Json、XML格式
4. 支持非关系数据库,例如,Mongodb 和 Couchdb。
5. 支持命令行工具。
6. 可以使用您喜欢的工具进行数据的提取,例如,XPath 或 Pyquery 工具。
7. 支持使用 Cookie 登录或访问那些只有登录才可以访问的网页。
8. 简单易学(可以参照示例)。
Crawley 官网地址为: http://project.crawley-cloud.com
3、PySpider 爬虫框架
相对于 Scrapy 框架而言,PySpider 框架还是新秀。PySpider 框架采用 Python 语言编写,分布式架构支持多种数据库后端,强大的 WebUI 支持脚本编辑器,任务监视器,项目管理器以及结果杳看器。PySpider 框架的具体特性如下:
本文未完全显示,开通会员查看全文......