网络爬虫概述
按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息网络爬虫 (又被称为网络蜘蛛、网络机器人,经常被称为网页追逐者),可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息,通过 Python 可以很轻松地编写爬虫程序或者是脚本。
网络爬虫的基本工作流程如下:
(1)获取初始的 URL,该 URL 地址是用户自己制定的初始爬取的网页。
(2)爬取对应 URL 地址的网页时,获取新的 URL 地址。
(3)将新的 URL 地址放入 URL 队列中
(4)从 URL 队列中读取新的 URL,然后依据新的 URL 爬取网页,同时从新的网页中获取新的 URL 地址,重复上述的爬取过程
(5)设置停止条件,如果没有设置停止条件时,爬虫会一直爬取下去,直到无法获取新的 URL 地址为止。设置了停止条件后,爬虫将会在满足停止条件时停止爬取。