Python 爬虫入门一之综述

大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。 python版本:2.7,Python 3请另寻其他博文。 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或...

[阅读更多 →]

scrapy 详细实例-爬取百度贴吧数据并保存到文件和和数据库中

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 使用框架进行数据的爬取那,可以省去好多力气,如不需要自己去下载页面、数据处理我们也不用自己去写。我们只需要关注数据的爬取规则就行, scrapy在Python数据爬取框架中数据比较流行的,那么今天就用scrapy进行百度贴吧-黑中介贴吧数据的爬取。别问我为啥爬取黑中介吧的,因为我个...

[阅读更多 →]