Python 爬虫 Scrapy 快速入门-软件资讯-爱游戏

来源:爱游戏  作者:爱游戏
本文摘要:Scrapy是攀登网站并提取结构化数据的应用程序框架,通常我们称之为爬虫,这是一个优秀的Python爬虫。Scrapy爬网数据可用于各种数据分析和处理领域,如数据挖掘,信息处理,历史数据存档。我们最初可以了解如何通过Scrapy Spider(蜘蛛)爬网页。 将此代码保存为quotes_spider.py。

爱游戏

Scrapy是攀登网站并提取结构化数据的应用程序框架,通常我们称之为爬虫,这是一个优秀的Python爬虫。Scrapy爬网数据可用于各种数据分析和处理领域,如数据挖掘,信息处理,历史数据存档。我们最初可以了解如何通过Scrapy Spider(蜘蛛)爬网页。

将此代码保存为quotes_spider.py。然后执行以下命令:Scrapy Runspider Quotes.json或:Python -M Scrapy Runspider Quice_Spider.py -o Quotes.json已执行,我们获取输出文件Quotes.json。

其内容是以下JSON字符串:可以看出,每个项目包含两个字段:作者和文本。我们现在分析了此代码的执行过程。

运行剪切RunSpider Quotes_spider.py后,Scrapy会加载由Quice_spider.py此脚本定义的蜘蛛,并在爬行动物引擎中执行一些此蜘蛛定义。爬行动物引擎首先打开start_urls(http://quotes.toscrape.com/tag/humor/)中定义的链接,然后将调用默认的回调函数解析,并将响应消息响应合并到解析功能中。解析拾取功能使用CSS选择器以响应中选择报价对象,提取作者和文本字段中的作者和文本字段。

并找到页面中的下一个标记以确定相同的方法是否会爬网并解析“下一步”。您应该注意到使用Scrapy的好处:页面请求由Scrapy异步调度和处理。这意味着Scrapy不需要等待完成和处理的请求,这可以同时发送其他请求或其他服务。

类似地,请求失败或异常不会影响其他请求的执行。除了快速爬行页面之外,Scrapy还提供了一些配置项目来调节爬行行为。我们可以在请求之间设置间隔,控制每个IP的每个域名或并发请求的数量,这使得爬行行为看起来更少“粗鲁”。Scrapy甚至提供了自动调整这些参数的扩展。

当然,作为一个强大的爬行动物框架,Scrapy提供的功能远远超过这一点。内置增强CSS选择器和XPath表达式用于选择和解析HTML和XML文件,支持使用正则表达式。提供交互式shell控制台,以便于写入和调试蜘蛛。

内置多个数据输出格式(JSON,CSV,XML)和数据可以存储在各种后端系统(FTP,S3,本地文件系统)中。支持页面编码会自动检测丰富的插件,可用于处理Cookie /会话,支持功能,如HTTP压缩,身份验证和缓存,模式用户代理等。一般来说,爬虫与Python,基本上没有开放简单。

让我们一起学习。


本文关键词:爱游戏

本文来源:爱游戏-www.sogwiki.net

上一篇:苹果已经着手研发6G,将比5G快100倍,网友:5G都没用上-手机评测“爱游戏” 下一篇:没有了
相关阅读
24小时热读