关于Scrapy爬虫项目运行和调试的小技巧(下篇)
前几天给大家共享了关于Scrapy爬虫项目运营和调试的小技巧上篇,没有再也上车的小伙伴可以砍超链接看一下。今天小编之后沿着上篇的思路往下伸延,给大家共享更加简单的Scrapy项目调试技巧。
三、设置网站robots.txt规则为False一般的,我们在运用Scrapy框架捕捉数据之前,必须提早到settings.py文件中,将“ROBOTSTXT_OBEY=True”改回ROBOTSTXT_OBEY=False。在未改动之后settings.py文件中配置文件爬虫是遵从网站的robots.txt规则的,如下图右图。
如果遵从robots.txt规则的话,那么爬取的结果不会自动过滤器掉很多我们想的目标信息,因此有适当将该参数设置为False,如下图右图。设置好robots.txt规则之后,我们之后可以捉到更加多网页的信息。
四、利用Scrapyshell展开调试一般来说我们要运营Scrapy爬虫程序的时候不会在命令行中输出“scrapycrawlcrawler_name”,细心的小伙伴应当告诉上篇文章中创立的main.py文件也是可以提升调试效率的,不过这两种方法都是必须从头到尾运营Scrapy爬虫项目,每次都必须催促一次URL,效率十分较低。运营过Scrapy爬虫项目的小伙伴都告诉Scrapy运营的时候比较较快,有时候因为网速不平稳,根部就无法动弹。针对每次都必须运营Scrapy爬虫的问题,这里讲解Scrapyshell调试方法给大家,可以事半功倍噢。
Scrapy给我们获取了一种shell模式,让我们可以在shell脚本之下提供整个URL对应的网页源码。在命令行中展开运营,其语法命令是“scrapyshellURL”,URL是所指你必须捕捉的网页网址或者链接,如下图右图。该命令代表的意思是对该URL展开调试,当命令继续执行之后,我们就早已提供到了该URL所对应的网页内容,之后我们就可以在该shell下展开调试,很久不必每次都继续执行Scrapy爬虫程序,发动URL催促了。
通过shell脚本这种方式可以很大的提升调试的效率,明确的调试方法同爬虫主体文件中的表达式语法完全一致。荐个栗子,如下图右图。
将两个Xpath表达式所对应的选择器放在scrapyshell调试的脚本下,我们可以很确切的看见萃取的目标信息,而且省却了每次运营Scrapy爬虫程序的反复步骤,提升了研发效率。这种方式在Scrapy爬虫过程中十分常用,而且也十分的简单,期望小伙伴们都可以掌控,并且积极主动的为自己所用。
本文关键词:金沙官网首页,关于,Scrapy,爬虫,项目,运行,和,调试,的,小
本文来源:金沙官网首页-www.doghillfarmvt.com
同类文章排行
- 金沙官网首页:中甲综述-陕西客场3-0辽足登顶 梅县恒丰紧随其
- 贵州恒丰取三连胜登榜首 郝海涛:盼多支持本土教练:金沙官网
- 行走于民族与国际之间--胡社光
- 安德鲁沙尼加北大讲座预告
- 官渡古镇保护更新方案获批
- 荷兰最大的屋顶花园阿尔梅勒市曼德拉景观公园
- 扎哈-哈迪德建筑事务所设计世界上第一个木头足球体育场
- 2020年全国民营企业招聘月活动正式启动_部门政务
- 城市规划腾出风走廊驱雾霾需要几十年
- 昆明:环滇流域将建森林公园
最新资讯文章
- 土人设计入围美国“设计沃勒溪”竞赛入围名单揭晓
- 英建筑师设计树上帐篷可容纳五吨货物
- 北京国际设计三年展中的新具象设计
- 澳大利亚堪培拉新会议中心的最新设计已公布
- 广州推出全新城市形象logo
- 福建建瓯:公建民营破解养老难题_图片新闻
- 加大环保投入既保发展又利民生
- 府东社区:提振精气神 喜迎十九大
- ‘金沙官网首页’足协罚单:中能未执行FIFA决议 被扣除6个联赛积
- 冯克军作品仙乐飘飘
- 广州:天河智慧城试点“海绵城市”
- WYDF2018|新青年,让我们聊聊该如何与未来相处!
- 福建沿海强降雨 中南部水库增蓄显著
- 失职致被查贪官自杀承办人一律先停职-金沙官网首页
- ‘金沙官网首页’0-34!中甲升班马遭血洗 进球多到足协表格都填
- 压力和魔咒导致首战输球 绿城冲超赛季艰难起步-金沙官网首页
- 四川俱乐部集体发文默哀:向英雄致敬 一路走好!:金沙官网首页
- 金沙官网首页_中乙队翻译竖中指 领队高喊谁买球谁死妈 球迷
- 美国芝加哥MARYBARTELME公园景观设计
- 美上天!太阳马戏团利用3D打印服装