首页 SEO优化 做SEO怎么用好scrapy

做SEO怎么用好scrapy

做SEO怎么用好scrapy?python的爬虫框架,scrapy,收集效率相当高,一只蜘蛛跑一万url收集题目之类的10分钟不到就搞定了,当然了,不妨同时跑多只蜘蛛。 首先是scrapy的安装教程,就不搬砖了,直接贴上位置: http:/…

SEO怎么用好scrapy?python的爬虫框架,scrapy,收集效率相当高,一只蜘蛛跑一万url收集题目之类的10分钟不到就搞定了,当然了,不妨同时跑多只蜘蛛。

首先是scrapy的安装教程,就不搬砖了,直接贴上位置:

http://blog.csdn.net/pleasecallmewhy/article/details/19354723

而后是新建名目标教程:

http://blog.csdn.net/pleasecallmewhy/article/details/19642329

之后就不妨收集了。

在Scrapy里,运用的是叫做 XPath selectors的机制,它基于 XPath表明式。所以,假如要收集仍然要了解下Xpath(正则也行)。之后的事情就简单多了。底下融合自身写的一只爬虫来吧,这个应当是属于scrapy简单的爬虫了:

baidu_spider.py 取排名,题目,快照,和url(暂未引入其余模块获得真切url),当然,想取描述相同的,再写一个xpath法则,并在items.py中对应的肋下增添dec=Field()能够(拜见新建名目标教程)。

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import BaiduItem

class BaiduSpider(Spider):

name = "baidu"

allowed_domains = ["baidu.com"]

start_urls = ["http://www.baidu.com/s?q1=%BD%F0%B8%D5%C9%B0"]

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//div[@class="result c-container "]&#039😉

items = []

for site in sites:

item = BaiduItem()

item['num'] = site.re('(id="d{1,3}&quot😉&#039😉

item['title'] = site.xpath('h3/a/text()&#039😉.extract()

item['link'] = site.xpath('h3/a/@href&#039😉.extract()

item['date'] = site.re('�(d{4}-d{2}-d{2})�&#039😉

items.append(item)

return items

复制代码

运转号令:

json数据:

上边是一个简单的使用,在此基本上,咱们将以上代码改进,批量获得一些内容:

以爬某站的spider为例:

1、url.txt存储url,一行一个。读取后作为参数传给start_urls。

2、咱们要取的是他的全部h1,那么修正xpath表明式。

3、url.txt需求放在根目次下,蜘蛛也是在根目次下号令行运转。运转的号令为scrapy crawl mouzhan -o items.json -t json.(这里咱们保存成功了json格式,文件名叫做items.json)

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import MouzhanItem

class MouzhanSpider(Spider):

name = "mouzhan"

allowed_domains = ["mouzhan.com"]

start_urls = open('url.txt','r&#039😉.readlines()

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//h1/text()&#039😉.extract()

items = []

for site in sites:

item = MouzhanItem()

item['h1'] = site

items.append(item)

return items

复制代码

收集到的数据:

后输送的文件是json格式(也不妨存储为csv等格式),编码是unicode,收集的中文在读取时处理下能够。测试的是一只蜘蛛10分钟1万url。不妨同时运转多只蜘蛛。这里没有研究ip代理,ua那些器材,不晓得是收集的网站没有限制仍然scrapy内部有处理,不过查了下,scrapy不妨自行配置代理的。

scrapy也只是刚接触,并未有更深的研讨,可是相对而言收集的速度相当快,我用beautifulsoup分析html收集的脚本要运转2个半小时才能收集1万数据,应当是不用给定url,在写的过程中制订法则就不妨让蜘蛛去爬的。

至于scrapy在seo上的使用,我也说不走出多少,起码用这个器材用来查排名应当不慢(杀鸡焉用牛刀),批量查收录之类的,收集效率也高,至于收集谁,收集回来的器材怎么用,看你自身了。ps(轻喷:原本我也不晓得学这器材做什么,反正我是小企业站,暂且不晓得用来做什么。)

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

为您推荐

企业的新网站要如何去做Seo优化。

如今互联网发展迅速,大多数企业都不止一两个网站,那么作为SEO优化技术人员来说,当面对一个新的企业网站时应该如何去做好优化,从哪些方面去入手呢?今天就告诉大家新网站应该从哪些方面去做SEO优化? 新网站要怎…

进行SEO优化时需注意的6大点。

SEO优化现在已经成为网络营销中不可或缺的一环,可以说是每个网站的必修课程,但很多人投入了大量的时间和精力却没有达到预期的效果,SEO是一个渐进的过程,如果最初的方向是错误的,很难实现他们的预期目标,特别是…

一个新网站如何做好SEO优化。

对SEO新手来说,在进行新站点的SEO优化时,可能会遇到很多问题,而这些问题在短期内不能解决,那么,新网站如何做SEO优化? 1、确定网站关键词 要做好网站优化,首先要确定好网站关键词。选关键词时,要选择适合网站…

企业网站竞争的秘诀:网站seo的优化。

SEO(Search Engine Optimization)意为搜索引擎优化,属于营销手段的其中一种。大多数的企业在做网站时,通常会遇到网站没有排名,客户搜索不到等问题,企业出现了这种营销问题,归根结底都是因为公司的SEO没有做到…

企业站SEO优化分析,如何确保SEO排名可控。

我们在做SEO的过程中,总是会思考一个问题ROI的重要性,因此对于一个相对成熟的SEO公司来讲,通常在开展业务的同时,都是希望自己的SEO项目是可控的。 但我们知道,实际上想要试图让SEO可控是相对比较困难,因此,有…

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

返回顶部