织梦采集侠强大的功能有很多,就连指定站点的采集方式都有两种,一种是根据目标站点提供的RSS进行采集,另一种是页面监控采集,匹配网站页面URL规则,然后进行采集。
只要获取到文章页面URL,插件就能通过页面智能分析算法,将文章标题,正文内容提取出来,无需编写麻烦的采集规则,而且又能实现定时自动采集文章,经过伪原创seo后发布,被广泛应用在使用织梦cms搭建的网站上,为站长提供帮助。
不少站长向我反映不懂得怎么查找网站RSS,查找RSS其实很简单的,无非就两种方法,第一种就是通过浏览页面查找有没有RSS相关的链接或者图标,点击进去一般都是RSS;另一种在页面上看不到明显的RSS链接或者标记,但可以通过查看源码获得,打开源码,搜索一下RSS,再仔细查看一下是否是RSS源,而不是其他和RSS有关的内容。
比如我要采集百度新闻搜索()中关于“织梦”这个关键词的新闻内容,可以进去百度新闻搜索页面,输入“织梦”点击百度一下,如下图:

百度新闻搜索不像百度页面搜索那样什么内容都有,百度新闻搜索,只搜索出来是新闻源网站里面和搜索关键词相关的内容,质量相对较高。
查看这个源码获取RSS地址,可以看到这段代码,其中href之后的,就是RSS地址了,但他没有给出绝对地址,只显示了一个相对地址,不过这些问题难不倒我们站长,我们可以将相对地址补充完整,完整的RSS地址是:
?word=%D6%AF%C3%CE&ie=gb2312&cl=2&rn=20&ct=0&tn=newsrss&class=0
然后在插件设置里面,输入这段RSS地址,进行采集就行。具体RSS采集使用方法可以通过这篇教程《织梦采集侠RSS采集/页面监控采集使用方法》进行学习。
通过RSS采集的方式,可以采集到最新包含该关键词的新闻,做地区新闻站点,做行业站点,只需要输入地区或者行业的名称就能采集到相关的内容,而且还能定时采集,无需站长进入后台点击采集,无需打理网站每天都能保持更新。
www.14015.com