标签存档: 采集

使用cygwin下的wget采集特殊的网页内容

需要采集一批数据,是一网站上的产品信息,产品本身信息很简单,使用火车采集器轻松实现;但产品价格数据是ajax响应数据,使用firebug + live http headers抓到该请求,并测试重发,发现该ajax请求必须带一个http头“X-Requested-With: XMLHttpRequest”,没有就返回404错误。
gnu/linux下有大量的杀手级工具,这种情况,要动用其中的wget. wget有很多参数,这里需要使用其中两个:-O,–header. 其中:
-O, 把请求结果保存到指定文件,但我们要使用的却是一个特殊的值:“-”,它可以将结果输出到标准输出
–header, 结http请求加上自定义的头(http header)
阅读全文——共1836字

继续阅读 »

WordPress采集插件大汇总/强烈推荐

目前WordPress已经成为主流的Blog搭建平台,插件和模板众多,易于扩充功能。下面推荐一些有用的采集插件,方便大家做采集站,节省人力时间成本,更好的自动更新自己博客内容。尝试挑选一款自己喜欢的自动采集插件试试吧,如您发现了哪些更好用的插件想推荐给更多朋友,请来这里跟帖 http://www.path8.net/tn/archives/5363
这里只介绍wordpress 自动采集插件的名称,具体安装使用方法请大家摸索一下,都不复杂,这时就不详解了。
1、Guest Blogger
Guest Blogger这款插件试用了下,感觉还不错,最大的缺点就是文章来源单一。它可以基于一个关键字或几个关键字采集著名的EzineArticles的相 关文章(比如文章标题中含有此关键字,文章内容中包含此关键词,文章标题内容中包含此关键词,作者名包含此关键词,这些可以按自己的需求设置),或 EzineArticles某个类别下的文章。你可以设置直接发布或先创建草稿,自己编辑后再发布。还可以设置采集的频率等等。这款插件的设置比较简单, 不再一一介绍。
阅读全文——共3441字