lastRSS,MagpieRSS,SimplePie

为了提高sagunman的处理XML的能力,今天专门测试了几个XML的解析类。

以前SaGunman用的是magpierss,这段时间的测试中发现有些采集点的聚合分析不够全面。以至于漏掉不少文章。后来搜索了一下,另外两个XML解析类引起我的注意。

lastrss很小巧,本着实用和小巧的原则,我首先试用了lastRSS,速度非常快。但是测试中发现,lastRSS还是存在和MagpieRSS一样的问题。有些分析不出来。也漏采了一些文章。

不得已测试了一下simplepie这个大块头,光核心文件就是300多K,还不算其他小文件,我首先想到的就是有精简的余地,但是不管这么多。先测试一下能力,这个大块头果然没有让我失望,采集了很多格式的RSS和ATOM,都能完整的抓取而且分析出来。稳定性非常让人满意。可是我发现SimplePie的效率并不是让我很满意,光include这个文件就要花掉不少时间。毕竟SimplePie的文件加起来有将近500K了,而且输出,还产生了很多对我来说无用的数组。大大增加了处理时间,不出我所料,缓存文件也相当巨大。一个缓存文件居然有将近600K。后来上网查了一下资料。发现SimplePie的优点就是处理XML相当强,但是效率是这次测试当中最慢的一个。

后来想想,现在的硬件已经相当快了,lastRSS也比SimplePie快不到1秒,就没有必要去追求速度了。毕竟SaGunman这种全自动的聚合采集系统,稳定、准确才是最重要的。况且国外的服务器性能优越不说,带宽都相当充足。还是用SimplePie吧,不管怎么说还是先测试一段时间看看。

Tags: sagunman, lastrss, magpierss, simplepie, 采集

« 上一篇 | 下一篇 »

相关文章

访客评论

SaGunman,贵吖贵吖。
你在南昌上过学?
Post by noname on 2008-04-11, 11:31 AM #2
simplepie昨天刚刚接触到!
Post by phpange! on 2008-04-11, 2:58 PM #3
RSS的采集只是一瞬间的事,没有必要追求速度,sagunman一小时采集一次就够了,主要是采集量要全面,准确,采集的速度倒是不用过于求快
采集的数据估计是没有经过去重吧,重复的文章让人感觉挺郁闷的。

其实只要判断标题+来源站+时间就可以排除大量的重复数据了。

比如先标准化以上三个属性, 然后用它们的组合做个hash, 去重就变得比较简单了。
Post by sunu on 2008-04-13, 11:52 AM #5
在落伍看过这样的程序,也就是换种方式采集,真正做站不怎么实用。
小A写的程序似乎越来越没什么创意了?sablog2.0更多在模仿wordpress,但wordpress更新速度很快,程序不断完善,效率也越来越提高了,看到那么多朋友放弃了SABLOG后,我也终于放弃SABLOG,而转用wp。不得不承认,国外程序员就是好,做事情有责任,有始有终,不会说:我开发wp,不断完善WP就没饭吃,做不了其他的事情,所以用了也保障。
Post by oxei on 2008-04-13, 5:06 PM #6
希望这个程序能卖个好价钱,多卖几个哦。
Post by oxei on 2008-04-13, 5:09 PM #7
引用 sunu 说过的话:
采集的数据估计是没有经过去重吧,重复的文章让人感觉挺郁闷的。
其实只要判断标题+来源站+时间就可以排除大量的重复数据了。
比如先标准化以上三个属性, 然后用它们的组合做个hash, 去重就变得比较简单了。


我已经对标题和原文地址进行过滤了重复了的。

回复oxei,我没有说过SaGunman是要用来真正做站的啊,本来自动采集就是用来做垃圾站的。我做东西一项不讲究创意。我只讲究实用。不知道你知道WP获得上千万美元的风投吗?就算他们团队每天都捣鼓WP不做事,上千万的风投也足够他们过一辈子。而且你没有注意到WP最近更新的功能。国产BLOG很多都有了。

其实我也建议一直过着更新瘾的朋友,别用Sablog-X,因为Sablog-X更新总是不定期的。
Sablog 2.0流产了,原来在搞这个,唉。。。。
Post by Sa2.0流产 on 2008-04-14, 10:25 AM #9
不知道angel用的HTML过虑程序是什么呢?
Total:1412Next ›

发表评论

评论内容 (必填):

My E-mail