浏览模式: 标准 | 列表
angel 发表的文章
Written by angel on 2008, April 11, 5:58 AM
为了提高sagunman的处理XML的能力,今天专门测试了几个XML的解析类。
以前SaGunman用的是magpierss,这段时间的测试中发现有些采集点的聚合分析不够全面。以至于漏掉不少文章。后来搜索了一下,另外两个XML解析类引起我的注意。
lastrss很小巧,本着实用和小巧的原则,我首先试用了lastRSS,速度非常快。但是测试中发现,lastRSS还是存在和MagpieRSS一样的问题。有些分析不出来。也漏采了一些文章。
不得已测试了一下simplepie这个大块头,光核心文件就是300多K,还不算其他小文件,我首先想到的就是有精简的余地,但是不管这么多。先测试一下能力,这个大块头果然没有让我失望,采集了很多格式的RSS和ATOM,都能完整的抓取而且分析出来。稳定性非常让人满意。可是我发现SimplePie的效率并不是让我很满意,光include这个文件就要花掉不少时间。毕竟SimplePie的文件加起来有将近500K了,而且输出,还产生了很多对我来说无用的数组。大大增加了处理时间,不出我所料,缓存文件也相当巨大。一个缓存文件居然有将近600K。后来上网查了一下资料。发现SimplePie的优点就是处理XML相当强,但是效率是这次测试当中最慢的一个。
后来想想,现在的硬件已经相当快了,lastRSS也比SimplePie快不到1秒,就没有必要去追求速度了。毕竟SaGunman这种全自动的聚合采集系统,稳定、准确才是最重要的。况且国外的服务器性能优越不说,带宽都相当充足。还是用SimplePie吧,不管怎么说还是先测试一段时间看看。
Filed under: 杂七杂八
14 Comments
4595 Views
Written by angel on 2008, April 9, 3:17 AM
为了测试SaGunman的英文站的能力。特地采集ISO-8859-1的编码,找了一些rss全文输出的站来测试。全部抓下来了。
这个站英文名就是Cars-Eye,中文就叫车眼了,全部采集和汽车有关的咨询。所以个人不要认为Lzbest.net和4sec.org的不是全文输出以为是采集问题。只是这两个站没有采集RSS全文输出的站点而已。
近段时间将陆续上一批英文和中文的网站。全部采用SaGunman来搭建。大家可以看看SaGunman的效率和SEO效果了。
因为近段时间在完善中,所以模板都是用“骨头模板”,也就是最简单的模板。有内容输出就可以了。以后正式推广的时候。每个站都会有不同的主题模板,因为SaGunman是具备模板和语言包功能的。随便搭建任何类型的采集站。而且不管目标编码如何。都会转换成UTF-8的编码。
虽然SaGunman不是最好的自动采集系统,但!是最简单实用、有自己特色的自动采集系统。
Filed under: 我的作品
5 Comments
3684 Views
Written by angel on 2008, April 8, 6:54 AM
这两天有空又对SaGunman进行了优化和改进。
- 改进了效率(采集点设置多的话。效率一定要有保障)。
- 加强RSS输出(RSS的SEO也要做到位)。
- 改进全站的链接,全站目录结构形式链接(SEO)。
- 全站无外链(SEO)。
- 完善语言包功能(搭建任何语言的站点不再麻烦)。
其他的,就是降价了。具体可以去看看官方网站吧---http://www.sagunman.com。
不知道做垃圾站的朋友会不会喜欢。呵呵。
Filed under: 我的作品
11 Comments
3823 Views
Written by angel on 2008, April 1, 12:47 AM
SaGunman(简称SG)是一个采用PHP和MySQL构建的聚合自动采集系统.作为Sablog-X同品牌产品,SaGunman在代码质量,运行效率,负载能力,安全等级,功能可操控性和权限严密性等方面都得以保障.
嘿嘿,首先说说做这个程序的目的。有很多人想做站赚钱,但是又没有什么技术或者没有什么精力去维护。这样SaGunman就诞生了。SaGunman命名的是Sa+Gunman,Gunman是枪手的意思。当初也没有多想。觉得这个名字挺贴切的。
这个程序的原理就是这样的,添加各种rss和atom,程序就可以自动去采集。只要有人访问。就会触发条件。所以就算是搜索引擎爬。也会自动更新。而程序的SEO机制就是采用Sablog-X2.0的机制。全部目录结构。也支持自定义连接。所以搜索引擎肯定会相当喜欢。全站前台没有一个带参数的连接。
这个程序目前才是50多K的压缩包。很小。因为定位很简单。就是自动采集不带手工添加的文章系统。
SaGunman不免费发布。具体可以去看看官方网站的介绍和后台截图。
官方网站:http://www.sagunman.com
案例网站:http://www.lzbest.net, http://www.4sec.org
Filed under: 我的作品
39 Comments
7015 Views
Written by angel on 2008, March 30, 9:01 PM
为了节约时间,我们干脆把笔记本放床上用了。省的到处跑来跑去了。
为了节约成本和时间。自己在家做菜。而且只做了一道菜。两个人不用这么麻烦。不过有各种好酒。
酒很好喝。先灌一口下去。忍不住了。
吃完饭就看电视咯。。
晚上自己做宵夜。牛奶红枣炖粥。相当补啊。补到我想吐了。吃太多了。
Filed under: 生活琐碎
14 Comments
4531 Views