PHP开源搜索引擎

PhpDig

PhpDig
是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结
果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的
个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。

OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

Sphider

Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。Sphider非常小,易于安装和修改,已经有数千网站在使用它。

RiSearch PHP

RiSearch
PHP是一个高效,功能强大的搜索引擎,特别适用于中小型网站。RiSearch
PHP非常快,它能够在不到1秒钟内搜索5000-10000个页面。RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数
据库来存储你网站所有页面的关键词以便快速搜索。Risearch是全文搜索引擎脚本,它把所有的关键词都编成一个文档索引除了配置文件里面的定义排除的
关键词。 RiSearch使用经典的反向索引算法(与大型的搜索引擎相同),这就是为什么它会比其它搜索引擎快的原因。

Snoopy

Snoopy是一个强大的网站内容采集器。提供获取网页内容,提交表单等功能。

Sphinx

Sphinx
是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实
现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个
存储引擎插件。
Sphinx的特性:

  • 高速索引 (在新款CPU上,近10 MB/秒);
  • 高速搜索 (2-4G的文本量中平均查询速度不到0.1秒);
  • 高可用性 (单CPU上最大可支持100 GB的文本,100M文档);
  • 提供良好的相关性排名
  • 支持分布式搜索;
  • 提供文档摘要生成;
  • 提供从MySQL内部的插件式存储引擎上搜索
  • 支持布尔,短语, 和近义词查询;
  • 支持每个文档多个全文检索域(默认最大32个);
  • 支持每个文档多属性;
  • 支持断词;
  • 支持单字节编码与UTF-8编码;
  • from http://www.php-open.com/37.htm

    发表评论?

    0 条评论。

    发表评论