【转】几种C/C++开发的开源搜索引擎

(1)CLucene

CLucene是Lucene的一个C++端口,Lucene是一个基于java的高性能的全文搜索引擎。CLucene因为使用C++编写,所以理论上要比lucene快。

项目主页: http://clucene.wiki.sourceforge.net/

(2)Xapian

Xapian是一个用C++编写的全文检索程序,他的作用类似于Java的lucene。尽管在Java世界lucene已经是标准的全文检索程序,但是C/C++世界并没有相应的工具,而Xapian则填补了这个缺憾。

Xapian的api和检索原理和lucene在很多方面都很相似,但是也有一些地方存在不同,具体请看Xapian自己的文档:http://www.xapian.org/docs/

Xapian除了提供原生的C++编程接口之外,还提供了Perl,PHP,Python和Ruby编程接口和相应的类库,所以你可以直接从自己喜欢的脚本编程语言当中使用Xapian进行全文检索了。

  • 项目主页: http://xapian.org/

    (3)DataparkSearch

    DataparkSearch 搜索引擎是一个 C 语言的全功能的开源基于Web的搜索引擎

    支持来自 http, https, ftp, nntp, and news URLs, htdb virtual URL 的数据,内嵌支持数据库、 text/html, text/xml, text/plain, audio/mpeg (MP3), and image/gif 等格式数据。

    项目主页: http://www.dataparksearch.org/

    (4)PonySE

    PonySE是一个高速的, 灵活的, 小型web搜索引擎, 使用C/C++开发. PonySE的每一个模块都尽量独立, 这意味着你可以单独使用其中的一个你觉得有用的模块。

    项目主页: http://gforge.osdn.net.cn/projects/ponyse/

    (5)FirteX

    FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台。 FirteX 的主要目标是研究文本索引的快速构建 (Index Construction) ,动态文档集的索引维护 (Index Maintenance) ,短语查询 (Phrase Query),Top-k 查询的快速处理 (Top-k Query Process) 以及各种检索模型( IR Model )等。高性能和灵活的架构也使 FirteX 可以应用在产品搜索,桌面搜索,站内搜索,新闻搜索, Blog 搜索,学术搜索以及大规模搜索引擎等领域中。

项目主页:http://www.firtex.org/

 


http://www.niftyadmin.cn/n/1535877.html

相关文章

matlab svmclassify,关于matlab2018a版本错误使用 svmclassify 分类器

当我们照常使用分类器函数svmclassify时,2018版的matlab会报出以下错误: 解决办法: 1,下载libsvm(一般下载最新版本就ok了)包,并将其添加至matlab的toolbox文件里. 并打开matlab编辑器,主页 / 设置路径 / 添加并包含子文件夹 / 加载libsvm包: 2. 编译toolbox/libsvm/mat…

数组中最大子数组之和

题目 [1, -2, 3, 5, -3, 2] 返回&#xff1a;8[0, -2, 3, 5, -1, 2] 返回&#xff1a;9[-9, -2, -3, -5, -3] 返回&#xff1a;-2 主要程序 int MaxSum4(int *A, int n,int &beg,int &end){if(ANULL||n<1){cout<<"error input"<<\n;exit(0);}…

开源搜索引擎研究

本文来自CSDN博客&#xff0c;转载请标明出处&#xff1a;http://blog.csdn.net/shupili141005/archive/2009/11/21/4842174.aspx 搜索引擎并不是对互联网进行直接搜索&#xff0c;而是对已抓取网页索引库的搜索&#xff0c;索引在其中扮演了最为重要的角色&#xff0c;索引算法…

Linux教程——Linux /etc/shadow(影子文件)内容解析(超详细)

/etc/shadow 文件&#xff0c;用于存储 Linux 系统中用户的密码信息&#xff0c;又称为“影子文件”。 前面介绍了 /etc/passwd 文件&#xff0c;由于该文件允许所有用户读取&#xff0c;易导致用户密码泄露&#xff0c;因此 Linux 系统将用户的密码信息从 /etc/passwd 文件中…

oracle 查看表结构乱码,Oracle 查看表结构

-- 查看表结构(根据表名称)SELECT T.COLUMN_NAME, T.DATA_TYPE, T.DATA_LENGTH, CASE T.NULLABLE WHEN N THEN 否 WHEN Y THEN 是 END NULLABLE, C.COMMENTS FROM USER_TAB_COLUMNS T,USER_COL_COMMENTS C WHERE T.TABLE_NAME C.TABLE_NAME AND T.COLUMN_NAME C.COLUMN_NAME …

【转】搜索引擎/网络蜘蛛程序源代码

国外开发的相关程序1、Nutch 官方网站 http://www.nutch.org/中文站点 http://www.nutchchina.com/最新版本&#xff1a;Nutch 0.7.2 ReleasedNutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具&#xff0c;可以建立自己内部网的搜索引擎&a…

在 Laravel 5 中使用 Laravel Excel 实现 Excel/CSV 文件导入导出功能

1、简介 Laravel Excel 在 Laravel 5 中集成 PHPOffice 套件中的 PHPExcel &#xff0c;从而方便我们以优雅的、富有表现力的代码实现Excel/CSV文件的导入和 导出 。 该项目的GitHub地址是&#xff1a; https://github.com/Maatwebsite/Laravel-Excel 。 本文我们将在Laravel中…

oracle tmp文件怎么打开,Oracle中的临时文件

今天学习到了oracle的临时文件。原来在linux上使用的临时文件是稀疏的文件。即创建一个2G的文件。并不会立即占用2G的空间。而是随需要而分配。最多分配2G。在tom的深入数据库体系结构中其提到一个2G的临时文件占用了128K的数据&#xff0c;但是经过我的实验。验证&#xff1a;…