• Mustru


    Mustru是一个桌面搜索引擎,基于Lucene、Wordnet、Lingpipe、GATE和Berkeley DB等开源项目开发。能够对本地文件系统的多个目录进行索引,然后使用一个Web界面查询该索引。

    Mustru提供的功能包括:

       1. 从HTML、PDF和DOC等40多种常见的文件类型文件中抽取文本。
       2. 检查重复的内容。
       3. 使用GATE找出文本中的一些实体(人,地名和组织/机构)。
       4. 支持多线程索引、归类和实体抽取。
       5. 能够修复和恢复索引文件。
       6. 找出相似的文档。
       7. 支持接受用自然语言提问,然后返回相应答案列表。
       8. 使用一个预先定义好的分类法将文本内容归类成体育、商业、健康等领域。


    Mustru is a desktop search engine written in Java using Lucene, Lingpipe, and the Berkeley DB . Create an index from a set of directories on your local filesystem and use the Web based interface to query the index. Submit questions in natural language or boolean queries using keywords.

    点击次数   官方主页【官方主页】   下载地址【下载地址】

    网友留言/评论

    我要留言/评论

    相关开源项目

    代码搜索引擎 i.So.Code: 北京大学Asseters小组开发的新一代代码搜索引擎。目前iSoCode可以检索大约200个优秀(是真的优秀的~)的开源项目,包括jdk、Lucene、log4j、jdom、commons- lang、commons-cli等一大批大家经常用到的开源项目在iSoCode中都可以找到,而且可以直接从iSoCode上下载项目源码、jar包 以及javadoc。iSoCode的另外一大亮点是它可以同时帮你检索你想要的API的具体实现细节、使用的实例、javadoc文档以及在CSDN和百度上关于这个API的讨论内容等四大方面的信息!这么做可以再很多情况下免去了在百度上检索再去找源代码的繁琐细节。
    起点R3企业级搜索引擎:   起点R3企业级搜索引擎是起点软件提供的企业搜索解决方案,支持企业环境下的数据访问控制(ACL),能够通过定义用户数据访问权限来控制检索数据的安全。
       R3是一个强大的,高性能的JAVA企业级搜索引擎产品,R3构建于Solr和Lucene之上,集成了POI、PDFBox和Apache Tika等第三方开源项目,在R3企业级搜索平台上,你可以搜索出你企业所有相关的内容包括网站、邮箱、ECM, CRM。R3使用一中新的集群模式来实现分布式和集群功能,通过扩展计算能力,R3能够支持上千G文档,完成复杂的并行运算;R3能够以集群模式运行来提高系统的可用性。它支持超过15种语言的多语言搜索,能够集成文档自动分类和聚类功能,能够为文档自动、智能的添加标签和关键字。可以通过采集器为索引库定制数据来源,采集器通过插件的方式扩展。默认提供数据库、邮件、本地文件系统、网络文件系统、FTP、Domino、CSV、Access的采集器。R3基于Solr之上,所以在Solr中的层面搜索、同义词等都被完整的保留了下来。R3通过作业调度系统实现了任务的自动化采集、能够增量索引,支持数据更新,能够通过可视化的方式对索引字段进行管理。R3具备用户和用户组管理,R3可以对数据类型定制,支持分词器、过滤器、缓存管理。R3能够很容易的集成Hadoop和HBase。此外它还开发多种编程语言的API包括:Ruby、PHP、Java、Python、JSon、C#、ColdFusion。
    Solandra: Solandra是一个实时分布式搜索引擎,基于Apache Solr和Apache Cassandra构建。其核心,Solandra是Solr与Cassandra的一个紧密集成。这意味着Solr与Cassandra将在单个JVM中同时运行,文档(Documents)采用Cassandra的数据模型进行存储和分发。    1、提供开箱即用的Solr功能包括:搜索、faceting、高亮等。    2、通过Cassandra管理复制,分片,缓存和压缩。    3、Multi-master (可以读写到任何节点)。    4、能够很方便添加新的SolrCores并且不需要重新启动整个集群。
    Bobo: bobo-browse是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。
    比如说搜索电脑,可以得到cpu是intel的有几条命中记录,cpu是amd的有几条命中记录。收录时间:2010-11-18 11:41:18
    ElasticSearch: ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。
    Nutch:Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
    YaCy:YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.
    Lucene:Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。
    XQEngine:XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合.有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.
    Zilverline:Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。