java如何用lucene+nutch搭建分布式搜索引擎?(1,什么是搜索引擎?搜索引擎有几种类型)

作者:八月      发布时间:2021-08-19      浏览量:50401
java如何用lucene+nutch搭建分布式搜索引擎?1.可以用lucene,lucene现在已经发展到1.9.1版了,相当稳定,网上中英文资源很丰富,甚至关于这个工具包的书(lucene in action)都有了.如果只是做站内搜索

java如何用lucene+nutch搭建分布式搜索引擎?


1.可以用lucene,lucene现在已经发展到1.9.1版了,相当稳定,网上中英文资源很丰富,甚至关于这个工具包的书(lucene in action)都有了.如果只是做站内搜索,可以直接从读数据库中读数据,调用lucene做索引.再写一个前台查询界面,调用lucene查询索引并在前台显示结果.
想一点程序都不写的话可以参考下面2个方案
2.用heritrix + nutchwax,heritrix也是一个很成熟的crawler,他将网页下载并压缩保存到arc格式的文件中,一个arc文件一般

1,什么是搜索引擎?搜索引擎有几种类型


搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

360搜刮引擎派出大年夜量蜘蛛 也就是法度榜样爬虫去抓取大年夜量国内网站的站点经由过程连接的方法一向的爬去页面然后将抓取来的页面做筛选和整顿经由过程必定的排名机制让入索引机制。

原发布者:深蓝

分布式检索什么意思


分布式信息检索将更大范围分布的异构数据联
合起来,形成一个逻辑整体,为用户提供强大
的信息检索能力。