分布式搜索引擎(做分布式爬虫和搜索引擎对于服务器配置有什么要求)

作者:八月      发布时间:2021-08-28      浏览量:94102
分布式搜索引擎1. 分布的信息获取和计算以及对此进行的数据统一 这里面包括爬虫/或者相应的数据获取机制的分布, 对信息进行加工的统一管理 2. 数据处理后的分布存储和管理 主要是文件的准确定位和更新,增加,删除,移动的机制

分布式搜索引擎



1. 分布的信息获取和计算以及对此进行的数据统一 这里面包括爬虫/或者相应的数据获取机制的分布, 对信息进行加工的统一管理 2. 数据处理后的分布存储和管理 主要是文件的准确定位和更新,增加,删除,移动的机制


做分布式爬虫和搜索引擎对于服务器配置有什么要求


分布式爬虫和搜索引擎对于服务器配置有什么要求?
做分布式爬虫和搜索引擎对于服务器配置有什么要求?
实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。
我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没完全爬完,感觉很慢。
服务器配置如下:
- 服务器A:主节点CPU 4核,内存32G,20Mbps(峰值)公网带宽(按流量)
- 服务器B,C:CPU 1核,2G

目前基于 Redis 的搜索引擎有哪些


Redis适合作为高速缓存服务器,不适合做DB,更不适合存储海量数据.
在SNS应用方面相对于传统的memcache来说有很多优势,个人认为是作为缓存的首选.

1. elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。
2. 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。
3. elasticsearch是一个建立在全文搜索引擎 apache lucene 基础上的搜索引擎,可以说lucene是当今最先进,