博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
实时搜索的五个开源解决方案
阅读量:5039 次
发布时间:2019-06-12

本文共 688 字,大约阅读时间需要 2 分钟。

实时搜索是去年提的比较多的一个功能,今年似乎很少再有人去以这个为噱头宣传了,估计各家公司都实现了自己的实时搜索。目前常见的做法就是索引分两份,内存一份,硬盘一份,所有在线的更改索引操作都在内存中进行,定时或者定量的将内存中的数据合并到硬盘上。

这篇ppt有关于实时搜索实现难点的更详细介绍:

开源实时搜索引擎的现状是轻量级的项目无法应对大数据,而能够应付大数据的解决方案学习成本比较高,有时学习曲线会异常陡峭。

  • 使用redis:虽然是在讲auto complete,但是可以根据类似的思路去实现全文搜索,适用于数据量较小的场合(短文本,10万左右)。当数据量增大时可以用。
  • 基于xapian开源实时搜索引擎: 
  • lucene的near real time search:关于lucene实时搜索的帖子很多,lucene社区也很成熟,所以使用lucene实现实时搜索是个不错的选择。
    • 《lucene in action》3.2.5 Near-real-time search
  • :linkedin的开源实时搜索引擎,twitter,yammer和网易都在使用,这个项目很诡异,可能推广的不够,感兴趣的人不多,所以缺少文档和demo,想琢磨只能去看测试,另外,由于它基于lucene实现的,如果没有lucene的基础,直接去研究zoie的话将是一场噩梦。
  • :linkedin收购的一个搜索引擎公司,之后将它开源了,估计是一次人才收购,近半年没有更新了。

 

转载于:https://www.cnblogs.com/nanpo/archive/2012/09/15/2686960.html

你可能感兴趣的文章
iterable与iterator
查看>>
返回顶部(动画)
查看>>
webpack+react+antd 单页面应用实例
查看>>
Confluence 6 SQL Server 数据库驱动修改
查看>>
Confluence 6 通过 SSL 或 HTTPS 运行 - 备注和问题解决
查看>>
【47.76%】【Round #380B】Spotlights
查看>>
Git(使用码云)
查看>>
分享Java web 开发必游之路
查看>>
IIS初始化(预加载),解决第一次访问慢,程序池被回收问题(转载)
查看>>
Bean的Scope
查看>>
【BZOJ】3142: [Hnoi2013]数列
查看>>
http初探
查看>>
elasticsearch的安装
查看>>
__next__()
查看>>
爬取:中国大学排名
查看>>
聊天室(C++客户端+Pyhton服务器)_1.框架搭设
查看>>
UpdatePanel 内控件 更新“外的”控件【转】
查看>>
mybatis中>=和<=的实现方式
查看>>
Python面向对象03/继承
查看>>
java序列化和反序列化
查看>>