`
圆圆爸爸
  • 浏览: 14507 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
最近访客 更多访客>>
社区版块
存档分类
最新评论

这几天用lucene做了个搜索网站

阅读更多
使用lucene开发搜索应用已经有几年了,一直都是帮别人做搜索的项目,其中以求职和专业信息的为多,关于垂直搜索倒是没有什么新的模式出来了,这段时间,闲在家里没有事做,自己看到别人的网站也做了个搜索的应用出来了,交换技术的搜索。(http://www.soohuan.com),这里使用的是lucene作为框架,加上自己的分词算法,性能方面我觉得好可以,大家有兴趣看看,一起研究。

也给网站做了爬虫,负责到几个深圳的bbs上爬取一些信息。

我一直都在做互联网应用这块的东西,也希望和一些做互联网应用的高人一起讨论。

http://www.soohuan.com
分享到:
评论
7 楼 圆圆爸爸 2009-04-07  
zhxing 写道
圆圆爸爸 写道
zhxing 写道
很有趣的网。。^_^。。
好像有几个bug 没修复哦。

按条件搜索后,查询结果点第二页没显示数据了。。



嗨,谢谢你的意见,可以告诉我你是用的什么词搜索有bug的呀。我看日志里没有异常哟。










看下面的图片吧。
第一张是直接搜索的,第二张是点了第二页后的。刷新第二页的时候好像搜索条件自动变了。。





谢谢,仔细看看程序,确实有一定隐患,原来分页的链接没有做urlencode,这样如果有一些特殊字符,确实是有问题的。



6 楼 圆圆爸爸 2009-04-05  
好像你用的是IE6吧,我这边好像没有你这个问题哟。


5 楼 圆圆爸爸 2009-04-03  
zhxing 写道
圆圆爸爸 写道
zhxing 写道
很有趣的网。。^_^。。
好像有几个bug 没修复哦。

按条件搜索后,查询结果点第二页没显示数据了。。



嗨,谢谢你的意见,可以告诉我你是用的什么词搜索有bug的呀。我看日志里没有异常哟。



看下面的图片吧。
第一张是直接搜索的,第二张是点了第二页后的。刷新第二页的时候好像搜索条件自动变了。。




还是没有出现你这样的情况哟。你的用的什么浏览器呀。
4 楼 zhxing 2009-04-03  
圆圆爸爸 写道
zhxing 写道
很有趣的网。。^_^。。
好像有几个bug 没修复哦。

按条件搜索后,查询结果点第二页没显示数据了。。



嗨,谢谢你的意见,可以告诉我你是用的什么词搜索有bug的呀。我看日志里没有异常哟。










看下面的图片吧。
第一张是直接搜索的,第二张是点了第二页后的。刷新第二页的时候好像搜索条件自动变了。。


3 楼 圆圆爸爸 2009-04-03  
zhxing 写道
很有趣的网。。^_^。。
好像有几个bug 没修复哦。

按条件搜索后,查询结果点第二页没显示数据了。。



嗨,谢谢你的意见,可以告诉我你是用的什么词搜索有bug的呀。我看日志里没有异常哟。
2 楼 圆圆爸爸 2009-04-03  
哦,是用的搜索条件是什么呀

能不能告诉我试一下,
1 楼 zhxing 2009-04-02  
很有趣的网。。^_^。。
好像有几个bug 没修复哦。

按条件搜索后,查询结果点第二页没显示数据了。。

相关推荐

    基于Lucene的搜索策略研究

    而对于最近几天的新闻,则需要频繁更新索引。此时,可以采用时间分段的策略,将较早的数据进行一次性的索引建立,而对于最新的数据则采用增量更新的方式。 综上所述,Lucene作为一款优秀的全文搜索引擎库,在不同的...

    基于lucene.net和盘古分词的搜索

    前几天项目需要做一个站内需求,做了一个sql全文检索,老板不满意,没有办法就上网搜了一下,看到了Lucene,可是不会java,只会C,最后才发下有.net的版本,小小的研究一下看着参考文档,做了一个简单的代码,自己把...

    基于ES构建贝壳找房搜索中台.pdf

    ES,即Elasticsearch,是一个基于Lucene构建的开源、分布式、RESTful搜索引擎。它具有高性能、易扩展、可处理大量数据的特点,广泛用于全文搜索、结构化搜索以及数据分析等场景。贝壳找房作为一个房产信息服务平台,...

    nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling

    WebDB作为持久化的数据结构,存储了爬取网页的结构和属性信息,通常保留几个月至几年,以支撑整个爬取过程。它主要存储两类数据:页面(Page)和链接(Link)。页面通过URL和MD5哈希值进行索引,同时还记录出链、抓取...

    Elasticsearch 6.5.1 xpack 试用版安装教程20200701.pdf

    首先,Elasticsearch是一个基于Lucene构建的开源搜索引擎。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并在Apache许可证下作为开源发布。它是一种广泛使用的...

    nutch的源码解读和nutch入门

    Nutch 是一个开源的全文搜索引擎项目,它基于 Lucene 构建,旨在提供类似 Google 的搜索引擎服务。Nutch 的核心特点在于其分布式处理能力,它利用 Hadoop 平台进行大规模的数据处理,使得搜索引擎能够处理海量的网页...

    史上最好传智播客就业班.net培训教程60G 不下会后悔

    这个项目完全按照高访问量互联网站进行设计,通过这个项目,学员不仅可以在实战中巩固对前面学习的ASP.Net、ADO.Net、WinForm等知识的掌握,还可以掌握网站防黑、缓存、SEO、静态化、搜索引擎技术、AJAX等大型互联网...

    eclasticsearch的概要介绍与分析

    **Elasticsearch**是一个开源的分布式搜索引擎和数据分析引擎,它基于Apache Lucene构建,专为实现高效的实时、大规模、高可用的全文搜索和数据分析而设计。Elasticsearch具备快速索引、搜索以及分析海量数据的能力...

    DerbySoft可伸缩的日志分析平台实践.pdf

    - **日志存储策略**: 针对不同时间段的日志需求,采取不同的存储策略,例如30天内常用日志常开,90天内日志按需使用,90天外日志进行删除或归档。 - **资源优化**: 通过优化数据结构、索引和查询算法,减少硬件...

    延云YDB安装与使用说明书v0.21.

    50台规模的hadoop集群,几亿条数据,一个MR任务要运行几小时,每天也就能进行几百次查询。 如何能让任务的执行时间缩短到秒级响应,每天能执行千万次查询。 Hbase只接受KV形式的存储,数万个维度的大宽表,如何进行...

    延云YDB安装与使用说明书

    50台规模的hadoop集群,几亿条数据,一个MR任务要运行几小时,每天也就能进行几百次查询。 如何能让任务的执行时间缩短到秒级响应,每天能执行千万次查询。 Hbase只接受KV形式的存储,数万个维度的大宽表,如何...

    Custom-Elastic-Detection-Rules:自定义弹性SIEM检测规则的地方

    2. **查询设计**:使用Lucene或Kuery语法编写查询,确保能准确捕获目标威胁特征。 3. **阈值设定**:设置触发警报的条件,如特定事件发生的频率、时间窗口内的异常行为等。 4. **测试与优化**:在生产环境前,先在非...

    延云YDB-运行程序v1.0.1

    50台规模的hadoop集群,几亿条数据,一个MR任务要运行几小时,每天也就能进行几百次查询。 如何能让任务的执行时间缩短到秒级响应,每天能执行千万次查询。 Hbase只接受KV形式的存储,数万个维度的大宽表,如何...

Global site tag (gtag.js) - Google Analytics