0

1

回答

585 浏览

求帮助,APP内部的一个搜索功能实现[已解决]5

公司正在开发一款app,主要功能是小说阅读,产品要求能根据书名、作者或者摘要搜索相关的小说,数据量大约在500W左右,而且每天都有新增;小弟以前只接触过数据库,但是由于有多种搜索场景,考虑了一下数据库无法满足需求,通过浏览各大技术论坛了解到搭建一套搜索引擎可以解决这个问题。 但是对搜索引擎完全不了解,求路过大神指点一二~~~,感激涕零~~~~~

2015年1月12日 10:47
0

6

回答

1744 浏览

实现网络爬虫与搜索引擎技术都需要配备什么样的资源?[已解决]0

公司准备做一个关于搜索引擎方面的东西,但是本人对这块不是熟悉,都需要配备什么样的资源,比如人才,软件(开源或商业的,开源优先),硬件,网络等,请大家不吝赐教。 大致的要求是能有一个爬虫去一些网站爬数据抓取回来,然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理,方便用户使用。我们只是要求搜索某一行业的数据,而不是像百度这样可以搜索全网的数据。

0

0

回答

1520 浏览

lucene IndexReader.open(dir) 报错[已解决]5

请问大师,下面的错误是怎么导致的? java.security.AccessControlException: Access denied (java.lang.reflect.ReflectPermission suppressAccessChecks) at java.security.AccessController.checkPermission(AccessController.java ...

0

0

回答

107 浏览

搜索引擎原因[已解决]0

谁有这方便好的文档发给我一份谢谢了

2012年9月25日 09:59
0

2

回答

216 浏览

十亿条数据构建搜索服务[已解决]5

请问各位大牛: 十亿级别数据如何构建搜索服务? 采用什么样的技术架构比较妥当?

2012年7月22日 21:49
0

3

回答

363 浏览

luncene查询的时候内存溢出[已解决]10

使用lucene创建了将近22G的索引,查询的时候经常内存溢出,由于调用的是别人的接口(自己对lucene不熟悉),有没有什么优化的方法避免内存溢出,类似数据库后台分页这种方法呢?

2012年1月07日 17:33
0

2

回答

197 浏览

百度为什么不收录我?[已解决]5

经过一个多月的努力,我的网站重庆PHP终于上线了... 然后天天就开始关注百度和Google的收录情况,Google倒是不错每天都有蜘蛛过来,排名也从第七页一路上升到第一页... 百度的情况很不乐观,百度除了上线后的第二天,也就是2011-10-11号来抓了两页后就本就没有动过,也没有蜘蛛过来... 也到百度上提交过网站了,可就是没有蜘蛛过来。 不懂SEO,请各位大大帮忙看看,我的网站哪儿有问题 ...

2011年10月26日 15:34
0

0

回答

174 浏览

垂直搜索是怎样实现后台数据库的更新的?[已解决]3

我们知道网上的信息是不停的在变化的,那么我的垂直搜索引擎后台的数据库信息也是要跟着它变化的,我想请问怎样实现垂直搜索数据库信息更新的,原理是什么?

2011年9月07日 10:22
0

6

回答

389 浏览

域名取名,中文是“北京完美空间家具有限公司”,家具生产销售的,请问域名怎么取才能好记且利于SEO优化?[已解决]10

本来想好了 51jiaju.com、360jiaju.com、perfectspace.com,但这些都已经被别人注册了,所以想请大家帮忙给想个好点的域名,谢谢。 还有,域名中最好包含jiaju,这样被搜到机率大一些。

2011年8月28日 23:59
0

1

回答

372 浏览

heritrix在爬取数据的时候遇到死链会怎么样?[已解决]5

heritrix不是一开始就能设置seeds初始链吗,比如我就设置了一个,那么heritrix在沿着这个url爬的时候遇到死链会怎么样? 如果我seeds在一开始设置了多个url,而这些url里面本身就有一些是死链,那对hritrix爬数据又有什么影响? 最后一个问题,我做的是宁波地区的通用搜索引擎(只局限于搜索宁波地区的信息),那么heritrix该以什么思路拓展呢?请老师们,能不能给一个思路?

2011年8月23日 09:36
0

4

回答

1504 浏览

关于使用网络爬虫爬数据的问题? 请各位老师进[已解决]5

我要做一个通用搜索引擎,但是这个通用搜索引擎是只关心宁波地区的所有信息的。我先在有一个网站:http://www.sosoj.net/so/index.html里面列出了很多关于宁波的网站,我打算用heritrix爬虫去爬这个网站,但是我有一个问题,就是如何定制爬虫,使他不要爬到宁波信息以外的链接,因为一不小心爬到其他的链接,就很有可能停不下来了,本人还是个新手,希望有经验的老师能给学生多提点意见和 ...

2011年8月19日 23:57
0

3

回答

149 浏览

关于通用搜索引擎 新手问题 请各位老师进!!!![已解决]5

我做过垂直搜索引擎(专门搜索手机的),现在我要做一个只关心某一个地区(比如宁波)的通用搜索引擎,该搜索引擎只能搜索到该地区的信息,但是我从垂直搜索到通用搜索这个过程中,有一个问题不知道该怎么处理。 简单的说,在解析网络爬虫爬下来的网页时,通用搜索引擎是怎样把各种类型的网站通过解析程序解析成统一的文本信息,最后提供分词器分词??? 详细的描述我的问题:我前面说过,我过了个手机的垂直搜索,我的数据源是这 ...

2011年8月18日 21:51
0

1

回答

617 浏览

关于通用搜索引擎[已解决]5

我做过一个手机的垂直搜索引擎,现在老师又叫我做一个通用的搜素引擎,就像google这个的,但是有一个要求就是,我做的搜素引擎是局限在一个地区里面的,也就是说我的搜索引擎是只能搜索一个地区里面的所有信息的,比如宁波的。但是垂直搜索引擎和通用搜索引擎的最大的区别就是,垂直是只处理一种信息的,都有一致的格式,但是通用搜索引擎是处理五花八门的信息,我该怎么使spider只爬宁波地区的信息,爬下来以后我该怎么 ...

2011年8月15日 16:48
0

1

回答

266 浏览

如何通过sphinx 查到 热门词,也就是 出现频率最高的词?[已解决]5

如何通过sphinx 查到 热门词,也就是 出现频率最高的词? 用一下方法 可以逐个 查询 ,可怜啊 ./indextool --dumphitlist info_2011_idx 电缆 | cut -d" " -f 1 | sort -u | wc -l 有更好的办法,直接获得所有的关键词么?

2011年6月27日 02:25
0

0

回答

2279 浏览

关于solrj多字段多值查询的问题[已解决]3

我要实现类似select * from table where field1 = value1 and (field2 = value2 or field3 = value3)的查询,用solrj的api怎么弄?SolrQuery只有一个setQuery(String query)方法,难道要自己拼接字符串传进去吗?有没有类似lucene的BooleanQuery、TermQuery等等查询对象来处 ...

2011年6月22日 13:13
0

1

回答

588 浏览

nutch出现failed code 403错误,我找不到原因?[已解决]10

做毕业设计。打算做一个校园网的搜索引擎。 下载了nutch1.2,然后做了一些配置试用了一下。 第一步:在解压后的nutch1.2目录里面新建urls目录,然后在其目录下新建url.txt文件,然后在文件中写入我 要抓取网站的网址,http://www.ujs.edu.cn/ 第二步:在nutch1.2目录下新建logs目录,拿来存放日志文件。然后在下面新建test.log空白文件。 第三 ...

2011年4月18日 20:32
0

0

回答

172 浏览

lucene组合词的检索[已解决]20

比如我一句话分词后有3个词 A1,B1,C1。Ai,Bi,Ci(i>=2)分别是A1,B1,C1的同义词,(比如A1有同义词A2,B1有同义词B2和B3,C1有同义词 C2 C3)。要想检索到包含Ai,Bi,Ci的记录,但不能同时包含2个或2个以上Ai(或Bi或Ci),而且Ai,Bi,Ci不一定要都要出现,但出现越多得分要越高。比如含有( A1,B2,C1 )的得分比(A1,B1),(B2,C ...

2011年4月13日 20:48
0

1

回答

247 浏览

关于建立一个开源搜索引擎的选择[已解决]30

这两天公司老总想让我写一份报告是关于搜索引擎的,公司需要做一个搜索引擎,我在网上看了一下开源的代码,Lucene只是一部分,而nutch则比较的完整,我想问一下我该怎么搭建搜索引擎的环境,比如索引功能用什么,爬虫用什么,还是说就用nutch,另外我们公司用的数据库时mysql,主要是中文搜索

2011年3月31日 16:13
0

0

回答

159 浏览

我的虚拟空间遭到攻击了,被关闭了2天了~~能帮我看看嘛??[已解决]5

有没有高手在呢??能帮我看看我的网站到底怎么啦??? 我的网站:http://www.52iphone8.com 虚拟空间被关了2天了。今天才被开通,技术人员让我去看日志分析,我又看不太懂,发现一个tencenttraveler使用很多流量呢。 这到底是受到什么攻击了呢。有没有什么办法预防呢?? 高人能不能够帮帮我呢~~~~再次谢谢了~~~

2011年3月25日 16:31
0

1

回答

154 浏览

一个seo程序的求解[已解决]3

我现在转做seo了,想找到一个工具来完成对于博客文章的发送功能。当然这个博客是我指定的,大家什么办法吗? 495924217@qq.com是我的邮箱,如果要钱做或是买都可以.

2011年3月13日 11:53

本周活跃投票用户

最新评论

Global site tag (gtag.js) - Google Analytics