0

2

回答

1619 浏览

推荐几本搜索引擎方面的书[已解决]5

最近转到搜索方向,很迷茫,麻烦大家推荐几本搜索方面的书,并介绍各书的侧重点,谢谢!

2011年3月02日 10:09
0

0

回答

116 浏览

关于搜索引擎技术的问题[已解决]3

现在学搜索引擎技术有前途吗,请各抒己见

2011年1月29日 22:05
0

0

回答

233 浏览

同义词林扩展版[已解决]5

请问各位大虾,有没人使用过哈工大同义词林扩展版的?请问哪里可以下载到,能否分享学习,小弟不胜感激!

2010年10月09日 15:07
0

3

回答

172 浏览

请做BI的朋友解答一下疑惑谢谢[已解决]10

请问现在做BI的公司,在数据挖据的实现上是自己实现还是用其他公司的引擎,如果是用其他引擎的话那么一般用的是什么呢?顺便问下BI这方面的发展怎么样?

2010年9月20日 08:07
0

1

回答

260 浏览

网页数据抓取的问题,遇到对手将数据图片化,如何应对[已解决]5

因为图片是中文的,所以ocr难度非常大,我试过好几款识别软件,都没有能破解的 生成图片的方式是传给图片服务器一个32位的看似md5加密的参数 在酷讯网的酒店频道,进到最里面就能看到,大家看看怎么搞,能把他们图片里的数据挖出来呢? 这个网址:http://hotel.kuxun.cn/homeinns-guangzhou-binjiangdong-jiudian.html 有几行看起来是文字,实质上是 ...

2010年7月27日 09:50
0

1

回答

126 浏览

怎么抓 酷讯 网的酒店数据呀?[已解决]5

他们把重要数据都图片化了,生成图片的途径是一个32位的看似md5加密的参数,因为图片内容是中文的,图很小,我试过汉王7600,竟然识别不了,谢谢啦

2010年7月27日 09:44
0

1

回答

695 浏览

lucene 建立索引,在建立的过程中越来越慢[已解决]5

在建立索引的时候,开始很快,后来就越来越慢,慢的都不能接受了。 每次取200条数据建立索引,建立完后使用writer.optimize();整理,怎么会越来越慢呢?想不通啊

2010年7月08日 15:25
0

0

回答

864 浏览

nutch与 heritrix比较[已解决]5

网上讲“Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。”是不是讲Nutch每抓取一次都会重新全部下载页面,不管本地有没有缓存?如果是的话,那么对性能的影响有多大? 另外heritrix是否支持分布式啊?

2010年5月16日 15:07
0

5

回答

1345 浏览

请各位推荐个linux下面比较好的开源爬虫[已解决]15

如题 需要可以把整个网站的内容爬下来,包括图片和视频

2009年12月30日 09:38

本周活跃投票用户

最新评论

Global site tag (gtag.js) - Google Analytics