- 浏览: 505711 次
- 性别:
- 来自: 广州
最新评论
-
cppmule:
Play!在国内实际产品级应用案例有吗?有哪些公司在用?国外的 ...
play总结性介绍 -
你好javaword:
netty的个人使用心得 -
hyfwuhui:
java 并发环境下使用ConcurrentHashMap -
asialee:
朋在无锡 写道可以将Channels使用静态导入的方式:imp ...
netty的个人使用心得 -
朋在无锡:
可以将Channels使用静态导入的方式:import sta ...
netty的个人使用心得
文章列表
利用SOLR搭建企业搜索平台 之十(数据库数据导入到solr)
solr不可谓是个好东西啊,越往下挖掘,他的各种功能逐渐的展现在我的面前,对于solr的架构人员,不得不令人佩服啊。 几天前偶尔看到IBM developmentWorks上面的一片文章,看到了数据库数据的导入,以前我一直是这么认为的,像这种导入可以自己去写程序去导入。 写程序 可以将数据读出100条,如果你的内存够大,可以是1000条甚至更多,然后放入Collection中,批量提交至solr。或者读取数据写入xml文件中,再将该文件提交到solr等等。但是,在我看到那一篇文章的时候,原来还有这么巧妙的招。 废话不多说,入正 ...
用Solr、Nutch等开源软件来构建电子元器件垂直搜索引擎涉及很多实现细节,本文结合实际应用系统对数据采集、中文搜索、结果输出、分页处理、整合数据库等重点问题提出了切实可行的解决方法。
用开源软件建垂直搜索 ...
计划建一个专业领域的搜索引擎,利用开源代码。
蜘蛛爬虫程序用Heritrix,Nutch;收录引擎用Solr. 这些都是开源的。
需要一名经验丰富的JAVA程序员,整合爬虫程序和收录引擎。对于Heritrix,只要程序员能编写一个heritrix writer, 把搜集的数据保存到MYSQL或XML,然后SOLR可以读取就可以了。NUTCH和SOLR的整合有documentation可以阅读,后者应该相对简易些。
相关链接:
1. Heritrix: http://crawler.archive.org/
2. Nutch: http://lucene.apache.org/ ...
本文由FaceYe的haipeng根据实际开发工作整理而来,转载请注明出处. 就像我们知道的一样,nutch是一个架构在lucene之上的网络爬虫+搜索引擎. 是由lucene的作者在lucene基础之上开发,并整合了hadoop,实现在分布式云计算,使用google标准的HFDS文件系统作为存储结构,是一款高伸缩性能与高效高并发的网络爬虫+搜索引擎. FaceYe在后台已经整合了nutch,在适当的时候,就可以开始为用户提供高质量的知识索引服务.顺便说一下,nutch在生产环境中,并不能在windows下运行,需要在liux下运行,这其中主要是hadoop采用了一些shello脚本,当然,开发 ...
在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动Hadoop1. 进入HADOOP_HOME目录。2. 执行sh bin/start-all.sh关闭Hadoop1. 进入HADOOP_HOME目录。2. 执行sh ...
2008-06-06 14:26
用Hadoop搭建分布式存储和分布式运算集群Filed under: 搜索, 配置, 开发 — 钟 子昌 @ 7:59 pm 1. 列出使用的机器普通PC,要求:cpu: 750M-1Gmem: >128Mdisk: >10G不需要太昂贵的机器。机器名:finewine01finewine02finewine03将finewine01设为主节点,其它的机器为从节点。2. 下载和生成从这里checkout,我选择trunkhttp://svn.apache.org/repos/asf/lucene/hadoop/使用ant进行生成3. 部署前的 ...
什么时候用GET?什么时候用POST?
GET和POST两种方法都是将数据送到服务器,但你该用哪一种呢?HTTP标准包含这两种方法是为了达到不同的目的。POST用于创建资源,资源的内容会被编入HTTP请示的内容中。例如,处理订货表单、在数据库中加入新数据行等。当请求无副作用时(如进行搜索),便可使用GET方法;当请求有副作用时(如添加数据行),则用POST方法。一个比较实际的问题是:GET方法可能会产生很长的URL,或许会超过某些浏览器与服务器对URL长度的限制。若符合下列任一情况,则用POST方法:* 请求的结果有持续性的副作用,例如,数据库内添加新的数据行。* 若使用GET方法,则表单上收 ...
职业规划是职业生涯成功的第一步。职业规划永远都不嫌晚,那么制定职业发展规划到底需要做什么呢? 职业规划是职业生涯成功的第一步。不幸的是,很多职业人员并没有很好地把握自己的职业生涯,他们不知道如何去实现自己的职业目标,或者不知道要实现什么样的目标。职业规划永远都不嫌晚。IT管理人员、专业人员、受训人员、新进入IT的人或者是首席信息官(CIO)都需要好好想一想自己的未来。采取“我不在乎”或“一切都完了”的态度,你就无法实现自己内在的潜能。你和其他的专业人员都有一个选择;你可以进行职业规划,并在这些规划的基础上采取明智的决策,这样就可以掌握你的职业生涯。不要让你的职业任意发展,而是要让你的职业按自己 ...
1 引子
太多了!终于签下合同-->得到了“正式”的客户提供的“需求书”的几片纸-->凭借自己的理解立即投入开发-->“木已成舟”,生米终于熬成粥-->用户拒绝接受?-->艰难地修改,反复修改,开发人员厌倦了,而用 ...
艰苦创业,历经风雨,我们会从零一步步走向成功!创业路途中的风风雨雨、酸甜苦辣都会让每一位自诩坚强的成功者喜极而泣,感慨颇多……
大凡成功者的经验都有共通之处,其中“心无旁鹫,专心做事做人”可以说是成功的先决条件。如果我们想要成功,都必须是心无杂念,专心致志的。所以说,“心无旁鹫,专心做事做人”是成功的保障,也可以说是“
孟子说:“君子与一般人不同的地方在于,他内心所怀的念头 不同。君子内心所怀的念头是仁,是礼。仁爱的人爱别人,礼让 的人尊敬别人。爱别人的人,别人也经常爱他;尊敬别人的人,别 人也经常尊敬他。假定这里有个人,他对我蛮横无礼,那君子必 定反躬自问:我一定不仁,一定无礼吧,不然的话,他怎么会对 我这样呢?如果反躬自问是仁的,是有礼的,而那人仍然蛮横无 礼,君子必定再次反躬自问:我一定不忠吧?如果反躬自问是忠 的,而那人仍然蛮横无礼,君子就会说:‘这人不过是个狂人罢了。 “这样的人和禽兽有什么区别呢?而对禽兽又有什么可责难的呢?’ 所以君子有终身的忧虑,但没有一朝一夕的祸患。比如说这样的 忧虑是有的 ...
9月5日,“铜官窑惟一传人”胡武强老艺人把他创作的陶艺作品“丰收箩”赠送给“杂交水稻之父”袁隆平,祝贺袁院士八十大寿。中新社发 刘柱 摄 中新网9月8日电 “杂交水稻之父”袁隆平迎来80岁生日,香港《大公报》8日 ...
1.Java基础不扎实,对集合应用掌握不足,hashcode/equals的作用不了解、对JAVA对象序列化不了解,
对线程没什么了解,不清楚ThreadLocal是什么,对JDBC使用较熟悉,不能区分Statement/PrepareStatement,
,对JSP/Servelet不太熟悉,不能区分redirect/forward。
2.数据库应用较熟悉;
3.对SPRING、HIBERNATE等开源框架有所应用,但了解不深;
4.对基于WEB方面的开发方法开发模式不太熟悉;
5.对设计模式应用较少;
6.对不少东西有所应用,但都只是浮于表面;
恐怖的结果。。 ...
Simon是一个软件公司技术总监。有一天,有一位程序员小A提出想要和Simon谈谈。小A工作5年了,程序写得很不错。他进到Simon的办公室,坐下,在Simon的对面。Simon的桌子有点弧度,于是Simon挪动椅子,和他斜对面。Simon问他有什么事?“我现在很困惑。我不知道是不是应该转行去做管理。”小A说。“为什么?”Simon问。“我看到一些媒体,还有一些认识的Leader都说只有做管理才有前途。”Simon想了想。小A人很踏实,同时也很聪明,所参加的项目很有挑战性,但他一直做的不错,因此,薪水比同时进公司的员工已经高了20%。“这样吧,我问你一个问题:现在公司开始执行10%淘汰制。你是一 ...
一个小型的网站,比如个人网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系 统架构、性能的要求都很简单,随着互联网业务的不断丰富,网站相关的技术经过这些年的发展,已经细分到很细的方方面面,尤其对于大型网站来说,所采用的技 术更是涉及面非常广,从硬件到软件、编程语言、数据库、WebServer、防火墙等各个领域都有了很高的要求,已经不是原来简单的html静态网站所能 比拟的。 大型网站,比如门户网站。在面对大量用户访问、高并发请求方面,基本的解决方案集中在这样几个环节:使用高性能的服务器、高性能的数据库、高效率的编程语 ...