`
dacoolbaby
  • 浏览: 1267294 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论
文章列表
首先,需要在solrconfig.xml中增加 <lib dir="../../../dist/" regex="solr-dataimporthandler-.*\.jar" /> <!--需要增加依赖包,如果有数据库驱动,也需要增加到依赖路径中 --> <requestHandler name="/dataimport" class=" ...
多用户下的Hadoop集群,少不了资源配置的管理。 Capacity Scheduler作为Yahoo开源的资源管理器,有着相当不错的适用性。   在HADOOP_HOME下的lib文件夹下面,找找有没有capacity schedule的jar包。 老版本的hadoop会把capacity scheduler的jar包 放在contrib/capacity-scheduler/hadoop-capacity-scheduler.jar    将jar包拷贝到hadoop的lib包下面。   修改namenode节点中的conf/mapred-site.xml文件   ...
使用solr,就使用到各种的排序和boost。 在公司的站内搜索引擎,就遇到了排序的问题,各种各样的条件,融合在最后一个分数里面。   开启debugQuery,就可以看到每个document的打分逻辑原理。 比如说,我们的查询是这样的:  /solr/select?q=ddr&defType=dismax&qf=name^1000+description^100&bf=pow(price,1.5)&debugQuery=true&indent=true    开启了debugQuery后,获得的结果是这样的: 1.6771803 = ...
目前正在开发一个日志扫描工具,用于扫描报错日志,并打包成邮件,发送到邮箱。   虽然不复杂,但是是个非常方便的工具。   #!/usr/bin/env python # coding=utf-8 from smtplib import SMTP from email import MIMEText from email import Header from os.path import getsize from sys import exit from re import compile, IGNORECASE #定义主机 帐号 密码 收件人 邮件主题 smtpse ...
从深圳离职回广州工作。 去了台湾玩了11天,进入到了找工作的节奏。   把广州我能尝试的比较好的公司都面了一遍,可是全部都挂了。 但是皇天不负有心人,总算在我薪资满意的范围内,找到一份数据开发的相关工作。   UC面了2次, uc是朋友推荐我去面试的,非常非常感谢他。 但是UC对于人的能力要求比较高,第一次面的是java开发工程师。要求是做游戏平台部分的。 对程序员的要求包括有精通java,包括JVM的内存结构,JVM的内存回收机制。 熟悉设计模式,阅读过一些优秀框架的源码。 精通多线程,能够设计并开发高并发的系统。包括对java concurrent包的各个类的了解。 ...
在Liunx上面,会进行一些部署和监控的操作。 有时候使用crontab直接调用shell可以满足一定需求,但是最近在接受一部分运维项目的时候会发现。 部分脚本运行的过程中,stdout和stderr的输出流会无故丢失。   目前本人可以想到的方法,是利用python的subprocess模块进行调用,并记录下对应的stdout和stderr日志。   这里是一个实验,首先是一个python脚本。 模拟调用过程中会产生stdout日志和stderr信息。   #!/usr/bin/env python '''output test data to sys.stdout , ...
最近接触到一些用Mahout开发的数据挖掘代码,于是顺便就把算法原理给研究了一下。 得到了附件中的PPT   FP-Growth算法的应用有很多。 除了最令人熟悉的啤酒尿布算法以外。 还有“共词”提取。 如:淘宝商品评论中,对评论进行分词,然后提取共有的评价。    
2014年6月3日到2014年6月13日,我和同学完成了环台湾岛的自由旅行。     首先,先简单介绍一下去台湾需要注意的事项。   台湾的旅游旺季是春天和秋天。 春天可以看樱花等,秋天气候舒适。 其中7月-9月会有台风,不建议 ...
原文来自:http://www.cnblogs.com/haippy/archive/2012/07/23/2604556.html 英文原文来自:http://zookeeper.apache.org/doc/r3.3.2/recipes.html   本文将带你如何利用 Zookeeper 实现某些分布式应用所必需的高级功能。   所有功能均可以在客户端按固定的模式实现,不需要 Zookeeper 的特殊支持,也希望 Zookeeper 社区能将这些具有固定实现模式的功能集成到 Zookeeper 客户端的程序库中,可以简化 Zookeeper 的使用并且还能使某些功能的实现标准 ...
转自:http://www.cnblogs.com/haippy/archive/2012/07/23/2604556.html    Zookeeper 从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应,从而实现集群中类似 Master/Slave 管理模式,关于 Zookeeper 的详细架构等内部细节可以阅读 Zookeeper 的源码 下面详细介绍这些典型的应用场景,也就是 Zookeep ...
有时候本地断点调试不能完全反映出生产环节的异常: 比如服务之间的依赖,等等。   所以,远程断点调试给予了解决集成环境BUG的一个非常有利的工具。   在Eclipse下面,做如下工作: 打开Eclipse,点击左上角的debug按钮,如图:      Project:选择你要debug的项目,Host:输入你的远程IP,Port:远程调用端口。 如何知道远程端口,通过进入你的远程虚拟机的命令行,输入jps -v 命令,查找这一行 -Xrunjdwp:transport=dt_socket,server=y,address=52002,suspend=n    其中52 ...

Redis初探

redis 安装   redis官网地址:http://www.redis.io/   1、下载源码,解压缩后编译源码。 $ wget http://download.redis.io/releases/redis-2.8.3.tar.gz $ tar xzf redis-2.8.3.tar.gz $ cd redis-2.8.3 $ make   在src目录下,进行安装 $ make install   在$ make test 的时候如果出现: You need tcl 8.5 or newer in order to run the Redis test ...
Python一切皆对象(object),每个对象都可能有多个属性(attribute)。Python的属性有一套统一的管理方案。   对象的属性可能来自于其类定义,叫做类属性(class attribute)。 类属性可能来自类定义自身,也可能根据类定义继承来的。 ...
所谓闭包,有2中定义。   1.子函数可以使用父函数中的变量 2.一个变量引用者未释放的可执行的代码块。   对第1点先举例:   def line_conf(): def line(x): return 2*x+1 print(line(5)) # within the scope line_conf() print(line(5)) # out of the scope #NameError: name 'line' is not defined     第2点举例: def line_conf( ...
1.在使用索引之前 在MongoDB中所有的insert,update,delete操作过程中, 都会更新所有与collection相关的索引。 每个索引都会为单个写操作进行开销。   所以,必须确定一下,为了索引,写入的开销是值得的,也做好当前的索引确实被使用到。   和数据库一样,Mongodb每次查询只会选择一条索引进行检索。 如果查询条件出现$or,那么有可能会检索不同的索引   为了确保执行效率,保证你的索引能够全部放在内存里面。   2.单列索引 在MongoDB中,所有的collection都会默认存在一个索引_id,它是唯一切递增的,你不能删除它。 ...
Global site tag (gtag.js) - Google Analytics