`
poson
  • 浏览: 361935 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
awk 'BEGIN{ while( (getline line <"./cm")>0 ) {    split(line,arr,"\t");    print arr[1],arr[3];    hash[arr[1]]=arr[3]; } } { } END{ }'|less awk  教程 : http://www.math.utah.edu/docs/info/gawk_6.html
在google的gmail里面订阅了两个关键词:“搜索”和“推荐系统”。 这样可以知道最近业界在关心的问题,非常省时省力。 不够要及时看这些邮件还是一个问题。
系统盘的空间总是不足,找了半天也没有发现运营,最后才发现是用户目录下的临时文件太多。 C:\Documents and Settings\$username\Local Settings\Temp
#find ./ -type f -name "*.swp"|xargs rm -rf #find . -name "*.cpp" -exec grep "SoapEvMessage" \; -print #find ... -exec rm {} \; #find ... | xargs rm -rf 两者都可以把find命令查找到的结果删除,其区别简单的说是前者是把find发现的结果一次性传给exec选项,这样当文件数量较多的时候,就 可能会出现“参数太多”之类的错误,相比较而言,后者就可以避免这个错误,因为xargs命 ...
梁楷介绍的软件,一个非常好用的桌面管理软件。
系统的特点不以用,需要用不同的推荐系统算法。 1)用户在t时刻还干了什么(itemcf就是基于这个假设) 2)其他用户在t时刻干了什么(usercf就是基于这个假设) 当给用户推荐了不熟悉的音乐,用户就感到陌生,不是很喜欢。
当我们的数据量特别大的时候,我们可以用Hive统计数据。 Hive的好处是特别方便,编写程序的难度比较低。 输出文件作聚合的方法: http://www.chinacloud.cn/show.aspx?id=3277&cid=12 Map 端部分聚合: 并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进行部分聚合,最后在 Reduce 端得出最终结果。 基于 Hash 参数包括: hive.map.aggr = true 是否在 Map 端进行聚合,默认为 True hive.groupby.mapaggr.checkinterval = 1000 ...
导入一份数据: year out 1999 13736.4 16159.8 2000 18638.8 20634.4 2001 20159.2 22024.4 2002 24430.3 26947.9 2003 34195.6 36287.9 2004 36455.8 42456.5 2005 45212 48112 2006 48788 53455 2007 53245 57458 2008 59456 61145 利用excel的相关性分数 (选项:数据--数据分析) 列 1 列 2 列 1 1 列 2 0.996571103 1 从这里可以看出相关性是非常高的。 获取描述 ...
    陶行知很久以前就说过”知易行难“,就是说我们很容易获取知识,但是要真正执行起来却是很难的事情。我们很多人,都知道自己有问题。例如喜欢看电视,衣服随便乱扔,但是要改变这些习惯是非常困难的。为什么我们没有办法解决这些问题呢,就是因为我们知道问题,但是我们没有采取行动。     这一思想贯彻到日常工作中,我们每次会议之后都应该有一些行动(Action),表明我们将要解决什么样的问题,或者说这么去解决问题。     当我们发现我们的项目有问题之后,我们应该采取行动就修正问题。例如发现我们的接口不对,我们的公共函数库设计有问题,都应该提出来,并且采取行动。不能只是抱怨说,公司这里不好,团队哪里有问 ...
    最近用方正畅听听了一些书籍,感受颇多。要朗读中文首先要分词,分词效果非常好,听起来不会有很不自然的感觉,理解书籍没有什么问题。但是这种朗读没有感情,没有跌宕起伏,听起来很平淡,很容易听过去了,但是没有什么感觉。还有一个问题,文章中的一些多音词都没有处理。    
当我们有一个应用,部署在多个服务器上。这些服务器每天都要更新数据。我们怎么更新数据呢?    总的来说,我们有两种方式,一种是集中式的,用push方式,从数据服务器推送到应用服务器。    另外一种:我们在应用服务器,主动请求服务器,从而下载数据。 简单总结了两种方式的优缺点。 Push  优点   集中式管理   依次推送数据,数据服务器不会有响应不过来的问题   容易知道下游应用有哪些 Push  缺点    如果有一台推送失败比较麻烦    如果集中式管理的机器不可用;我们无法用另外一台机器去推送    必须知道所有的下游应用。    当下游应用下线,数据服务器需要修改推送的配置。   ...
  1、多用电话沟通。用邮件可以讨论结果,用聊天工具很多时候只能了解片面的信息。打电话请教别人的时候,最好能够把需要问的问题都先准备好。并且把笔也准备好。做一个有准备的人。   2、不使用qq。qq经常弹出消息,很可能打断自己的思路。   3、上班时间尽量不看新闻。看新闻的过程中,很可能浪费自己的时间。做事情不连贯。   4、一次只做一件事情。同一段时期,尽量只看一两本书。   5、每天坚持使用todo list。记录要做的事情,并且标记已经完成的事情。   6、把编写代码尽量当做上线代码来写,不要想功能实现之后再来重构代码。在公司根本没有时间来重构代码。   7、学习使用各种工具,脚本语言、e ...
Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Complex is better than complicated. Flat is better than nested. Sparse is better than dense. Readability counts. Special cases aren't special enough to break the rules. Although practicality beats purity. ...
项目Kick Off 我们应该做什么? 项目Kick Off是什么?    项目Kick Off也就是项目启动会议。当我们有项目启动的时候,把涉及的相关人员都聚集起来,然后召开一个启动的会议。那么在kick off的时候我们都应该做些什么呢?    首先项目经理可以介绍一下整个项目。项目的大致流程和模块有些,产品经理可以介绍一下项目的目标,让大家心里有数。    由于一般项目都会跨团队,在kick off的时候,项目经理应该介绍一下大家,或者让大家自我介绍。在这个时候应该明确每个团队的人都是那些,谁是架构师,谁是产品经理,每个团队的负责人是谁。我们都应该知道,这样方面大家以后沟通交流。    ...
query 的停用词和词干分析    停用词比较简单,就是一些简单的单词,如to,for等词。但是单这些单词在一些特殊的组合中的时候是不能去除的。    词干分析:就是把一些单词的名词复数、形容词归一化的简单的名称。但是这种也有特殊情况,有的是不能简单的归一化的。这些词的复数或者ing形式一般会表示一些特殊的意义。    拼写纠错:拼写纠错一般的方法就是通过编辑距离来的。不过对于英文来说有一些规则:如果首字母很少修改;单词的长度不变。    当拼写纠错可能找到多种可能的时候,通过频率降序排列。把可能性大的放在最前面。
Global site tag (gtag.js) - Google Analytics