`
poson
  • 浏览: 364711 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
public class Main { @Parameter ( names = {"--host"}, description = "Server host name or ip address" ) private String host = null; @Parameter ( names = {"--port"}, description = "Server port" ) private int port = 8080; @Parameter ( names = {& ...
在Rstudio和R命令行安装包都不行,如下: > install.packages("randomForest") trying URL 'http://cran.rstudio.com/bin/macosx/contrib/3.1/randomForest_4.6-10.tgz' Content type 'application/x-gzip' length 157609 bytes (153 Kb) opened URL ================================================== downloaded 153 Kb t ...
         毕业的时候总在简历上写明自己“吃苦耐劳、具备良好的团队合作精神”。工作五年之后才发现团队合作并不仅仅是四个汉字那么简单。刚工作的时候以为一起工作、一起做项目,兄弟几个一起上,就是团队合作。 ...
    互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。              广告对应互联网企业来说是非常重要的。当前google、百度、淘宝等网站,大量的收入都是来自于互联网广告业务。而广告业务中,出了搜索引擎相关的广告以外,大量的广告是通过各种推荐系统算法得到的。         在Amazon,Item-Based ...
机器学习方法在搜索引擎、计算广告中简直是无处不在。 spider模块,我们需要分析一个URL需要多长时间抓取一次?    URL的域名的重要性;URL的目录深度;URL中字符串; 这个URL是否需要重复抓取?重复抓取的时间是多少?    ...
1.Query的数据分析    Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务 ...
    当你在互联网使用搜索的时候,关键词推荐可能是你经常使用到的一个辅助工具。如各种搜索引擎搜索框的下拉提示;google 结果页会有“XXX”的“相关搜索”;百度结果页也有提示一组相关搜索词。关键词推荐在文献上一般称为query suggestiong,query expansion,query rewrite,query recommendation。         而这些常见的关键词推荐是怎么得到的呢?我总结了一下,有以下几种方式。     第一:只考虑用户输入的关键词。这是指,推荐词只是用户输入词的字串的组合,不添加新的字符串。那么我们考虑的就是如何丢弃不重要的字或者词,或者对输入 ...
   2010年在成都三官堂买的《微软的秘密》,这两年陆陆续续看了几次。如同《走出软件作坊》的作者阿朱说的一样,每看一次都有一些感想。这本书写的是微软90年代及其之前的开发经验,但是对我们当前的开发来说,仍然有很多值得汲取的经验。当今各种敏捷、scrum开发方法大行其道,可从本质上来说,也是对软件工程管理的改进,希望能够及时、快速的交付更好的软件产品。     书中多次谈到如何决定产品的优先级。当产品面对非常多特性的时候,我们究竟是要全部完成还是只完成一部分。从scrum开发来说,解决方案非常明确的。我们每个月甚至每两周收集项目的需求,然后对需求做综合的评价,决定未来一个月需要完成那些特性或者 ...

NetworkX画图

根据 http://blog.sciencenet.cn/home.php?mod=space&uid=404069&do=blog&id=337442 画图。 注意:需要安装setuptools-0.6c11.win32-py2.6.exe,才能安装networkx-1.6-py2.6.egg。 可以解决图计算的问题。处理一些简单的demo。 matplotlib-1.1.0.win32-py2.6.exe networkx-1.6-py2.6.egg numpy-1.6.1-win32-superpack-python2.6.exe python-2.6.msi ...
SecureCRT 反空闲(anti-idle)的设置方式 提高缓存屏幕历史页面的行数。便于查看先前的结果。甚至当代码被误删除的时候,可以从缓存的历史中copy出来。 常见技巧:   alt-1,alt-2,等快捷键切换窗口tab。

论文阅读总结

   以前阅读论文的套路:搜索、下载、阅读,如果好就打印出来,在纸上再阅读注释,读完之后就丢弃了。而一些注释也就散落在各种打印纸上。当时有一些心得体会,没有记录下来,也就淡忘了。     最近希望改变这种状况,在网上找了一下pdf文献管理工具。几经比较,最后选择安装了endnote。它可以对论文分类整理,标注,编辑心得体会,对经验的总结存储非常有好处,也更加清楚论文的来龙去脉,对相关专题的历史和发展能够有更加深入的理解。     2年多来,一直关注于Query Suggestion相关的论文。逐渐总结出一些规律:     研究最多并且发论文数量最多的是yahoo研究院,这说明yahoo在学术研 ...
每次用别人代码的时候,都希望从svn中check out出来就能够直接运行。但是自己写代码的时候,偶尔还是喜欢用绝对路径。每次写代码,最好能够有一个base dir的变量。一个项目多个安装包,最好能够公用同一个conf文件。便于修改和运行。

常用书籍

Hadoop权威指南(第2版) [平装]  http://www.amazon.cn/Hadoop%E6%9D%83%E5%A8%81%E6%8C%87%E5%8D%97-%E6%80%80%E7%89%B9/dp/B0055QFIA6/ref=sr_1_1?ie=UTF8&qid=1326264636&sr=8-1 搜索引擎:信息检索实践(英文版) [平装] http://www.amazon.cn/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E-%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E5%AE%9E%E8%B7% ...
         一个专利从构思、撰写、内部审核、代理撰写和修改、再到受理是一个比较漫长的过程,一般需要好几个月。          在公司的环境下,其实写专利非常有优势。只要针对公司的数据、业务环境做一些优化、改进,提出一个新的算法,解决实际问题就可以完成一个专利。          由于专利代理一般对我们的专业不是很懂,最好在交底书中多一些基础知识的介绍。重要的名称都要解释一下,多举例做一些说明。          对于专利中的数学公式,需要想的比较清楚。特别是某些我们认为很自然的公式或者算法,但是专利代理并不同,最好能够做一些通俗的描述。          写专利对于总结知识是一个非常好的 ...
在工作中发现问题很简单,你只要仔细看,你就可以发现大量的问题。 抱怨也很简单,只要你感觉不爽,工作不好做,业绩没有出来,年底没有加薪没有晋级,抱怨肯定一大堆。 但是要解决问题,解决抱怨很难。很多人总是觉得只是同事的问题,主管的问题,HR的问题,公司文化的问题。总之自己问题最少。这种思想态度,到哪里去都非常危险。当我们不从自身出发讨论问题,很容易造成消极的心理,对什么东西都有抵触情绪。如果主管不能恰当的解决这些问题,也可能造成团队的瘟疫,传播坏的影响。 要解决自身的问题,我们首先要反省自己的问题,不要给自己找借口。 作为一个主管,当遇到抱怨的时候,首先要倾听,然后才是引导,给出建议。在日常工 ...
Global site tag (gtag.js) - Google Analytics