- 浏览: 69810 次
- 性别:
- 来自: 杭州
最近访客 更多访客>>
最新评论
-
happy7259:
感谢您这篇文章,让我解决了困扰5天的问题。。。
处理中文rss解析的一点经验... -
niule:
你好,我是按照步骤来部署的,也是用的jeasy的分词
在ana ...
赞美开源,赞美luence贡献的廉价全文搜索解决方案
文章列表
facebook新开发的聊天室用erlang来实现分布式...http://www.facebook.com/notes.php?id=9445547199For Facebook Chat, we rolled our own subsystem for logging chat messages (in C++) as well as an epoll-driven web server (in Erlang) that holds online users' conversations in-memory and serves the long-polled HTTP requests. ...
- 2008-05-15 08:31
- 浏览 783
- 评论(0)
网上的所谓gb2312,实际字库是不全的,比如陶喆的喆就出不来,但是浏览器自己就能解析出来...写代码就会出问题...要么用ignore参数忽略掉,但这只是回避了这个问题我现在发现用rss解析的时候,要把它换成gb18030,就能解析出来~比如用ruby:require "iconv" puts Iconv.iconv("GB2312","UTF-8",'陶喆') 显示错误: t.rb:2:in `iconv': "\xE5\x96\x86" (Iconv::IllegalSequence)说明这个字库在gb23 ...
- 2008-05-13 00:46
- 浏览 2153
- 评论(1)
第七章:decision tree讲的是一个大网站,推出了一个新的服务,免费体验,高级功能收费,怎样鉴别众多用户中潜在的肯花钱的那些出份问卷是个麻烦用户的办法...这里讲的是怎么分析他们网站上的行为来得到结论一个用户会有referrer(从 ...
- 2008-05-09 10:21
- 浏览 1217
- 评论(0)
第七章:decision tree讲的是一个大网站,推出了一个新的服务,免费体验,高级功能收费,怎样鉴别众多用户中潜在的肯花钱的那些出份问卷是个麻烦用户的办法...这里讲的是怎么分析他们网站上的行为来得到结论一个用户会有referrer(从 ...
- 2008-05-09 10:21
- 浏览 727
- 评论(0)
第六章讲的是document filtering技术用于反垃圾邮件,自动给邮件分类,自动给文章分类等等几个术语,document文章,feature特征,classifier分类每个feature对于不同的classifier有不同的probabilitynaive bayesian classifier这个算法很简单,计算量小,不过据说很实用简单的认为word出现的概率是独立的,可以直接相乘,这样算出来的概率和真实的概率是不一致的,不过基于这样同一个假定前提下算出来的feature概率之间可以进行比较(我算不出词语B出现的真实概率,但是算得出B比A更多的出现在垃圾信中)这个算法超级简单P(B) ...
- 2008-05-09 06:23
- 浏览 895
- 评论(0)
第六章讲的是document filtering技术用于反垃圾邮件,自动给邮件分类,自动给文章分类等等几个术语,document文章,feature特征,classifier分类每个feature对于不同的classifier有不同的probabilitynaive bayesian classifier这个算法很简单,计算量小,不过据说很实用简单的认为word出现的概率是独立的,可以直接相乘,这样算出来的概率和真实的概率是不一致的,不过基于这样同一个假定前提下算出来的feature概率之间可以进行比较(我算不出词语B出现的真实概率,但是算得出B比A更多的出现在垃圾信中)这个算法超级简单P(B) ...
- 2008-05-09 06:23
- 浏览 1309
- 评论(0)
optimization问题,用于解决多人旅行的机票安排,或者学校排课,sns里面自动画一副关系树的图,让交叉点尽可能少(这样看起来清楚),把许多人分成小组,让每个小组里面的人技能尽可能的不同(不同的兴趣),把一个大工程分拆成工作量差不多的小块...给定一组关键词和网址,把网址分组,让他们尽量内聚...突然想到可以高考根据志愿和分数安排学校,让尽可能多的人满意^_^先讲了一个取最优点的问题,可以转化成二维曲面找最低点这个模型hill climbing方法只能有局部最优然后改进的方法是随机选取一个点然后再探索局部最低,多次尝试取最小点叫做random-restart hill climbingsi ...
- 2008-05-08 03:51
- 浏览 1103
- 评论(0)
optimization问题,用于解决多人旅行的机票安排,或者学校排课,sns里面自动画一副关系树的图,让交叉点尽可能少(这样看起来清楚),把许多人分成小组,让每个小组里面的人技能尽可能的不同(不同的兴趣),把一个大工程分拆成工作量差不多的小块...给定一组关键词和网址,把网址分组,让他们尽量内聚...突然想到可以高考根据志愿和分数安排学校,让尽可能多的人满意^_^先讲了一个取最优点的问题,可以转化成二维曲面找最低点这个模型hill climbing方法只能有局部最优然后改进的方法是随机选取一个点然后再探索局部最低,多次尝试取最小点叫做random-restart hill climbingsi ...
- 2008-05-08 03:51
- 浏览 711
- 评论(0)
searchengine: programming collective intelligence一个简化的searchengine骨架...深度遍历link...试了一下,公司网速太慢,爬不动...searchengine的瓶颈在带宽和并发计算 programming collective intelligencepython的BeautifulSoup库很不错,php,ruby就没这么好的库,提取link要自己写匹配函数>>> import searchengine>>> c=searchengine.crawler()>>> c=se ...
- 2008-05-07 06:36
- 浏览 2625
- 评论(0)
searchengine: programming collective intelligence一个简化的searchengine骨架...深度遍历link...试了一下,公司网速太慢,爬不动...searchengine的瓶颈在带宽和并发计算 programming collective intelligencepython的BeautifulSoup库很不错,php,ruby就没这么好的库,提取link要自己写匹配函数>>> import searchengine>>> c=searchengine.crawler()>>> c=se ...
- 2008-05-07 06:36
- 浏览 1056
- 评论(0)
但现实情况是,像唐骏这样既有国际化企业管理经验,又有民营企业运作经历,还会会取悦资本市场的职业经理人非常稀缺。擅于经营自己的唐骏显然已经认识到这点。“当今中国已经进入资本运作时代,缺的不是我在微软时期的职业经理人,而是资本家性质的职业经理人。”关键是,唐骏已经体会到,在盛大做并不见得比在微软辛苦,但获得的财富却比微软多得多。企业的不同发展阶段需要不同类型的经理人,如张朝阳是创业型的职业经理人、IBM前CEO郭士纳是变革型的职业经理人,而唐骏要做的是资本运营型的职业经理人。如果说创业型和变革型的职业经理人是“倒吃甘蔗”先苦后甜的话,唐骏则选择了“最甜的那节甘蔗”——进入正处在快速成长期的企业,靠股 ...
- 2008-05-07 01:49
- 浏览 836
- 评论(0)
第三章讲的是如何给社区里面的blog分组...hierarchical clustering(word clustering)统计博客中的文章,按照词语词出现的频率作为博客间的距离,把博客分组,形成树状图算法是,查找所有博客,距离近的作为一组,然后反复迭代构成树这个树有不同的生长策略的...书里介绍的是最简单的那种:不停的把最近的组合并构成树...column clustering(blog clustering)上面是以blog为维度,也可以用word为维度,查看经常同时出现的word...算法上是一样的,只不过把数据矩阵转制了一下这样统计出来的是经常在一起出现的词语,按照词语来划分组...k ...
- 2008-05-06 05:06
- 浏览 1197
- 评论(0)
amazon计算机新书销量第一位: programming collective intelligence这是一本讲基于机器学习算法的群体智慧...用python做示范代码第一章说machine learning是一种很有前途的技术,能够用于:生命科学金融欺诈判断机器视觉识别生产消费市场判断供应链优化股票市场国家安全等...第二章讲的是如何做社区网站的推荐功能user-based algorithm就是先找出和你口味差不多的人然后推荐和你口味相同没看过的电影/书给你对于任意两个人,每个人是一个维度,他们共同看过的书构成一个二维点阵,然后算相似度可以用好几种办法,我觉得算两条直线的斜率差不错... ...
- 2008-05-05 13:38
- 浏览 1289
- 评论(0)
这本书叫"编程之美"--微软技术面试心得整本书看下来,感觉就像是acm习题集恩,是一本算法习题集&算法面试题集...还有程序员基本功题集...比如许多动态规划题,比如测试用例要全面,每个分支要测试到,临界点都要测试啦,写代码考虑要全面,不能漏掉特殊情况,防止隐含的bug之类谈到面试题呢,就强调要先审题,看清题目意思,然后分治啦,归纳啦一步步解决没见过的问题...总的就考三方面能力:常用高级算法掌握的基本功+认真挖掘分析题目信息,归纳分解问题的能力+写代码考虑全面的coding经验问题不过可惜没有体现出编程的美...这本来是我最想看的...题目是挺难的,要说编程之美,我 ...
- 2008-05-05 03:37
- 浏览 1266
- 评论(0)
传统的proxy: class VirtualAccountProxy def initialize(starting_balance=0) @starting_balance=starting_balance end def deposit(amount) s = subject return s.deposit(amount) end def subject @subject || (@subject = BankAccount.new(@starting_balance)) endend如果是传代码块就能把创建 ...
- 2008-04-28 06:19
- 浏览 992
- 评论(0)