最新文章列表

Java度量metrics

在Java层面上来说,现在各种度量的二方包也很多,例如开源的dropwizard metrics, spring-boot的accurator,集团内部有eagleeye的StatLog。在native层面上有Collectd, prometheus等,集团内部有tsar,但通常存在以下问题: 每个库都有各自的API,造成业务代码埋点的混乱,重复埋点 在指标的命名方式上比较随意,没有标准 数据覆盖面 ...
darrenzhu 评论(0) 有1826人浏览 2017-04-06 14:03

TF-IDF及文本相似性度量

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间 ...
abc123456789cba 评论(0) 有4171人浏览 2013-03-19 13:52

数学之美系列四:怎样度量信息?

发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不 ...
abc123456789cba 评论(0) 有838人浏览 2012-03-08 13:50

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics