- 浏览: 2663923 次
- 来自: 杭州
文章分类
- 全部博客 (1188)
- webwork (4)
- 网摘 (18)
- java (103)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (14)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (7)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
python search: http://www.google.com/cse/home?cx=009376466705745340527%3Acpxfleh5jbc
给定sina微博的全部用户(1亿以上)和标签(uniq的标签30万左右)的关系,系统找出共有2个或以上标签的用户对,并给出这些标签是哪些。
input_file:userid,taglist
output_file: userid,userid,con-taglist (sizeof(con_taglist)>=2)
例如:
A,体育 新闻 清华 百年校庆
B,娱乐 八卦 清华 新闻
C,体育 娱乐 新闻
D,八卦 新闻 娱乐
则输出:
A,B 清华 新闻
A,C 体育 新闻
B,C 娱乐 新闻
B,D 娱乐 八卦 新闻
C,D 娱乐 新闻
要求时空复杂度最低。
http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html
发表评论
-
ConcurrentHashMap 的实现原理
2016-06-12 15:37 621概述 我们在之前的博文中了解到关于 HashMap 和 ... -
BloomFilter——大规模数据处理利器
2016-04-25 15:09 606参考:http://www.cnblogs.com/hea ... -
Base64笔记
2014-05-08 16:32 690原文:http://www.ruanyif ... -
运算符的优先级
2014-02-21 22:06 983很久没有去深究运算符的优先级了,今天写SQL解析思考了一下。 ... -
beansdb使用的压缩算法-Quicklz压缩算法
2014-02-09 20:17 0据这里http://blog.yufeng.i ... -
跳表SkipList的原理和实现
2014-02-07 17:29 1020参考:跳表SkipList的原理和实现 -
一种高效无锁内存队列的实现
2014-02-06 10:59 2021原文:http://www.searchtb. ... -
拆分文件统计topN的问题
2014-01-20 18:48 1048如果对一个只包含ip地址文件进行统计,需要求出频率最高的前 ... -
Integer的numberOfLeadingZeros方法解释
2014-01-13 20:42 1162int numberOfLeadingZeros(int i ... -
rank排名算法整理
2014-01-07 13:44 11601.Delicious.com 热门书签排行榜 按照&q ... -
利用switch判断各种case
2013-12-27 16:35 0String env = "daily" ... -
如何创建一个短链服务
2013-12-26 16:23 0参考: http://stackoverflow.com ... -
HAProxy的独门武器:ebtree
2013-12-07 18:57 1006原文:http://tech.uc.cn/?p= ... -
统计单词出现频率
2013-10-07 20:58 935这里有一个大文本,文件请从 http://10.125.9 ... -
Reddit评论排名算法
2013-03-16 00:48 1652上一篇文章介绍了Reddit的排名算法,今天继续上一篇文章 ... -
大数据量,海量数据 处理方法总结
2013-01-13 23:46 1172大数据量的问题是很多面试笔试中经常出现的问题,比如bai ... -
STL系列
2013-01-13 23:42 972STL系列之一 deque双向队列 STL系 ... -
java Map排序(按key和按value)
2012-12-10 15:54 94981、按照key排序 对于java中Map的排序,有排序Map ... -
算法文档集合
2012-11-24 15:59 918Treelink算法介绍 一些基础算法介绍 ... -
各种进制基础知识
2012-11-06 14:37 101810进制是人类最熟悉的数字计算 2进制是机器最基本的单位 ...
相关推荐
在Windows操作系统中,尽管不像Unix/Linux系统那样内置了`uniq`命令,但通过特定的工具,用户同样可以实现类似的功能。这里提到的"windows下的uniq"实际上可能是指一个名为UNIQUE.exe的程序,它用于处理数据,去除...
Linux 下 uniq 和 sort 命令用法详解 uniq 命令是 Linux 中的一个文本处理命令,用于去除文本中的重复行。该命令读取输入文件,并比较相邻的行。在正常情况下,第二个及以后更多个重复行将被删去,行比较是根据所用...
uniq命令全称是“unique”,中文释义是“独特的,唯一的”。该命令的作用是用来去除文本文件中连续的重复行,中间不能夹杂其他文本行。去除了重复的,保留的都是唯一的,也就是独特的,唯一的了。 我们应当注意的是...
语言:English 在Mac或Windows PC上扩展Uniq,因此您可以跨合作伙伴平台等快速拨打电话号码。 无论您身在何处,在任何...Uniq提供了传统的PBX系统功能,并受益于电话服务应用程序,并为用户带来了公司通信中的新概念。
Linux 下 uniq 和 sort 命令用法 uniq 命令是 Linux 中的一个文本处理命令,用于删除或显示文本文件中的重复行。它可以读取输入文件,并比较相邻的行。在正常情况下,第二个及以后更多个重复行将被删去,行比较是...
在Linux操作系统中,文本文件的处理是日常工作中不可或缺的一部分。`sort`、`join`、`cut`、`paste`、`split`和`uniq`是Linux命令行中的一组强大工具,它们专门用于对文本文件进行排序、合并、切割、拼接、分割和...
在Linux Shell环境中,`sort` 和 `uniq` 是两个非常实用的命令,它们主要用于文本文件的数据处理。`sort` 命令用于对文件内容进行排序,而 `uniq` 命令则用于去除文件中连续重复的行,或者显示只出现一次或多次的行...
Uniq是一个 x86 架构的操作系统内核。 它不是基于Unix或Linux的,我们可以说它是一个类Unix操作系统内核,整个内核是从头开始编写的。 此外,内核将在很大程度上尝试支持POSIX标准。 ####内核信息#### . . 开发...
Linux 操作系统中,用户和用户组是非常重要的概念,正确地管理用户和用户组对于系统的安全和稳定性至关重要。本文将详细介绍 Linux 下添加、删除、修改、查看用户和用户组的方法和命令。 一、用户组操作 1. 创建组...
在遍历方法中,可以顺序遍历数组中的每个元素,如果这个元素的值已经访问过,则加入 Array2,否则加入 Array1。这种方法的时间复杂度约为 O(N^2)。 桶算法是一种更高效的方法,可以将时间复杂度降低到 O(N)。桶算法...
Linux 操作系统中,用户和组是两个重要的概念。用户是指登录系统的用户账户,而组是指具有相同特权或相同 interest 的用户的集合。本文将详细介绍 Linux 下添加、删除、修改和查看用户和组的方法。 一、组操作 在 ...
`uniq`函数接收一个数组作为参数,通过比较数组中的元素,返回一个新的不包含重复元素的数组。在JavaScript中,数组去重的方法多种多样,包括但不限于以下几种: 1. **使用Set** JavaScript的Set数据结构不允许...
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
在《Linux 系统命令精通指南》中,我们深入了解了如何掌握Linux系统的各种命令,这些命令对于日常管理和维护至关重要。Linux系统,作为一个强大的开源操作系统,其核心理念之一就是一切皆文件,包括系统管理工具。在...
创建一个没有重复的数组 安装 $ npm install array-uniq 用法 import arrayUniq from 'array-uniq' ; arrayUniq ( [ 1 , 1 , 2 , 3 , 3 ] ) ; //=> [1, 2, 3] arrayUniq ( [ 'foo' , 'foo' , 'bar' , 'foo' ] ) ; //...
zip -r file1.zip file1 file2 dir1 将几个文件和目录同时压缩成一个zip格式的压缩包 unzip file1.zip 解压一个zip格式压缩包 返回顶部索引 ^ RPM 包 - (Fedora, Redhat及类似系统) rpm -ivh package.rpm ...
在Linux系统中,Shell脚本是自动化任务的强大工具,而uniq命令则是处理文本文件时非常实用的一个工具。它主要用于去除文件中的重复行,使我们能够更有效地分析和处理数据。在本文中,我们将深入探讨uniq命令的使用...
本文档将详细介绍第三方通用登录插件的使用说明,该插件支持QQ、人人网、微博、豆瓣等多种第三方登录方式,方便开发者快速实现第三方登录功能,减少开发时间和成本。 第三方登录插件简介 第三方登录插件是一种通用...