- 浏览: 2663052 次
- 来自: 杭州
文章分类
- 全部博客 (1188)
- webwork (4)
- 网摘 (18)
- java (103)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (14)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (7)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
发表评论
-
Impala:新一代开源大数据分析引擎
2014-04-18 15:51 1415大数据处理是云计算 ... -
hadoop mapreduce的1TB排序
2014-02-17 20:15 13111、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架, ... -
用hadoop估算圆周率PI(3.1415926)的值
2014-02-17 20:03 2229原文:http://thinkinginhadoop.ite ... -
Hadoop-SequenceFile code
2014-02-11 13:11 732写的例子: package mytest.mapreduc ... -
MapReduce思想理解
2014-02-06 11:44 1288MapReduce工作流程 1.将输入源(In ... -
HDFS发展历史上的几个重大的JIRA
2014-02-05 22:02 1072原文:http://blog.csdn.net/ ... -
Hadoop Metrics体系架构分析
2014-02-05 22:01 1124原文:http://blog.csdn.net/ ... -
hadoop shell 命令总计
2014-01-11 13:52 641从远程获取文件到本地 ./hadoop fs -get / ... -
hadoop hdfs环境搭建
2013-12-28 19:29 0参考两篇文章: hadoop hdfs环境搭建 http ... -
hadoop文档集合
2013-12-28 19:31 610架构概述 hadoop Important Concep ... -
hadoop深入学习之SequenceFile
2013-12-24 21:51 10301.Hadoop’s SequenceFile Seque ... -
使用RawComparator加速Hadoop程序
2013-12-23 14:53 1682http://yoyzhou.github.io/bl ... -
Hadoop序列化与Writable接口介绍
2013-12-23 14:32 1271Hadoop序列化与Writable接口介绍 http:/ ...
相关推荐
本文将深入探讨如何使用Python来编写Hadoop MapReduce程序,以实现微博关注者之间的相似用户分析。这个任务的关键在于理解并应用分布式计算原理,以及熟悉Python编程语言在大数据环境下的应用。 首先,Hadoop ...
在这个例子中,"simple_Hadoop_MapReduce_example-master"可能是一个包含具体代码和说明的项目目录,用于演示如何在Python中编写MapReduce程序。Python作为一门灵活且易学的语言,被广泛用于Hadoop开发,通过Pydoop...
Hadoop和Python的Mapreduce 关于如何使用Python和Hadoop执行MapReduce的一小段回购。 映射器和化简器都是用Python编写的。 有关如何在Hadoop中实现这两个脚本的教程位于。
Hadoop Streaming是Hadoop的一个重要组件,它允许用户使用任何可生成标准输入/输出的工具(如Python脚本)来实现MapReduce算法。这个压缩包“使用hadoop-streaming运行Python编写的MapReduce程序.rar”显然是一个...
基于Hadoop Mapreduce 实现酒店评价文本情感分析(python源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python...
基于Hadoop Mapreduce 实现酒店评价文本情感分析(python开发源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python开发源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析...
尽管Hadoop的原生实现是基于Java,但Hadoop Streaming允许我们使用任意语言(如Python)编写MapReduce程序。Hadoop Streaming的工作原理是,mapper和reducer程序只需从标准输入读取并写入标准输出即可。 1. **...
`run.sh`可能使用Hadoop Streaming工具,这是一种使用任意可执行程序(如Python脚本)作为Map和Reduce任务的接口。 总的来说,这个Python MapReduce的demo提供了一个基础的框架,帮助开发者理解如何在Python中实现...
利用hadoop-streaming框架运行python脚本指令
在这个项目中,我们将探讨如何使用Python编写MapReduce程序,对海量的市场交易数据进行处理,以实现市场篮子分析。 首先,了解Hadoop MapReduce的基本原理是至关重要的。MapReduce是一种分布式计算模型,由Google...
通过这本简明的书,您将学习如何将Python与Hadoop分布式文件系统(HDFS),MapReduce,Apache Pig平台和Pig Latin脚本以及Apache Spark集群计算框架一起使用。
在这个项目中,我们将通过Python编写MapReduce程序,并在Ubuntu系统上配置的Hadoop集群上运行它。 首先,了解Hadoop是必要的。Hadoop是由Apache基金会开发的分布式计算框架,它允许在廉价硬件上处理PB级别的数据。...
可以作为大数据预处理的MapReduce代码的参考!!! -执行脚本文件: cd /home/hadoop/logfiles/ source format_run_2013_o5_30.sh source format_run_2013_o5_31.sh 执行我们的脚本文件,可以用source或者./
值得注意的是,在使用MapReduce之前,需要有Hadoop环境的搭建,并且确保Hadoop环境能够支持运行不同语言编写的MapReduce程序,如JAVA、C++、Ruby和Python等。这样的跨语言支持,可以使得更多开发者能够利用现有的...
5. **JPython MapReduce框架Pydoop等**:Pydoop是一个Python接口,用于Hadoop的MapReduce,它允许开发者使用Python编写MapReduce程序,从而充分利用Python的灵活性和易用性。 #### 四、Python结合Hadoop构建数据...
- **Hadoop Streaming**:支持使用非 Java 语言(如 Shell 脚本、Python 等)编写 Map 和 Reduce 函数。 - **Hadoop Pipes**:提供了 C++ API 来实现 Map 和 Reduce 函数,适合需要高性能处理的应用场景。 #### 六...
此外,Hadoop 还支持使用其他编程语言,如 Python 和 Scala,通过 Pig 或 Hive 等高级接口编写 MapReduce 作业,简化开发过程。然而,对于更复杂的逻辑,Java 仍然是首选,因为它提供了更大的灵活性和性能。 在项目...
这个库简化了在分布式计算系统中执行数据处理任务的过程,使得Python开发者无需深入理解Hadoop的底层细节也能编写MapReduce程序。 MapReduce是一种编程模型,由Google提出,用于大规模数据集的并行处理。它将大数据...