hadoop_2 - Tristan - ITeye博客

`

Tristan_S

浏览: 383626 次
性别:
来自: 上海

最近访客更多访客>>

devcang

loginboot

ty518459

william_dev

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

小灯笼： LoadRunner性能测试实战课程网盘地址：https:// ...
LoadRunner性能测试实战教程
爱上疯狂： [范德萨发的是发大水发大水发多大沙发啊quote]
main方法测试外系统接口
siphlina： Loadrunner视频——http://pan.baidu. ...
LoadRunner性能测试实战教程
全球唯一的你： LoadRunner性能测试实战视频教程课程观看地址：http ...
LoadRunner性能测试实战教程
凡人修仙：课程：LoadRunner性能测试实战网盘地址： http:/ ...
LoadRunner性能测试实战教程

hadoop_2

博客分类：

技术

阅读更多

/usr/lib/hadoop-0.20-mapreduce

sqoop list-tables --connect jdbc:mysql://localhost/movielens --username training --password training

sqoop import --connect jdbc:mysql://localhost/movielens --table movie --fields-terminated-by '\t' --username training --password training

sqoop import --connect jdbc:mysql://localhost/movielens --table movierating --fields-terminated-by '\t' --username training --password training

hadoop fs -tail movierating/part-m-00000

6037
6038
6039
6040

mahout recommenditembased --input movierating --output recs --usersFile users --similarityClassname SIMILARITY_LOGLIKELIHOOD
hadoop fs -tail recs/part-r-00000

hadoop fs -cat movie/part-m-00000 | head

hadoop fs -cat movierating/part-m-00000 | head

create external table movie (id INT, movieid INT, rating INT) row format delimited fields terminated by '\t' location '/user/training/movierating'

create external table movierating (userid INT, movieid INT, rating INT) row format delimited fields terminated by '\t' location '/user/training/movierating'

------------failed----------
movies = load 'movie' AS (movieid, name, year);

recs = load 'recs' AS (userid, reclist);

longlist = FOREACH recs GENERATE userid,
FLATTEN(TOKENIZE(reclist)) AS movieandscore;

finallist = FOREACH recs GENERATE userid,
REGEX_EXTRACT(movieandscore, '(\\d+)', 1) AS movieid;

results = JOIN finallist BY movieid, movies BY movieid;

final = FOREACH results GENERATE userid, name;

srtd = ORDER final BY userid;

dump srtd;
-----------------------

others
hadoop fs -cat [] | tail -n 50
cd ~
gunzip -c access_log.gz | head -n 500 > a //if the zip file is too big, just get 500 lines

分享到：

hadoop_3 | mongoDB

2013-03-22 15:55
浏览 363
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

pc机连接集群的HADOOP_HOME: 2. 在Linux中，可以编辑`~/.bashrc`或`~/.bash_profile`文件，添加`export HADOOP_HOME=你的Hadoop路径`，然后运行`source ~/.bashrc`或`source ~/.bash_profile`使更改生效。对于标签中的“客户端”，在Hadoop中...

Hadoop_2.X_HDFS源码剖析_带索引书签目录_徐鹏: 《Hadoop_2.X_HDFS源码剖析》是由徐鹏编著的一本深入解析Hadoop 2.x版本中HDFS（Hadoop Distributed File System）源码的专业书籍。这本书旨在帮助读者理解HDFS的核心机制，提升在分布式存储系统方面的专业技能。 ...

Hadoop_2.X,eclipse开发插件: Hadoop_2.X是Apache Hadoop的第二个主要版本，它带来了许多重要的改进和新特性，旨在提高大数据处理的效率和可扩展性。Eclipse开发插件则是为了方便开发者在Eclipse集成开发环境中进行Hadoop应用的编写、调试和管理...

hadoop_join.jar.zip_hadoop_hadoop query_reduce: 在大数据处理领域，Hadoop和MapReduce是两个至关重要的概念，它们构成了大数据处理的基础框架。本文将深入探讨如何使用Hadoop和MapReduce进行高效的Join查询，并解析如何通过`hadoop_join.jar`这个工具来实现这一...

hadoop_hadoop-2.7.2-hbase-jar.rar linux下包: 标签 "hadoop_hadoop-2." 显示了这是Hadoop的一个特定版本，2.x系列，但标签没有完全显示版本号，所以我们只能知道是2.x系列的一部分。压缩包子文件的文件名称列表中仅有一个条目 "hadoop_hadoop-2.7.2-hbase-jar...

Hadoop_进行分布式并行编程.doc: Hadoop_进行分布式并行编程.doc Hadoop_进行分布式并行编程.doc

hadoop_dll_winutil_2.7: 2. `winutils.exe`：一个用于执行Windows系统特定任务的工具，例如设置HADOOP_HOME环境变量，创建HDFS目录等。 3. 可能还有其他支持库，如`jvm.dll`，它们是Java虚拟机的一部分，确保Hadoop在Windows上的稳定运行。 ...

hadoop-streaming-2.8.0_jar_2.8.0_hadoop_streaming_: 2. **DumpTypedBytes**: 这可能是用于处理二进制数据的工具类，它可能在读取或写入特定格式的数据时被调用，尤其是在处理自定义数据类型时。 3. **Environment.class**: 这可能涉及到 Hadoop Streaming 中的任务...

hadoop_test.rar_API_client_hadoop test 作用_hadoop test_hadoop-te: 2. **Hadoop配置**：理解如何配置Hadoop环境，包括`core-site.xml`, `hdfs-site.xml`等配置文件的设置。 3. **错误处理和容错**：学习如何处理API调用中可能出现的异常，并理解HDFS的自动故障恢复机制。 4. **性能...

hadoop_spark_数据算法: hadoop_spark_数据算法hadoop_spark_数据算法hadoop_spark_数据算法hadoop_spark_数据算法

hdfs-webdav.rar_hadoop_hadoop webdav_hadoop 系统_hadoop2.0 d_hdfs: 2. hadoop_webdav：表明讨论的是Hadoop与WebDAV的结合使用。 3. hadoop_系统：暗示可能涉及Hadoop集群的管理和配置。 4. hadoop2.0_d：指的是Hadoop的2.0版本，这个版本引入了许多重要的改进和特性。 5. hdfs：...

hadoop_dll_winutil_2.7.1: 2. `.dll` 文件：这些是运行 Hadoop 必需的库文件，例如 `hadoop.dll`, `hdfs.dll`, `libwinutils.dll` 等，它们提供了 Hadoop 的功能实现。 3. 可能还有其他配置文件和文档，帮助用户了解如何设置环境变量，以及...

windows连接Hadoop需要的文件winutils和hadoop_dll: 2. hadoop_dll2.6.0_64bit.zip：这个文件则提供了适用于Hadoop 2.6.0版本的64位hadoop.dll。Hadoop 2.6是2.x系列的一个重要里程碑，它引入了YARN（Yet Another Resource Negotiator），改进了资源管理和调度。在...

hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop: Hadoop是Apache软件基金会开发的一个开源框架，主要设计用于处理和存储海量数据。它采用了分布式计算模型，使得在大规模集群上处理数据变得高效且可靠。HDFS（Hadoop Distributed File System）是Hadoop的核心组件之...

hadoop_class-master.zip_Master Class_hadoop_社交: 【标题】"hadoop_class-master.zip_Master Class_hadoop_社交" 涉及到的核心知识点是Hadoop在处理社交网络数据时的应用，特别是在社交网络分析中的三角形统计和倒排索引的实现。 Hadoop是一个开源的分布式计算框架...

hadoop2.7_winutils_exe和hadoop_dll: 在IT行业中，Hadoop是一个广泛使用的开源框架，主要用于大数据处理和分布式存储。Hadoop 2.7是其一个重要的版本，提供了许多改进和优化。在Windows操作系统上搭建Hadoop环境时，由于默认不支持，我们需要借助一些...

hadoop_dll2.6.0_64bit_windows_dll_hadoop_: 2. 设置Hadoop环境变量，包括HADOOP_HOME、JAVA_HOME和PATH。 3. 配置Hadoop的配置文件，根据实际需求调整设置，例如数据节点、名称节点的数量等。 4. 将压缩包中的DLL文件放置到正确的位置，通常是系统的PATH环境...

hadoop2.7.x_winutils_exe&&hadoop;_dll: 2. **PATH变量**：将%HADOOP_HOME%\bin添加到系统PATH环境变量中，这样在任何地方都可以通过命令行直接执行winutils.exe。 3. **权限设置**：winutils.exe用于处理HDFS权限，因此可能需要管理员权限才能执行某些...

hadoop_hello_world: 2. `input.txt`：作为示例的输入文本文件，里面包含一些单词供程序计数。 3. `hadoop.conf`：可能包含配置文件，用于设置Hadoop作业的参数，如输入和输出路径、内存分配等。 4. `pom.xml`：如果是Maven项目，这个...

hadoop_windows_tools.rar: 2. **winutils.exe**：这是Hadoop在Windows上的一个实用工具，用于执行与Hadoop环境配置和管理相关的任务，如设置Hadoop环境变量、创建HDFS目录、管理HDFS文件权限等。在Linux上，这些功能通常由名为`hadoop`或`hdfs...

Global site tag (gtag.js) - Google Analytics