`
Tristan_S
  • 浏览: 383626 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop_2

 
阅读更多
/usr/lib/hadoop-0.20-mapreduce

sqoop list-tables --connect jdbc:mysql://localhost/movielens --username training --password training

sqoop import --connect jdbc:mysql://localhost/movielens --table movie --fields-terminated-by '\t' --username training --password training

sqoop import --connect jdbc:mysql://localhost/movielens --table movierating --fields-terminated-by '\t' --username training --password training

hadoop fs -tail movierating/part-m-00000

6037
6038
6039
6040


mahout recommenditembased --input movierating --output recs --usersFile users --similarityClassname SIMILARITY_LOGLIKELIHOOD
hadoop fs -tail recs/part-r-00000


hadoop fs -cat movie/part-m-00000 | head

hadoop fs -cat movierating/part-m-00000 | head


create external table movie (id INT, movieid INT, rating INT) row format delimited fields terminated by '\t' location '/user/training/movierating'


create external table movierating (userid INT, movieid INT, rating INT) row format delimited fields terminated by '\t' location '/user/training/movierating'

------------failed----------
movies = load 'movie' AS (movieid, name, year);

recs = load 'recs' AS (userid, reclist);

longlist = FOREACH recs GENERATE userid,
FLATTEN(TOKENIZE(reclist)) AS movieandscore;

finallist = FOREACH recs GENERATE userid,
REGEX_EXTRACT(movieandscore, '(\\d+)', 1) AS movieid;

results = JOIN finallist BY movieid, movies BY movieid;

final = FOREACH results GENERATE userid, name;

srtd = ORDER final BY userid;

dump srtd;
-----------------------

others
hadoop fs -cat [] | tail -n 50    
cd ~
gunzip -c access_log.gz | head -n 500 > a    //if the zip file is too big, just get 500 lines






分享到:
评论

相关推荐

    pc机连接集群的HADOOP_HOME

    2. 在Linux中,可以编辑`~/.bashrc`或`~/.bash_profile`文件,添加`export HADOOP_HOME=你的Hadoop路径`,然后运行`source ~/.bashrc`或`source ~/.bash_profile`使更改生效。 对于标签中的“客户端”,在Hadoop中...

    Hadoop_2.X_HDFS源码剖析_带索引书签目录_徐鹏

    《Hadoop_2.X_HDFS源码剖析》是由徐鹏编著的一本深入解析Hadoop 2.x版本中HDFS(Hadoop Distributed File System)源码的专业书籍。这本书旨在帮助读者理解HDFS的核心机制,提升在分布式存储系统方面的专业技能。 ...

    Hadoop_2.X,eclipse开发插件

    Hadoop_2.X是Apache Hadoop的第二个主要版本,它带来了许多重要的改进和新特性,旨在提高大数据处理的效率和可扩展性。Eclipse开发插件则是为了方便开发者在Eclipse集成开发环境中进行Hadoop应用的编写、调试和管理...

    hadoop_join.jar.zip_hadoop_hadoop query_reduce

    在大数据处理领域,Hadoop和MapReduce是两个至关重要的概念,它们构成了大数据处理的基础框架。本文将深入探讨如何使用Hadoop和MapReduce进行高效的Join查询,并解析如何通过`hadoop_join.jar`这个工具来实现这一...

    hadoop_hadoop-2.7.2-hbase-jar.rar linux下包

    标签 "hadoop_hadoop-2." 显示了这是Hadoop的一个特定版本,2.x系列,但标签没有完全显示版本号,所以我们只能知道是2.x系列的一部分。 压缩包子文件的文件名称列表中仅有一个条目 "hadoop_hadoop-2.7.2-hbase-jar...

    Hadoop_进行分布式并行编程.doc

    Hadoop_进行分布式并行编程.doc Hadoop_进行分布式并行编程.doc

    hadoop_dll_winutil_2.7

    2. `winutils.exe`:一个用于执行Windows系统特定任务的工具,例如设置HADOOP_HOME环境变量,创建HDFS目录等。 3. 可能还有其他支持库,如`jvm.dll`,它们是Java虚拟机的一部分,确保Hadoop在Windows上的稳定运行。 ...

    hadoop-streaming-2.8.0_jar_2.8.0_hadoop_streaming_

    2. **DumpTypedBytes**: 这可能是用于处理二进制数据的工具类,它可能在读取或写入特定格式的数据时被调用,尤其是在处理自定义数据类型时。 3. **Environment.class**: 这可能涉及到 Hadoop Streaming 中的任务...

    hadoop_test.rar_API_client_hadoop test 作用_hadoop test_hadoop-te

    2. **Hadoop配置**:理解如何配置Hadoop环境,包括`core-site.xml`, `hdfs-site.xml`等配置文件的设置。 3. **错误处理和容错**:学习如何处理API调用中可能出现的异常,并理解HDFS的自动故障恢复机制。 4. **性能...

    hadoop_spark_数据算法

    hadoop_spark_数据算法hadoop_spark_数据算法hadoop_spark_数据算法hadoop_spark_数据算法

    hdfs-webdav.rar_hadoop_hadoop webdav_hadoop 系统_hadoop2.0 d_hdfs

    2. hadoop_webdav:表明讨论的是Hadoop与WebDAV的结合使用。 3. hadoop_系统:暗示可能涉及Hadoop集群的管理和配置。 4. hadoop2.0_d:指的是Hadoop的2.0版本,这个版本引入了许多重要的改进和特性。 5. hdfs:...

    hadoop_dll_winutil_2.7.1

    2. `.dll` 文件:这些是运行 Hadoop 必需的库文件,例如 `hadoop.dll`, `hdfs.dll`, `libwinutils.dll` 等,它们提供了 Hadoop 的功能实现。 3. 可能还有其他配置文件和文档,帮助用户了解如何设置环境变量,以及...

    windows连接Hadoop需要的文件winutils和hadoop_dll

    2. hadoop_dll2.6.0_64bit.zip:这个文件则提供了适用于Hadoop 2.6.0版本的64位hadoop.dll。Hadoop 2.6是2.x系列的一个重要里程碑,它引入了YARN(Yet Another Resource Negotiator),改进了资源管理和调度。 在...

    hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

    Hadoop是Apache软件基金会开发的一个开源框架,主要设计用于处理和存储海量数据。它采用了分布式计算模型,使得在大规模集群上处理数据变得高效且可靠。HDFS(Hadoop Distributed File System)是Hadoop的核心组件之...

    hadoop_class-master.zip_Master Class_hadoop_社交

    【标题】"hadoop_class-master.zip_Master Class_hadoop_社交" 涉及到的核心知识点是Hadoop在处理社交网络数据时的应用,特别是在社交网络分析中的三角形统计和倒排索引的实现。 Hadoop是一个开源的分布式计算框架...

    hadoop2.7_winutils_exe和hadoop_dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7是其一个重要的版本,提供了许多改进和优化。在Windows操作系统上搭建Hadoop环境时,由于默认不支持,我们需要借助一些...

    hadoop_dll2.6.0_64bit_windows_dll_hadoop_

    2. 设置Hadoop环境变量,包括HADOOP_HOME、JAVA_HOME和PATH。 3. 配置Hadoop的配置文件,根据实际需求调整设置,例如数据节点、名称节点的数量等。 4. 将压缩包中的DLL文件放置到正确的位置,通常是系统的PATH环境...

    hadoop2.7.x_winutils_exe&&hadoop;_dll

    2. **PATH变量**:将%HADOOP_HOME%\bin添加到系统PATH环境变量中,这样在任何地方都可以通过命令行直接执行winutils.exe。 3. **权限设置**:winutils.exe用于处理HDFS权限,因此可能需要管理员权限才能执行某些...

    hadoop_hello_world

    2. `input.txt`:作为示例的输入文本文件,里面包含一些单词供程序计数。 3. `hadoop.conf`:可能包含配置文件,用于设置Hadoop作业的参数,如输入和输出路径、内存分配等。 4. `pom.xml`:如果是Maven项目,这个...

    hadoop_windows_tools.rar

    2. **winutils.exe**:这是Hadoop在Windows上的一个实用工具,用于执行与Hadoop环境配置和管理相关的任务,如设置Hadoop环境变量、创建HDFS目录、管理HDFS文件权限等。在Linux上,这些功能通常由名为`hadoop`或`hdfs...

Global site tag (gtag.js) - Google Analytics