- 浏览: 15970 次
- 性别:
- 来自: 武汉
最新评论
文章列表
[置顶] 多线程之线程池
- 博客分类:
- 多线程并发编程系列
多线程教程 | 第一篇: 线程池(Thread Pool)
1、线程池简介
在开发服务器端软件项目时,软件经常需要处理执行时间很短而数目却非常巨大的请求,如果为每一个请求创建一个新的线程,会导致性能上的瓶颈,因为线程 ...
Spark提供了两种创建RDD的方式:读取外部数据集,以及在驱动器程序中对一个集合进行并行化。
在驱动器程序中对一个集合进行并行化的方式有两种:parallelize()和makeRDD()。
1、parallelize()
def parallelize[T: ClassTag](
seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T] = withScope {
assertNotStopped()
new ParallelCollectionRDD[T](this, seq ...
Spark基础-RDD编程
- 博客分类:
- Spark数据分析
一、创建RDD
Spark提供了两种创建RDD的方式,读取外部数据集,以及在驱动器程序中对一个集合进行并行化。
1、读取外部数据:
val lines = sc.textFile("/path/to/README.md")
2、对集合进行并行化
val lines = sc.parallelize(List("pan ...
性能优化 | JVM基础
前言
随着我们业务越来越复杂,高并发,高性能,都是一些系统在设计之初必须考虑的问题,这就需要对我们的程序进行性能的优化,而这涉及到的方面很多,这里主要从以下两个方面进行讲解:
JVM的优化;
TOMCAT的优化;
1、JVM基本组成部分
Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域都有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,有些区域则依赖用户线程的启动和结束而建立和销毁。
JVM的基本组成结构包括:
类加载子系统
方法区
Java堆
直接内存
Java 栈
...
1、思考,自己设计一分布式文件系统?
块(block)
流水线(pipeline)
2、分布式文件系统
通透性、容错(备份)
适用于一次写入多次查询的情况,不支持并发写情况,小文件不合适。
3、HDFS的相关命令
3.1、查看命令:
hadoop fs -ls hdfs://hostname:9000/
3.2、上传命令
hadoop fs -copyFromLocal 本地文件 hdfs文件
3.3、查看文件命令
hadoop fs -cat hdfs文件 | more
3.4、统计文件、文件夹数量
hadoop fs -count /
PS:根目录算一个文件 ...
本文主要讲解如何搭建Hadoop集群。
第一步,去apache官网下载Hadoop包,版本号为:2.6.5
http://hadoop.apache.org/releases.html
第二步:修改配置文件
1、修改hadoop-env.sh
export JAVA_HOME=***
2、core-site.xml
vim core-site.xml
<configuration>
<!--用来指定HDFS的NameNode的地址-->
<property>
<name>fs.defaultFS&l ...