- 浏览: 17012 次
- 性别:
- 来自: 武汉
文章列表
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
最近在研究个性化推荐系统,基础很是薄弱,没有海量数据处理相关经验,这篇文章算是分享了一些经验。若想将个性化推荐技术运用于互联网中,必须面对增量计算和可拓展性问题,即能够进行分布式部署于服务器集群中,这 ...
1、下载python3.5
wget https://www.Python.org/ftp/python/3.5.0/Python-3.5.0.tgz
注:如果在Linux中下载较慢,可以在Windows操作系统中去Python官网下载:https://www.python.org/downloads/release/python-350/
注意要下载Gzipped source tarball版本的,然后使用WinSCP将下载好的文件Python-3.5.0.tgz拖拽到Linux中,后续步骤还是不变的。
2、解压
tar zxvf Python-3.5.0.tgz
3、进入Python-3. ...
转自:https://github.com/alibaba/RocketMQ/wiki/rmq_vs_kafka
引用淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件,使用MySQL作为消息存储媒介,可完全水平扩容,为了进一步降低成本,我们认为存储部分可以进一步优化,2011年初,Linkin开源了Kafka这个优秀的消息中间件,淘宝中间件团队在对Kafka做过充分Review之后,Kafka无限消息堆积,高效的持久化速度吸引了我们,但是同时发现这个消息系统主要定位于日志传输,对于使用在淘宝交易、订单、充值等场景下还有诸多特性不满足,为此我们重新用Java语言编写了RocketMQ ...
我所知道的Scala持久层框架有:
1、Slick (typesafe出品)
2、Squeryl
3、Anorm(Play的持久层)
4、ScalaActiveRecord (基于Squeryl之上)
5、circumflex-orm
6、activate-framework(不只是scala版的hibernate,支持async db)
web框架的话
1、Spray(build on akka,完全异步,非阻塞,非常有前景,适合REST后端程序)
2、Play(还不是很习惯)
3、Scalatra(对akka,squeryl等都有现成集成,适合需要view层的)
...
参考网址:http://mesos.apache.org/gettingstarted/
实验环境:mesos版本:0.21.0、操作系统:Red Hat 6
为了了解Spark的三种部署standalone、mesos和YARN。所以想尝试部署下mesos集群。我根据自己的需求,参考了官方文档的如下步骤:
Downloading Mesos
There are different ways you can get Mesos:
Download the latest stable release from Apache (Recommended)
$ wget http:// ...
在centos6.5下 安装python3.5.3
下载python3.5.3.tar.gz
./configure
make && make install
make的时候发生错误
提示INFO: Can't locate Tcl/Tk libs and/or headers
安装tcl 和tk包
直接用yum install tcl ,
yum install tk
安装完毕后任然出错,
仔细看python.org/topics/tkinter/给出的指导:
You may have to install Tcl and Tk(when using RP ...
使用window提交到Spark cluster中出现下面错误:
Exit code: 1
Exception message: /bin/bash: line 0: fg: no job control
Stack trace: ExitCodeException exitCode=1: /bin/bash: line 0: fg: no job control
at org.apache.hadoop.util.Shell.runCommand(Shell.java:538)
at org.apache.hadoop.util.Shell.run(Shell.java:455)
at org ...
在hadoop 以yarn运行spark一个很简单的程序时,报错:
java.lang.IllegalStateException: Spark context stopped while waiting for backend
at org.apache.spark.scheduler.TaskSchedulerImpl.waitBackendReady(TaskSchedulerImpl.scala:614)
at org.apache.spark.scheduler.TaskSche ...
wget http://people.centos.org/tru/devtools-2/devtools-2.repo
mv devtools-2.repo /etc/yum.repos.d
yum install devtoolset-2-gcc devtoolset-2-binutils devtoolset-2-gcc-c++
mv /usr/bin/gcc /usr/bin/gcc-4.4.7
mv /usr/bin/g++ /usr/bin/g++-4.4.7
mv /usr/bin/c++ /usr/bin/c++-4.4.7
ln -s /opt/rh/devtoolset- ...
大数据常见错误解决方案(转载)
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!
解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh
2、java Kafka producer error:ERROR kafka.utils.Utils$ - fetching topic metadata ...
Sed命令
调用sed命令有两种形式:
*
sed [options] 'command' file(s)
*
sed [options] -f scriptfile file(s)
a\
在当前行后面加入一行文本。
b lable
分支到脚本中带有标记的地方,如果分支不存在则分支到脚本的末尾。
c\
用 ...
grep, sed 与 awk 相当有用 !
gerp 查找, sed 编辑, awk 根据内容分析并处理.
awk(关键字:分析&处理) 一行一行的分析处理 awk '条件类型1{动作1}条件类型2{动作2}' filename, awk 也可以读取来自前一个指令的 standard input
相对于sed常常用于 ...
grep
linux grep命令
1.作用
Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。
2.格式
grep [options]
3.主要参数
[options]主要参数:
-c:只输出匹配行的计数。
-I:不区分大 小写(只适用于单字符)。
-h:查询多文件时不显示文件名。
-l:查询多文件时只输出包含匹配字符的文件名。
-n:显示匹配行及 行号。
-s:不显示不存在或无匹配文本的错误信息。
-v:显示不包 ...