- 浏览: 47569 次
- 性别:
- 来自: 北京
最新评论
文章列表
转一个大佬关于泊松分布的趣味解释:
https://blog.csdn.net/ccnt_2012/article/details/81114920
Python3.*环境搭建
参考网站:
https://www.runoob.com/python3/python3-install.html
STEP1
以下为在 Window 平台上安装 Python 的简单步骤。
打开 WEB 浏览器访问 https://www.python.org/downloads/windows/ ,一般就下载 executa
pandas交集、差集、并集
- 博客分类:
- python
python3使用pandas进行数据的整合。有时候需要取交集、差集、并集。
# coding:utf-8
import nothing as my_project
import pandas as pd
def get_data():
file_1 = my_project.project_root + '/resources/' + '1_uniq.txt'
file_2 = my_project.project_root + '/resources/' + '2_uniq.txt'
# 加一个额外列
...
数据源:
student
subject
score
a
yingyu
95
a
yuwen
95
b
yingyu
95
b
yuwen
91
c
yingyu
90
c
yuwen
88
d
yingyu
92
建表语句:
create table tmp_test_rank(
student string,
subject string,
score string)
...
pandas绘图的时候中文会变成方块。解决方法就是选择支持中文的字体即可。
import matplotlib.font_manager as fm
# 解决中文字体问题
# mac字体路径:/System/Library/Fonts/
cn_font = fm.FontProperties(fname='/System/Library/Fonts/PingFang.ttc')
plt.legend(prop=cn_font)
sqoop export \
-D mapred.job.queue.name=hive_user \
--connect jdbc:mysql://${host}:${port}/${db} \
--username ${username} \
--password ${password} \
--table ${table_name} \
--export-dir ${hdfsdir}/dt=${dt} \
--update-key STUDENT_ID \
...
源起
最近接到一次刷新线上数据库的任务。目标是对线上MYSQL数据库的订单表非重要字段进行数据修复。待修改的数据集合大概有130万条。
计划
由于业务逻辑比较复杂,所以无法用几句SQL语句来解决问题。 ...
一个线上脚本一般需要使用将数据放到对应的目录。一旦目录被错误删除,整个脚本流程可能被打破,导致无法继续执行。以下分享了对应的代码。
#!/bin/sh
#获取基础目录
SOURCE="$0"
while [ -h "$SOURCE" ];
do # resolve $SOURCE until the file is no longer a symlink
DIR="$( cd -P "$( dirname "$SOURCE" )" && pw ...
linux安装lrzsz方法
- 博客分类:
- 工作经验
下载
wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz
安装
tar zxvf lrzsz-0.12.20.tar.gz
cd lrzsz-0.12.20
./configure --prefix=/usr/local/lrzsz
make
make install
cd /usr/bin
ln -s /usr/local/lrzsz/bin/lrz rz
ln -s /usr/local/lrzsz/bin/lsz sz
注意
如果可以yum安装的话 ...
polarDB和DRDS压力测试
- 博客分类:
- 数据库
测试工具:
Sysbench
测试对象:
阿里云DRDS(8核16G)和PolarDB(2核4G)
测试方法:
Sysbench脚本压力测试。
数据规模为10个表,每个表1000万行数据。
数据:
256线程1小时压测
DRDS
PolarDB
本文写了一个例子,用来实现Spring注入静态变量。静态变量无法直接注入的原因,是static变量的初始化在类加载器加载的时候进行,它早于Web引擎启动的时间。一种解决方案是在执行期通过变量注入的形式进行注入。
package com.my.util;
import javax.annotation.Resource;
import org.springframework.stereotype.Component;
import com.my.dao.ICacheService;
/**
* Cache工具类
* @author aeol ...
1. 写代码的目的
唯一的目的就是解决需求。但是代码的质量体现的是个人工作能力。
如果接受上面的论述,那么请在开工前,确定需求,然后重视代码质量。
所谓确定需求,就是需求描述落到官方文档,且描述不具有二义性。有一个经验:需求描述越冗长,这个需求越有可能是混沌的。所以要警惕这样的需求。
所谓的代码质量:规范性、正确性、高效性、鲁棒性。
代码书写延续规范
程序正确完成需求
程序运转高效
程序能抵御一定的恶意输入,并提示:参数错误,注入攻击,请求攻击,。
2. coding开始前的准备工作
回顾需求:是否明确。
这部分工作用于预防是否存在需求变更或者需求理解偏 ...
原理是认为所有的网站都是可信的。
使用的包情况:
<!-- http client -->
<dependency>
<groupId>commons-httpclient</groupId>
<artifactId>commons-httpclient</artifactId>
<version>3.1</version>
</dependency>
<dependency>
&l ...
面向算法效果的数据统计案例
- 博客分类:
- 工作经验
现在需要做一个关于推荐算法的效果统计报表。产品希望知道算法在每个相关指标的效果如何,比如点击率,注册率。另外,算法工程师想知道算法的预估的效果和最终效果的差异有多大,比如预估的点击率和实际点击率的差异。
来看看我们的思路:首先,延续我们做业务统计的经验,投放效果的公式很容易得到;另外,算法工程师在日志里给出了每次算法的预估效果。
产品经理
算法工程师
需求
算法的效果
算法预估效果与算法真实效果的差异
计划
使用业务统计的效果公式计算算法效果。
1.使用业务统计的效果公式计算算法效果
2.利用日志 ...
commons-pool对象池实例(二)
- 博客分类:
- java
改造上一篇的代码,实现了KeyedObjectPool.
对象池实现类:
package com.my.pool.pooledobject;
import org.apache.commons.pool2.KeyedObjectPool;
public class KeyedPooledStringBuffer {
private KeyedObjectPool<String,StringBuffer> pool;
public KeyedPooledStringBuffer(KeyedObjectPool<String,StringBu ...