Python机器学习快速入门系列4：线性回归

博客分类：

机器学习

网上找的机器学习的资料对于新手来说往往很难，经常一上来就甩你一堆像外星文一样的公式方程，然后就把你满腔的学习热情给无情浇灭，让你觉得是不是该回去学下数学再好好做人。笔者也是一样屡屡被虐，才略有领悟，回过头来看，发现其实机器学习入门本来可以不这么艰难。 Python机器学习快速入门系列文章，希望能够以简单易懂、通俗而有趣的方式，把大家带入Machine Learning的世界。 1.猜数游戏在正式进入线性回归之前，先玩一个猜数的游戏： x= 1 , 3, 8, 9, 15 16 y= 2, ...

2017-02-04 09:00
浏览 1853
评论(0)
分类:行业应用

Python机器学习快速入门系列2：矩阵数学知识整理

博客分类：

机器学习

机器学习算法中，对矩阵的操作非常频繁，如果不熟悉矩阵的数学知识，或者不太理解Python中对于矩阵操作的方法，学习起来会寸步难行，因此这篇笔记用于整理Python和数学相关的基础知识点，方便查阅。 1. Array创建矩阵 ...

2017-02-03 14:35
浏览 1123
评论(0)
分类:行业应用

Python机器学习快速入门系列1：环境安装 Anaconda

博客分类：

机器学习

想要开始玩机器学习，敲个hello world第一关就是环境问题，而python环境下，有3个包必须要装： numpy, pandas 和sklearn。 numpy和pandas都是负责数据计算处理的，而sklearn封装了机器学习算法，因此尤其重要。一般的流程，我们会先安装一个python环境，然后用pip或者easy_install把这几个包装上。但实际操作时，随后会发现，这些包还依赖其他一群包，每种依赖都有一定的版本条件限制，装错一个就跑不起来。笔者在这里也是兜了一大圈，最后放弃了。所幸，我们也不是第一个遇到这种困难，前辈们早就有解决办法了，那就 ...

2017-02-01 11:55
浏览 1089
评论(0)
分类:数据库

Python机器学习快速入门系列4：线性回归

博客分类：

机器学习

网上找的机器学习的资料对于新手来说往往很难，经常一上来就甩你一堆像外星文一样的公式方程，然后就把你满腔的学习热情给无情浇灭，让你觉得是不是该回去学下数学再好好做人。笔者也是一样屡屡被虐，才略有领悟， ...

2017-01-23 15:52
浏览 1166
评论(0)
分类:数据库

常用大数据技术名词通俗解释

常用大数据技术名词通俗解释 Hadoop: 最早出现的大数据的概念就是体现在Hadoop上面，简单理解就是虚拟了一个存储系统，一个文件在多台机器上保存多份，丢失几率很小。由于机器集群可以横向扩充，因此能保存理论上无穷多的文件，因此称为大数据平台。 MapReduce: 在Hadoop存文件的基础上，MapReduce担任处理文件的角色，它读到文件，并把处理文件的任务分成很多子任务，让它们在多台机器上执行，然后汇总结果。因此，只要机器足够多，处理文件的能力可以无限扩充。但它的一个缺点是每个任务的衔接，都是通过中间文件来完成，因此，除了CPU外，有很多磁盘读写的操作。 ...

2015-12-30 12:23
浏览 1538
评论(0)
分类:数据库

财务报表分析关键点总结

又到了看报表炒股的时候了，总结一下之前的笔记，用来作选股依据，5分钟看一股。满足下列条件的股票，虽然可能不会大涨，但是绝对不可能大跌。 1. 经营现金流量/收入>0.5 参数可配置，越大股票越好 2. 资产负债 ...

2015-05-20 07:31
浏览 1369
评论(0)
分类:行业应用

VMWare虚拟机集群搭建Hadoop with Hive

虚拟机下载，以及序列号准备 VMware Workstation v11.1.0 https://download3.vmware.com/software/wkst/file/VMware-workstation-full-11.1.0-2496824.exe key ：1F04Z-6D111-7Z029-AV0Q4-3AEH8 Linux操作系统Centos 6.6 CentOS-6.6-i386-minimal.iso 虚拟机网络参数：网络选择NAT, vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEV ...

2015-05-13 21:22
浏览 2389
评论(0)
分类:数据库

架构师的自我修养(一)

博客分类：

管理

1. 架构师既是技术专家，同时也是业务领域的专家，能够预见业务领域风险，并提供解决的办法。技术上经验丰富的人会有很多，只要在技术的道路上，总是会沉淀各种各样的技术。而对于业务的把握，则是一个缘分。需要有额� ...

2014-03-17 21:36
浏览 1631
评论(0)
分类:企业架构

Oracle的表

博客分类：

DB

堆表 -- 普通表 99%的应用在使用到表的时候，都是使用堆表。Heap，这是一个无序的空间，插入的数据会找到一个合适的位置来存储，带有随机性，而不是按插入的顺序来存储。所以，在全表扫描的时候，返回的数据是按照空间� ...

2014-03-05 11:05
浏览 1379
评论(0)
分类:数据库

Oracle的Redo和Undo

博客分类：

DB

延迟段创建： create table的时候，并没有真正分配段，而已等真正需要insert的时候才进行分配空间。 Update+ Commit所做的工作： update: 生成undo信息修改数据块给数据块加锁标记，得到锁生成Redo信息 commit: 为事务生成SCN，计数 LGWR把Redo日志写入到磁盘 -- IO最花时间, PLSQL中的Commit不会等LGWR写入磁盘，立刻返回。而其他的调用则需等待 V$Transaction中删除事务记录 V$Lock中记录的锁释放清除块上的锁信息所以commit过程的工作确实 ...

2014-03-05 09:06
浏览 1843
评论(0)
分类:数据库

Oracle的事务

博客分类：

DB

显式调用编写Oracle程序的时候，一个比较好的习惯就是要显示地执行Commit或者Rollback. 一些工具如Sqlplus在退出的时候，会自动commit，而另外一些则会rollback。如果过分的依赖这些隐式地调用，那么有可能造成不可预估的后果。 ...

2014-03-04 10:31
浏览 1263
评论(0)
分类:数据库

Oracle的锁

博客分类：

DB

Oracle的锁是行锁，实现方式是在块上进行标识锁状态，因此几乎没有相关的开销，锁定1行和锁定1百万行的开销几乎是一样的。由于Oracle的并发和多版本的实现，存在丢失更新的文件，需要代码手工去避免，这也是出于性能的考虑，让Oracle天然具有读写分离的特性。悲观锁： select for update nowait. nowait的区别在于其他线程对于相同资源的访问并不会进行等待，而是立刻返回。乐观锁：表里面加上versionID来控制不同线程的修改。或者使用虚拟列,这个虚拟列是Hash值，基本不会带来任何开销 select name, lo ...

2014-03-04 08:57
浏览 777
评论(0)
分类:数据库

Oracle的并发和多版本控制

博客分类：

DB

写不会阻塞读，这是Oracle和其他数据库的一个根本的区别。Oracle能够同时物化多个版本的数据，每次写入数据，都会另外生成一个版本，并附上时间戳，而当一个读操作发起时，它只能读到这个时间戳以内的版本，超过这个时间戳所更新的数据，是不会返回在结果集里面。所以一个程序如果只是读操作，那么它永远也不会被阻塞，也不会发生死锁。从某种意义上看，Oracle天然就具备了读写分离的特性。不像Mysql，需要采用主备集群的方式来实现读写分离。支持的事务的隔离级别是Read Commited和Serializable。对于Read Commit，他允许“不可重复读”和“幻读” 不 ...

2014-03-03 22:27
浏览 1416
评论(0)
分类:数据库

SQL性能调优技巧

博客分类：

DB

Data Model设计的Tip 1. 以三个范式为基础，业务的独立性和原子性拆分要合适，杜绝Key的冗余和不充分依赖 2. 对于有NULL值的时候，说明可以拆分为子类，如果有互斥值，比如两个字段，如果A有值，那么B就不能有值 3. 隐藏的约束，某个Column为A值，那么另外一个Column就必须为B值，或者某个Column只能是1~20的值 4. 对于Boolean值，比如某个Flag Column, Y/N, 其实可以考虑用更有意义的值来替代，比如Complete Date. 当然如果处于性能考虑的话不在此列。高效访问DB的Tip 1. jav ...

2014-02-28 23:49
浏览 1077
评论(0)
分类:数据库

从言必称“云”看近十年的技术概念炒作

博客分类：

SOA架构

任何一家科技企业，推出自己的新产品的时候，不管怎么样，总得在里面加上一个云字，仿佛不加上这个帽子就是土鳖，一加上立马就成了“高大上”，连股票都能涨停。Oracle CEO拉里几年前曾经对这种现象异常反感，但后来 ...

2014-02-15 23:06
浏览 937
评论(0)
分类:行业应用

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Python机器学习快速入门系列4：线性回归

Python机器学习快速入门系列2：矩阵数学知识整理

Python机器学习快速入门系列1：环境安装 Anaconda

Python机器学习快速入门系列4：线性回归

常用大数据技术名词通俗解释

财务报表分析关键点总结

VMWare虚拟机集群搭建Hadoop with Hive

架构师的自我修养(一)

Oracle的表

Oracle的Redo和Undo

Oracle的事务

Oracle的锁

Oracle的并发和多版本控制

SQL性能调优技巧

从言必称“云”看近十年的技术概念炒作

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>