- 浏览: 242796 次
- 性别:
- 来自: 北京
最新评论
-
saiyaren:
你对hiphop的深入程度到了什么程度了?想和你进行探讨一下
facebook hiphop php vm 实现概述 -
eric_weitm:
lj3362569 写道可以再讲具体点么?还有现有的hipho ...
facebook hiphop php vm 实现概述 -
lj3362569:
可以再讲具体点么?还有现有的hiphop不支持哪些功能?
facebook hiphop php vm 实现概述
文章列表
java多线程的几个层次
- 博客分类:
- java
一、基础
1、jvm跨平台说的是跨硬件和OS平台,是面向机器的低层次的虚拟机
2、内存划分为main memory(对应裸机内存)和每个线程的工作内存(对应进程用户空间)。
3、java线程对应os的进程,工作空间对应进程的用户空间,jvm对应硬件
4、主内存的指令:lock(锁定到某个线程) unlock read write
线程工作内存指令:load store use assign 。所有的函数内的操作,都针对线程的工作空间内存。
5、linux中。一个java线程对应一个内核线程(轻量进程)
6、CAS:自旋锁,乐观锁,不是每次强制切换上下文环境,而是短时间的轮训和等 ...
Netty内部实现 一 消息处理主框架
- 博客分类:
- java
1、EventExecutorGroup 内部维护多个消息循环,每一个group由一个EventLoop(EventExecutor)来监听和回调。具体实现类MultithreadEventExecutorGroup:内部使用children维护了多个EventLoop,默认分配策略是依次为每个channel分配EventLoop。一个eventLoop循环多个连接获取消息。这样保证每个连接的消息是单线程的。
2、EventLoop的具体实现是EpollEventLoop或NIOEventLoop,内部逻辑是每个obj对应一个线程,一个blockingqueue,一个事件循环。每一个循环周 ...
1、世界是不确定的,所有的函数表达式y=f(x) 只在理论中存在,现实世界中所观察到的信息,都是带有随机性的信息。所以从经验中总结规律,利用统计学和概率论是个靠谱的想法。
2、不确定性的原因?
1》世界本身不确定(比如量子力学) 2》没法掌握影响结果的所有因素(在造物主面前,人类是渺小的) 3》不完全建模(舍弃不需要的细节,太多细节,不利于应用)
3、概念上讲,函数关系是概率关系的特例(函数值出现的概率恒等于1)。所以函数关系都可以改造成概率的模式(核心是满足概率的和是1),如果在改造的同时,能够满足一些比较好的分析性质(连续、可微、可积分、凸函数),就是非常爽的一件事。在函数的名字上, ...
资产管理公司最核心的任务是2件事(前台),一个是销售,一个是投资。具体下来大概包括,研究(技术和基本面)、投资(组合和策略)、估值、业绩分析和反馈。其中最核心的是研究和投资决策。AI目前可以对投资整个过程造成影响。对于最核心的研究和投资。
一、目前至少可以考虑实现:
1、垂直领域的全文检索,(极大提高研究员的工作效率,不用自己去search)
2、相关性分析。比如,推荐相关的股票。
3、自动发现主题。可以实现基于舆情的关注度策略。
4、nlp舆情分析。实时的负面情绪监控可以止损,正面情绪可以做投资参考。
5、财务造假识别、智能分析财报的“坑”。
二、相关的AI技术
主要是 ...
training: Optimizer的各种算法 、学习率衰退(learning rate decay)、basic_train_loop、session、checkpoint、处理导数和梯度、队列、分布式执行
ops:绑定的c++ operation
framework:对c++的绑定
client:处理session
Estimator:评估器的抽象,Estimator包装类、输入的队列缓存
models:实现的model
contrib:高层的抽象
layers:层
nn:Neural Network
contrib细节:
tf.contrib.baye ...
CNN:
卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 这些良好的性能是网络在有监督方式下学会的,网络的结构主要有稀疏连接和权值共享两个特点,包括如下形式的约束:
1 特征提取。每一个神经元从上一层的局部接受域得到突触输人,因而迫使它提取局部特征。一旦一个特征被提取出来, 只要它相对于其他特征的位置被近似地保留下来,它的精确位置就变得没有那么重要了。
2 特征映射。网络的每一个计算层都是由多个特征映射组成的,每个特征映射都是平面形式的。平面中单独的神经元在约束下共享相同的突触权值集,这种结构形式具有如下的有益效果 ...
一、基本概念
1、stochastic gradient descent(SGD):随机梯度下降,不是每次迭代参数的计算都使用全部的数据,而是取一部分(一个patch)进行计算。
2、epoch:把所有训练数据完整的过一遍。
3、step_num:过一遍需要的训练的次数。
4、patch:每次进行梯度训练时,使用的数据子集
5、泛逼近定理 “Universal approximation theorem”, 一个隐藏层可以任意逼近连续函数
二、tensorflow基础
1、用计算图描述分布式计算任务,每个session有个默认graph
2、op 是graph的节点,描 ...
crab:
yum install python-dev python-numpy python-numpy-dev python-setuptools python-numpy-dev python-scipy libatlas-dev g++
pip install -U scikits.learn -i https://pypi.tuna.tsinghua.edu.cn/simple/
git clone https://github.com/muricoca/crab.git
python setup.py install
Model: user item喜好 ...
numpy 傅里叶变换、线性代数、随机数计算
pandas 数据分析库
Scipy 在NumPy的基础上提供了很多科学模块
gensim 相关性分析(基于语义的搜索)
Pattern web挖掘
snownlp中文处理集成包
Scikit-learn:机器学习
keras 深度学习库
Natural Language Toolkit (NLTK):主要是针对英文,大而全的研究性软件包,可以使用其分类功能
crab 推荐引擎
word2vec-recommender 推荐引擎
textsum:文本抽取
情感分析 xiaohan2012/twitter-sent- ...
import logging
from logging import NullHandler
log = logging.getLogger(__name__)
log.addHandler(NullHandler())
from corpussrc import DoubanCorpus
from gensim import corpora, models, similarities
from cleaner import StopWordFilter
def test_lsi_query(dictionary, lsi, index):
teststr = ...
nlp 统计语言模型
- 博客分类:
- 自然语言处理
统计模型把句子看做,单词的依次排列,即多个单词的复合条件概率。词是文章的原子单位,nlp的基本思路是,向量化词(可计算),为文档建模,之后进行分类、相关性分析等处理。
一、bow(bag of word)
单词的组合,表示文档。不考虑单词的顺序和上下文。
二、n-gram模型
除了bow还考虑上下文
三、词的向量化(数学建模):
1、one hot representation 除了一个维度是1,剩余的都是0
2、distributed representation
one hot太稀疏,所以先让神经网络学习向量空间的映射,从稀疏表示变成分布式表示(深度学习的特 ...
1、数据源:包括文本、pdf、数据库等不同来源
2、使用到的库:jieba gensim sklearn keras
3、可以实现的服务:找出相关和相近词(以分词为准)、比较2个分词的相似度、和哪些相关同时和别的不相关(语义上的模糊查找)
比如:中国银行:
[["中国工商银行", 0.7910350561141968], ["601988", 0.7748256921768188], ["工商银行", 0.7616539001464844], ["建设银行", 0.7573339939117432], ...
1、数据能存下来,hdfs(分布式文件系统)
2、能进行资源调度 yarn
3、能对存下来的大数据进行计算,mapreduce(多个硬盘同时处理)
4、更灵活更快的计算框架 spark sparksql
5、简化map reduce的开发, hive(使用sql的数据仓库)
6、机器学习 Mahout
7、实时处理 storm(缺点是只能处理事先定好的数据和逻辑)
基本架构:hdfs+yarn spark hive mahout
一、基本概念
namenode:dfs的目录、数据块等元数据
datanode:具体的数据
journalnode namenodez 之间元数据的同步
dfs:distributed file system
mapred:map reduce
ResourceManager:总入口和总调度(针对一个app)
ApplicationMaster:具体的作业调度(支持非map reduce)
NodeManager:一个节点的管理daemon
container:节点内执行的环境(资源)
Job History Server(api +RPC):收集和展现log信息
...
安全包括 验证身份和授权,spring对这2部分都进行了支持。
一、基本概念和javase抽象
subject = principal(身份) + credential(凭证)
pricipal的例子:身份证号、用户名、电话号码
credential的例子:密码、证书
Permission:权限
Policy:权限控制策略
AccessController:使用权限
ProtectionDomain:维护了一组身份和权限
加解密:
Cipher 加密服务
MessageDigest 摘要
SecretKey 对称秘钥
PublicKey和PrivateKey 非 ...