30天了解30种技术系列(17)---词关系分析神器Word2vec

jackchan

浏览: 65405 次

最近访客更多访客>>

leisureWong

独浮云

luojianbing

dcmr

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 老钱说技术
浏览量：49473

文章分类

社区版块

存档分类

博客分类：

30天了解30种技术

自然语言处理

我本人是自然语言处理的从业者，同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.

Word2vec 是由Google开源，基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型，所以离这个Deep Learning 稍微差一些。

word2vec的官方地址：https://code.google.com/p/word2vec/，下载好代码后进行编译即可。

如果是中文，需要先找一个分词工具对词进行分词，可以用jieba（这个。。），阿里，ANSJ

通过以下方式可以对结果集，进行处理

nohup ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 &

##相似此计算
/distance vectors.bin

以下使用81万条样本处理过后，得到的结果，从结果可以看出，屏幕的近似词为显示屏，电脑屏幕，还是相当的精准的。

有了这个以后，咱们就可以构建词的关系网络，如android 有关系的词，在海量文本数据里面是一种非常有效的前期数据处理工具。

大家如果对于哪个技术比较感兴趣，可以私信，我会有重点的在后续文章进行展开。

更多精彩请关注微信 : 图灵搜索

大家也可以使用中国第一个为程序员打造的搜索引擎：https://www.tulingss.com 进行查看。

查看图片附件

3
顶

2
踩

分享到：

30天了解30种技术系列(18)--- 强大的日志管 ... | 30天了解30种技术系列---(16)可视化爬虫工 ...

2015-08-21 15:17
浏览 1751
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论