`

30天了解30种技术系列(17)---词关系分析神器Word2vec

阅读更多

   

   我本人是自然语言处理的从业者,同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.

 

  Word2vec 是由Google开源,基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型,所以离这个Deep Learning 稍微差一些。

 

  word2vec的官方地址:https://code.google.com/p/word2vec/,下载好代码后进行编译即可。

 

  如果是中文,需要先找一个分词工具对词进行分词,可以用jieba(这个。。),阿里,ANSJ

  通过以下方式可以对结果集,进行处理

  

nohup ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 &

##相似此计算
/distance vectors.bin

 

 

  以下使用81万条样本处理过后,得到的结果,从结果可以看出,屏幕的近似词为显示屏,电脑屏幕,还是相当的精准的。

   

 

  有了这个以后,咱们就可以构建词的关系网络,如android 有关系的词,在海量文本数据里面是一种非常有效的前期数据处理工具。

 

 大家如果对于哪个技术比较感兴趣,可以私信,我会有重点的在后续文章进行展开。

 

 更多精彩请关注微信 : 图灵搜索

 大家也可以使用中国第一个为程序员打造的搜索引擎:https://www.tulingss.com 进行查看。

  

 

  • 大小: 4.4 KB
3
2
分享到:
评论

相关推荐

    word2vec.rar_VEC-361_layers5cb_vec361_word2vec_word2vec 中文

    本篇文章将对标题中提及的“word2vec.rar_VEC-361_layers5cb_vec361_word2vec_word2vec 中文”进行详细解读,主要关注其源码实现和中文注解。 首先,"VEC-361"通常指的是模型生成的词向量维度为361维。这意味着每个...

    word2vec-google-news-300.zip.002

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-google-news-300.zip.003

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-google-news-300.zip.010

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-google-news-300.zip.006

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-google-news-300.zip.007

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-master

    《深入解析word2vec:构建语义空间的神经网络模型》 在自然语言处理(NLP)领域,word2vec是..."word2vec-master"项目提供了一个深入理解并实践这一技术的平台,对于学习和应用word2vec的用户来说,是一个宝贵的资源。

    word2vec-google-news-300.zip.009

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    基于gensim-word2vec+svm文本情感分析.完整代码数据可直接运行

    Word2Vec是Google开发的一种词嵌入方法,由Mikolov等人提出,分为CBOW(Continuous Bag of Words)和Skip-gram两种模型。gensim是一个流行的Python库,用于处理和操作大型文本语料库,其中包含了对Word2Vec的实现。...

    word2vec-数学原理

    Word2Vec是Google在2013年提出的一种用于自然语言处理的神经网络模型,其主要目标是学习词向量(word embeddings),将词汇转化为低维连续空间中的向量表示。这个模型由两种主要算法构成:Continuous Bag of Words ...

    word2vec-google-news-300.zip.008

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    Word2Vec java版实现

    Word2Vec是Google在2013年推出的一种基于神经网络的词嵌入技术,它在自然语言处理(NLP)领域中具有广泛的应用。Java版的Word2Vec实现为开发者提供了一个用Java语言编写的工具,使得在不熟悉Python等其他编程语言的...

    shibing624-text2vec-base-chinese模型文件

    shibing624_text2vec-base-chinese模型文件

    Word2vec-OpenSourceReading-master.zip

    "Word2vec-OpenSourceReading-master.zip"是一个包含源码分析的压缩包,由“zhiyong大侠”提供,特别适合那些想要深入理解Word2vec内部工作机制的开发者和研究者。 在这个压缩包中,"OpenSourceReading-master"很...

    Word2Vec-master_java_word2vec_meanssn7_

    Word2Vec是一种流行的自然语言处理(NLP)技术,它由Google的研究人员在2013年提出。这个模型主要用于将词语转化为连续的、低维度的向量表示,这些向量能够捕捉到词汇间的语义关系。在"Word2Vec-master_java_word2...

    vecodo-luajava-master_iphone_VEC-466友人_

    "vecodo-luajava-master_iphone_VEC-466友人_" 是一个与iOS应用开发相关的项目,从标题来看,它可能是一个基于开源中国(OSCHINA)的iPhone客户端的源码,其中包含了用于实现特定功能的Luajava模块。Luajava是Lua...

    基于Python+Word2Vec的近义词分析系统

    【作品名称】:基于Python+Word2Vec的近义词分析系统 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】:基于Python+Word...

    NLP-Word2Vec.rar

    Word2Vec是自然语言处理(NLP)领域中一个重要的技术,由Tomas Mikolov等人在2013年提出。它是一种基于深度学习的模型,能够将词汇转化为连续的向量表示,使得词与词之间的语义关系在向量空间中得以体现。这个模型有...

    word2vec词向量训练及中文文本相似度计算

    在"word2vec-master"压缩包中,提供的可能是完整的word2vec实现代码,包括预处理、模型训练和结果分析等步骤。预处理通常包括分词、去除停用词和标点符号等。分词是中文文本处理的关键,因为中文没有明显的词边界,...

Global site tag (gtag.js) - Google Analytics