`
韩悠悠
  • 浏览: 840310 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

机器学习之第4部分:比较深度学习方式方法

 
阅读更多

 

4部分:比较深度学习方式方法
 
你可能会问:为什么词袋模型更好?
最大的原因是,在我们的教程中,平均向量,利用重心失去词语的顺序,使其非常相似的概念袋的话。性能是相似的(标准误差范围内)使所有三种方法几乎等价
 
一些尝试:
首先,训练Word2Vec更多的文本应该极大地提高性能。谷歌的搜索结果都是基于词向量是学习的一个多billion-word语料库;我们的标记和未标记的训练集在一起只有区区1800万字左右。方便,Word2Vec提供函数加载任何pre-trained模型由谷歌的原始输出C工具,所以它也可以训练在C模型,然后将其导入Python
 
第二,出版文献中,分布式词向量技术已被证明比袋字模型。本文的算法叫做段落向量在IMDB上使用数据集产生的一些最先进的成果。在某种程度上,它确实比我们尝试的方法因为向量平均和集群失去词序,而段落向量保存订单信息。
 
 
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics