首先更正下seq2sparse(6)之TFIDFPartialVectorReducer源码分析中最后的公式应该是如下的形式:
sqrt(e.get())*[ln(vectorCount/(df+1)) + 1]
前面说到e.get(),当时想当然的就以为是获取单词的计数了,其实这里获得的值是1而已,而且那个log函数是以e为底的,所以要改为ln;
seq2sparse(7)中的PartialVectorMergeReducer就真的没啥了,和前面简直是一模一样了,这里就不做分析了;继续往下面进行分析,有最开始的log信息可以看到接下来的信息是:
+ echo 'Creating training and holdout set with a random 80-20 split of the generated vector dataset'
Creating training and holdout set with a random 80-20 split of the generated vector dataset
+ ./bin/mahout split -i /home/mahout/mahout-work-mahout/20news-vectors/tfidf-vectors --trainingOutput /home/mahout/mahout-work-mahout/20news-train-vectors --testOutput /home/mahout/mahout-work-mahout/20news-test-vectors --randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential
找到split对应的类为SplitInput,参考此类和上面的参数来分析上面执行的代码。
首先贴出该类的使用指南:
usage: <command> [Generic Options] [Job-Specific Options]
Generic Options:
-archives <paths> comma separated archives to be unarchived
on the compute machines.
-conf <configuration file> specify an application configuration file
-D <property=value> use value for given property
-files <paths> comma separated files to be copied to the
map reduce cluster
-fs <local|namenode:port> specify a namenode
-jt <local|jobtracker:port> specify a job tracker
-libjars <paths> comma separated jar files to include in
the classpath.
-tokenCacheFile <tokensFile> name of the file with the tokens
Job-Specific Options:
--input (-i) input Path to job input
directory.
--trainingOutput (-tr) trainingOutput The training data output
directory
--testOutput (-te) testOutput The test data output
directory
--testSplitSize (-ss) testSplitSize The number of documents
held back as test data for
each category
--testSplitPct (-sp) testSplitPct The % of documents held
back as test data for each
category
--splitLocation (-sl) splitLocation Location for start of test
data expressed as a
percentage of the input
file size (0=start,
50=middle, 100=end
--randomSelectionSize (-rs) randomSelectionSize The number of items to be
randomly selected as test
data
--randomSelectionPct (-rp) randomSelectionPct Percentage of items to be
randomly selected as test
data when using mapreduce
mode
--charset (-c) charset The name of the character
encoding of the input
files (not needed if using
SequenceFiles)
--sequenceFiles (-seq) Set if the input files are
sequence files. Default
is false
--method (-xm) method The execution method to
use: sequential or
mapreduce. Default is
mapreduce
--overwrite (-ow) If present, overwrite the
output directory before
running job
--keepPct (-k) keepPct The percentage of total
data to keep in map-reduce
mode, the rest will be
ignored. Default is 100%
--mapRedOutputDir (-mro) mapRedOutputDir Output directory for map
reduce jobs
--help (-h) Print out help
--tempDir tempDir Intermediate output
directory
--startPhase startPhase First phase to run
--endPhase endPhase Last phase to run
Specify HDFS directories while running on hadoop; else specify local file
system directories
前面的几个路径参数就不做分析了,看下面的参数:
--randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential
第一个参数表示40%的数据会被用来做测试,剩下做训练;第二个参数表示输出路径在运行job之前会被清空;第三个参数表示输入路径的文件时序列文件;第四个参数表示要使用mapreduce方式还是sequential方式,默认是mapreduce方式(这里可以看到选择的不是默认方式);但是在log信息里面可以看到测试数据是用了20%,而非是80%,所以这里设置40%,不知道是用来干嘛的,后面设置-xm不是表明不用mapreduce方式么,那这里还设置这个参数?
首先说结果吧:这个类把数据分为了两个部分,测试和训练,比数为2:3,的确是40%的测试数据比重。下面来分析这个类:
前面基本都是参数设置:
在该类的run方法中:
if (parseArgs(args)) {
splitDirectory();
}
if括号中的为参数设置,splitDirectory方法是主要的执行体,该方法中有是否使用mapreduce或者sequential的选择:
if (useMapRed) {
SplitInputJob.run(new Configuration(), inputDir, mapRedOutputDirectory,
keepPct, testRandomSelectionPct);
} else {
// input dir contains one file per category.
FileStatus[] fileStats = fs.listStatus(inputDir, PathFilters.logsCRCFilter());
for (FileStatus inputFile : fileStats) {
if (!inputFile.isDir()) {
splitFile(inputFile.getPath());
}
}
}
这里进入else中的部分;其主要代码为splitFile方法,进入该方法:
主要进行了三个操作:
1.获取所有的行数:
int lineCount = countLines(fs, inputFile, charset);
2. 随机生成40%lineCount个大小在(0,lineCount-1)中间的数组:
long[] ridx = new long[testSplitSize];
RandomSampler.sample(testSplitSize, lineCount - 1, testSplitSize, 0, ridx, 0, RandomUtils.getRandom());
randomSel = new BitSet(lineCount);
for (long idx : ridx) {
randomSel.set((int) idx + 1);
}
3. 遍历输入文件,当行数在2.中产生的数组中时就把该行放入到test输出,否则放入到train输出:
writer = randomSel.get(pos) ? testWriter : trainingWriter;
只是我不明白的是为甚么只有18846条记录的数据会有162419行数据?
分享,成长,快乐
转载请注明blog地址:http://blog.csdn.net/fansy1990
分享到:
相关推荐
"Twenty Newsgroups" 数据集是一个广泛用于文本分类和自然语言处理任务的经典数据集,它由约20000篇电子新闻文章组成,这些文章分别来自20个不同的新闻组。这个数据集最初是在1998年由卡内基梅隆大学的Andrew Moore...
20 Newsgroups数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中几乎均匀划分。20 Newsgroups数据集已经成为机器学习技术相关实验的常用数据集,例如文本分类和文本聚类实验。
20_newsgroups数据集的独特之处在于其文档的非结构化和噪声特性,这模拟了现实世界中的文本数据。每个帖子可能包含错别字、拼写错误、不完整的句子以及各种格式的文本,如HTML标签、引用和其他杂乱的信息。这种复杂...
找到D:\software-1\anaconda\Lib\site-packages\sklearn\datasets\_twenty_newsgroups.py下的_twenty_newsgroups.py文件,找到函数_download_20newsgroups,注释#logger.info("Downloading dataset from %s (14 MB)...
Twenty Lectures on Algorithmic Game Theory By Tim Roughgarden 2016 | 250 Pages | ISBN: 131662479X , 1107172667 | EPUB | 2 MB Computer science and economics have engaged in a lively interaction over ...
这些源码实例是学习过程中的宝贵资源,能加速从理论到实践的过渡。 总的来说,"jor-Mfiles.rar"为Android开发初学者提供了一套全面的学习路径,从基础知识到实战案例,覆盖了Android开发的多个重要方面。通过深入...
这个函数提供了对数据集进行预处理的选项,例如去除标点符号、数字和停用词,这在文本分析中是非常常见的预处理步骤。 在使用`fetch_20newsgroups`时,有以下关键参数可以设置: 1. `subset`: 可以选择加载全部数据...
项目中会涉及到类定义、对象实例化、方法声明以及异常处理等Java基础知识。 2. **面向对象编程**:游戏的核心概念,如玩家、庄家、牌堆等,都可以被抽象成Java类。每个类都有其特定的属性(如玩家的手牌、庄家的...
标题 "twenty-twenty-one-child-theme" 指的是一个基于 WordPress 的子主题,它构建于官方的 Twenty Twenty-One 主题之上。Twenty Twenty-One 是 WordPress 在2021年推出的默认主题,以其简洁的设计和对无障碍功能的...
标题 "PJBlog2 Twenty风格" 暗示我们正在讨论的是一个针对PJBlog2平台的特定主题或模板,名为"Twenty"。PJBlog2是一款基于ASP.NET开发的个人博客系统,它允许用户轻松创建和管理自己的博客网站。这个风格可能为用户...
5. 文本分析:《After Twenty Years》的故事发生在纽约的一个寒冷夜晚,主角们是二十年前分开的两个朋友——决定向西闯荡的男人和留在纽约的Jimmy。他们在分别时立下了一个二十年后的约定。然而,在这二十年间,他们...
高分项目,基于Unity3D开发实现的21点棋牌游戏Twenty-One_Game,内含完整源码+资源 21点又名黑杰克(Blackjack),起源于法国,已流传到世界各地,有着悠久的历史。在世界各地的赌场中都可以看到二十一点,随着...
2. **电路设计**:讲解电路分析的基本法则,如欧姆定律、基尔霍夫定律,以及如何设计简单电路,如电源电路、信号放大电路。 3. **数字逻辑与集成电路**:探讨数字电路的基础,如布尔代数,以及74系列、4000系列等...
《SUMS78二十一次复分析讲座》是数学领域中一本深入浅出的入门教材,由亚历山大·伊萨耶夫...《SUMS78二十一次复分析讲座》无疑是一本理想的入门书籍,它通过清晰的讲解和实例,帮助读者逐步揭开复分析的神秘面纱。
twenty20
20news数据集。... The 20 newsgroups collection has become a popular data set for experiments in text applications of machine learning techniques, such as text classification and text clustering.
game twenty four.exe
Twenty-First Century Intelligence
Trade Gothic-Bold Cond Twenty
在功能方面,Twenty模板可能包含了一些互动组件,例如滑动显示、轮播图、下拉菜单等,这些都是通过JavaScript和CSS3实现的。JavaScript在HTML5环境中扮演着增强用户体验的角色,它可以实现动态更新内容、表单验证、...