`
thecloud
  • 浏览: 951342 次
文章分类
社区版块
存档分类
最新评论

Twenty Newsgroups Classification实例任务之SplitInput源码分析

 
阅读更多

首先更正下seq2sparse(6)之TFIDFPartialVectorReducer源码分析中最后的公式应该是如下的形式:

sqrt(e.get())*[ln(vectorCount/(df+1)) + 1]
前面说到e.get(),当时想当然的就以为是获取单词的计数了,其实这里获得的值是1而已,而且那个log函数是以e为底的,所以要改为ln;

seq2sparse(7)中的PartialVectorMergeReducer就真的没啥了,和前面简直是一模一样了,这里就不做分析了;继续往下面进行分析,有最开始的log信息可以看到接下来的信息是:

+ echo 'Creating training and holdout set with a random 80-20 split of the generated vector dataset'
Creating training and holdout set with a random 80-20 split of the generated vector dataset
+ ./bin/mahout split -i /home/mahout/mahout-work-mahout/20news-vectors/tfidf-vectors --trainingOutput /home/mahout/mahout-work-mahout/20news-train-vectors --testOutput /home/mahout/mahout-work-mahout/20news-test-vectors --randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential
找到split对应的类为SplitInput,参考此类和上面的参数来分析上面执行的代码。

首先贴出该类的使用指南:

usage: <command> [Generic Options] [Job-Specific Options]
Generic Options:
 -archives <paths>              comma separated archives to be unarchived
                                on the compute machines.
 -conf <configuration file>     specify an application configuration file
 -D <property=value>            use value for given property
 -files <paths>                 comma separated files to be copied to the
                                map reduce cluster
 -fs <local|namenode:port>      specify a namenode
 -jt <local|jobtracker:port>    specify a job tracker
 -libjars <paths>               comma separated jar files to include in
                                the classpath.
 -tokenCacheFile <tokensFile>   name of the file with the tokens
Job-Specific Options:                                                           
  --input (-i) input                                 Path to job input          
                                                     directory.                 
  --trainingOutput (-tr) trainingOutput              The training data output   
                                                     directory                  
  --testOutput (-te) testOutput                      The test data output       
                                                     directory                  
  --testSplitSize (-ss) testSplitSize                The number of documents    
                                                     held back as test data for 
                                                     each category              
  --testSplitPct (-sp) testSplitPct                  The % of documents held    
                                                     back as test data for each 
                                                     category                   
  --splitLocation (-sl) splitLocation                Location for start of test 
                                                     data expressed as a        
                                                     percentage of the input    
                                                     file size (0=start,        
                                                     50=middle, 100=end         
  --randomSelectionSize (-rs) randomSelectionSize    The number of items to be  
                                                     randomly selected as test  
                                                     data                       
  --randomSelectionPct (-rp) randomSelectionPct      Percentage of items to be  
                                                     randomly selected as test  
                                                     data when using mapreduce  
                                                     mode                       
  --charset (-c) charset                             The name of the character  
                                                     encoding of the input      
                                                     files (not needed if using 
                                                     SequenceFiles)             
  --sequenceFiles (-seq)                             Set if the input files are 
                                                     sequence files.  Default   
                                                     is false                   
  --method (-xm) method                              The execution method to    
                                                     use: sequential or         
                                                     mapreduce. Default is      
                                                     mapreduce                  
  --overwrite (-ow)                                  If present, overwrite the  
                                                     output directory before    
                                                     running job                
  --keepPct (-k) keepPct                             The percentage of total    
                                                     data to keep in map-reduce 
                                                     mode, the rest will be     
                                                     ignored.  Default is 100%  
  --mapRedOutputDir (-mro) mapRedOutputDir           Output directory for map   
                                                     reduce jobs                
  --help (-h)                                        Print out help             
  --tempDir tempDir                                  Intermediate output        
                                                     directory                  
  --startPhase startPhase                            First phase to run         
  --endPhase endPhase                                Last phase to run          
Specify HDFS directories while running on hadoop; else specify local file       
system directories
前面的几个路径参数就不做分析了,看下面的参数:

--randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential
第一个参数表示40%的数据会被用来做测试,剩下做训练;第二个参数表示输出路径在运行job之前会被清空;第三个参数表示输入路径的文件时序列文件;第四个参数表示要使用mapreduce方式还是sequential方式,默认是mapreduce方式(这里可以看到选择的不是默认方式);但是在log信息里面可以看到测试数据是用了20%,而非是80%,所以这里设置40%,不知道是用来干嘛的,后面设置-xm不是表明不用mapreduce方式么,那这里还设置这个参数?

首先说结果吧:这个类把数据分为了两个部分,测试和训练,比数为2:3,的确是40%的测试数据比重。下面来分析这个类:

前面基本都是参数设置:

在该类的run方法中:

if (parseArgs(args)) {
      splitDirectory();
    }
if括号中的为参数设置,splitDirectory方法是主要的执行体,该方法中有是否使用mapreduce或者sequential的选择:

 if (useMapRed) {
      SplitInputJob.run(new Configuration(), inputDir, mapRedOutputDirectory,
              keepPct, testRandomSelectionPct);
    } else {
      // input dir contains one file per category.
      FileStatus[] fileStats = fs.listStatus(inputDir, PathFilters.logsCRCFilter());
      for (FileStatus inputFile : fileStats) {
        if (!inputFile.isDir()) {
          splitFile(inputFile.getPath());
        }
      }
    }
这里进入else中的部分;其主要代码为splitFile方法,进入该方法:

主要进行了三个操作:

1.获取所有的行数:

int lineCount = countLines(fs, inputFile, charset);
2. 随机生成40%lineCount个大小在(0,lineCount-1)中间的数组:

long[] ridx = new long[testSplitSize];
      RandomSampler.sample(testSplitSize, lineCount - 1, testSplitSize, 0, ridx, 0, RandomUtils.getRandom());
      randomSel = new BitSet(lineCount);
      for (long idx : ridx) {
        randomSel.set((int) idx + 1);
      }
3. 遍历输入文件,当行数在2.中产生的数组中时就把该行放入到test输出,否则放入到train输出:

writer = randomSel.get(pos) ? testWriter : trainingWriter;

只是我不明白的是为甚么只有18846条记录的数据会有162419行数据?


分享,成长,快乐

转载请注明blog地址:http://blog.csdn.net/fansy1990

分享到:
评论

相关推荐

    Twenty Newsgroups 数据集

    "Twenty Newsgroups" 数据集是一个广泛用于文本分类和自然语言处理任务的经典数据集,它由约20000篇电子新闻文章组成,这些文章分别来自20个不同的新闻组。这个数据集最初是在1998年由卡内基梅隆大学的Andrew Moore...

    20 Newsgroups数据集(包括20news-19997、20news-bydate和20news-18828三个数据集)

    20 Newsgroups数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中几乎均匀划分。20 Newsgroups数据集已经成为机器学习技术相关实验的常用数据集,例如文本分类和文本聚类实验。

    20_newsgroups

    20_newsgroups数据集的独特之处在于其文档的非结构化和噪声特性,这模拟了现实世界中的文本数据。每个帖子可能包含错别字、拼写错误、不完整的句子以及各种格式的文本,如HTML标签、引用和其他杂乱的信息。这种复杂...

    newsgroups数据集下载,机器学习必用

    找到D:\software-1\anaconda\Lib\site-packages\sklearn\datasets\_twenty_newsgroups.py下的_twenty_newsgroups.py文件,找到函数_download_20newsgroups,注释#logger.info("Downloading dataset from %s (14 MB)...

    Twenty Lectures on Algorithmic Game Theory

    Twenty Lectures on Algorithmic Game Theory By Tim Roughgarden 2016 | 250 Pages | ISBN: 131662479X , 1107172667 | EPUB | 2 MB Computer science and economics have engaged in a lively interaction over ...

    jor-Mfiles.rar_android开发_twenty6ci

    这些源码实例是学习过程中的宝贵资源,能加速从理论到实践的过渡。 总的来说,"jor-Mfiles.rar"为Android开发初学者提供了一套全面的学习路径,从基础知识到实战案例,覆盖了Android开发的多个重要方面。通过深入...

    20newsgroup数据集-机器学习-标准数据集(all)下载方式 from sklearn.datasets import fetch_20newsgrou

    这个函数提供了对数据集进行预处理的选项,例如去除标点符号、数字和停用词,这在文本分析中是非常常见的预处理步骤。 在使用`fetch_20newsgroups`时,有以下关键参数可以设置: 1. `subset`: 可以选择加载全部数据...

    twentyone 21点游戏

    项目中会涉及到类定义、对象实例化、方法声明以及异常处理等Java基础知识。 2. **面向对象编程**:游戏的核心概念,如玩家、庄家、牌堆等,都可以被抽象成Java类。每个类都有其特定的属性(如玩家的手牌、庄家的...

    twenty-twenty-one-child-theme

    标题 "twenty-twenty-one-child-theme" 指的是一个基于 WordPress 的子主题,它构建于官方的 Twenty Twenty-One 主题之上。Twenty Twenty-One 是 WordPress 在2021年推出的默认主题,以其简洁的设计和对无障碍功能的...

    PJBlog2 Twenty风格

    标题 "PJBlog2 Twenty风格" 暗示我们正在讨论的是一个针对PJBlog2平台的特定主题或模板,名为"Twenty"。PJBlog2是一款基于ASP.NET开发的个人博客系统,它允许用户轻松创建和管理自己的博客网站。这个风格可能为用户...

    高中外研版(2019)必修一 Unit 4 After Twenty Years课件设计.pptx

    5. 文本分析:《After Twenty Years》的故事发生在纽约的一个寒冷夜晚,主角们是二十年前分开的两个朋友——决定向西闯荡的男人和留在纽约的Jimmy。他们在分别时立下了一个二十年后的约定。然而,在这二十年间,他们...

    高分项目,基于Unity3D开发实现的21点棋牌游戏Twenty-One-Game,内含完整源码+资源

    高分项目,基于Unity3D开发实现的21点棋牌游戏Twenty-One_Game,内含完整源码+资源 21点又名黑杰克(Blackjack),起源于法国,已流传到世界各地,有着悠久的历史。在世界各地的赌场中都可以看到二十一点,随着...

    视频One to twenty-three.zip

    2. **电路设计**:讲解电路分析的基本法则,如欧姆定律、基尔霍夫定律,以及如何设计简单电路,如电源电路、信号放大电路。 3. **数字逻辑与集成电路**:探讨数字电路的基础,如布尔代数,以及74系列、4000系列等...

    SUMS78 Twenty-One Lectures on Complex Analysis.zip

    《SUMS78二十一次复分析讲座》是数学领域中一本深入浅出的入门教材,由亚历山大·伊萨耶夫...《SUMS78二十一次复分析讲座》无疑是一本理想的入门书籍,它通过清晰的讲解和实例,帮助读者逐步揭开复分析的神秘面纱。

    twenty20

    twenty20

    twenty news DataSet

    20news数据集。... The 20 newsgroups collection has become a popular data set for experiments in text applications of machine learning techniques, such as text classification and text clustering.

    game twenty four.exe

    game twenty four.exe

    Twenty-First Century Intelligence

    Twenty-First Century Intelligence

    Trade Gothic-Bold Cond Twenty

    Trade Gothic-Bold Cond Twenty

    html5单页模版Twenty

    在功能方面,Twenty模板可能包含了一些互动组件,例如滑动显示、轮播图、下拉菜单等,这些都是通过JavaScript和CSS3实现的。JavaScript在HTML5环境中扮演着增强用户体验的角色,它可以实现动态更新内容、表单验证、...

Global site tag (gtag.js) - Google Analytics