- 浏览: 308374 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
ae6623:
ae6623 写道大哥,你是怎么知道它对临时文件有限制的,我也 ...
导出excel2007 poi3.8 -
ae6623:
大哥,你是怎么知道它对临时文件有限制的,我也发现这个bug了, ...
导出excel2007 poi3.8 -
coralandbill:
下载不了啊 能不能给我发一个simpleProj.war包啊 ...
jqgrid使用步骤及说明 -
maojin:
这是jqgrid几?那个电话号码校验的函数能调到吗?
jqgrid使用步骤及说明 -
qingyezhu:
请问,用poi3.8中的wordtohtmlconver类将d ...
导出excel2007 poi3.8
根据http://blog.163.com/jiayouweijiewj@126/blog/static/17123217720113115027394/进行了bayes学习分析,部分内容做了更改:
首先解释下 TFIDF原理:
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份 文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻 引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结 果中出现的顺序。
TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很 少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有 很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也 大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代 表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.
在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。) 逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。 某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语
实现包括三部分:The Trainer(训练器)、The Model(模型)、The Classifier(分类器)
1、训练
首先, 要对输入数据进行预处理,转化成Bayes M/R job 读入数据要求的格式,即训练器输入的数据是 KeyValueTextInputFormat 格式,第一个字符是类标签,剩余的是特征属性(即单词)。以 20 个新闻的例子来说,从官网上下载的原始数据是一个分类目录,下面每个文件夹名就是类标签,里面是属于此类的一些文档(一个文件是一篇文章)。 mahout 通过 org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups 对数据进行预处理,完成的工作是对于原始的一个分类目录下面的所有文件,依次遍历,并将目录名作为类别名,就这样完成了 inputDir -- >outputFile 的转变。如果要处理 html 文件的话,那么就需要在 BayesFileFormatter 调用 html clean , extract body text 的过程,生成 cleaned text 。
PrepareTwentyNewsgroups调用 org.apache.mahout.classifier.BayesFileFormatter 和 org.apache.lucene.analysis.standard.StandardAnalyzer 进行分析处理,将数据转换成了:类标签作为一个文件的名字,文件里每一个行(一个回车算一行)是包含在此类中的一篇文章(格式是:类标签 一篇文章中的所有单词)。
BayesFileFormatter的作用是把一个目录里的所有文件转换成一个文件, label \t content 其中的文件内容全部经过 tokenize ,词之间加入空格,存入 content 。 BayesFileFormatter.collapse 的作用是将一个目录的所有文件加上 label 处理成 MapReduce 所需要的按行处理的文件格式 , 变成 1 个文件。
其次, 调用org.apache.mahout.classifier.bayes.TrainClassifier 进行训练,结果生成 newsmodel 。
这个类会根据命令行参数调用两个训练器: trainCNaiveBayes 和 trainNaiveBayes ,其中trainCNaiveBayes 函数调用 CBayesDriver 类; trainNaiveBayes 调用 BayesDriver 类。
这里只分析org.apache.mahout.classifier.bayes.mapreduce.bayes.BayesDriver 类,它实现了 BayesJob 接口,在 runJob 函数里调用 4 个 map/reduce 作业类:
第一个:BayesFeatureDriver 负责 Read the features in each document normalized by length of each document
第二个:BayesTfIdfDriver 负责 Calculate the TfIdf for each word in each label
第三个:BayesWeightSummerDriver 负责 alculate the Sums of weights for each label, for each feature
第四个:BayesThetaNormalizerDriver 负责: Calculate the normalization factor Sigma_W_ij for each complement class
以20-news 的例子分别分析这四个类:
⑴BayesFeatureDriver
所在包:package org.apache.mahout.classifier.bayes.mapreduce.common;
输入格式:KeyValueTextInputFormat.class
输出格式:BayesFeatureOutputFormat.class
输出key 类型: StringTuple.class
输出value 类型: DoubleWritable.class
Map: BayesFeatureMapper.class
Reduce: BayesFeatureReducer.class
注意:BayesFeatureDriver 可以独立运行,默认的输入和输出:/home/drew/mahout/bayes/20news- input /home/drew/mahout/bayes/20-news-features
只要在 hdfs上存在输入路径,运行完成后会有输出
input=new Path("/home/drew/mahout/bayes/20news-input");
output=new Path("/home/drew/mahout/bayes/20-news-features");
p=new BayesParameters(1) gramsize默认为 1
BayesFeatureOutputFormat继承了 MultipleOutputFormat ,定义了产生的四个文件路径及名字,文件的格式还是 SequenceFileOutputFormat. :
$OUTPUT/trainer-wordFreq
$OUTPUT/trainer-termDocCount
$OUTPUT/trainer-featureCount
$OUTPUT/trainer- docCount
① BayesFeatureMapper的输出为:
一行一个map,根据数据处理的格式即一篇文章一个map,以下的label指类标签,token是属性即单词,dKJ是某token在本篇文章中出现的次数,∑dKJ 2 是本篇文章中所有token出现次数的平方和,以下及后面的表格是觉得看着清楚自己画的,输出时只是里面的内容,例如:_WT,label,token空格value的值
key |
value |
_WT,label,token |
L og[(1.0+dKJ)/(∑dKJ 2 ) 1/2 ]即为某词在一个文档中的TF值 通俗点就是: L og[(1.0+某属性在本篇文章中出现的次数)/(本篇文章中所有属性出现次数的平方和) 1/2 ] |
_DF,label,token |
1.0出现的 文档 数 |
_FC,token |
1.0 出现的 文档 数 |
_LC,label |
1.0 出现的 文档 数 |
② BayesFeatureReducer的输出为:
相同的key 放在一个 reduce 里执行合并
key |
value |
输出 |
_WT,label,token |
∑ L og[(1.0+dKJ)/(∑dKJ 2 ) 1/2 ]即某类中某属性的TF值 |
trainer-wordFreq |
_DF,label,token |
某label中出现某token的文档数 |
trainer-termDocCount |
_FC,token |
所有训练集文章中出现某token的文档数 |
trainer-featureCount |
_LC,label |
某label下的文档数 |
trainer- docCount |
_FT,token |
与_FC的value一样 |
没输出且只在mhaout-0.4里出现这部分计算,0.3里没有 |
⑵BayesTfIdfDriver
输入格式:SequenceFileInputFormat.class
输出格式:BayesTfIdfOutPutFormat.class
输出key 类型: StringTuple.class
输出value 类型: DoubleWritable.class
输入路径:就是第一个map/reduce 生成的 trainer-wordFreq 、 trainer-termDocCount 、 trainer-featureCount 文件
输出:trainer-tfIdf 文件
Map: BayesTfIdfMapper.class
Reduce: BayesTfIdfReducer.class
根据BayesFeatureReducer 的输出文件计算 TF-IDF 值,但是只调用了以上的 trainer-wordFreq 、 trainer-termDocCount 、 trainer-featureCount 三个文件,计算完毕后生成两个文件 trainer-tfIdf 和 trainer- vocabCount( BayesTfIdfOutPutFormat 里有)。 最后在BayesDriver里会删除这些中间文件,
Path docCountOutPath = new Path(output, "trainer-docCount");
HadoopUtil.delete(conf, docCountOutPath);
① BayesTfIdfMapper的输出为:
TF值是调用 trainer-wordFreq 中的value
Idf=某类下的文档数 / 某类下出现该 token 的文档数
其中某类下出现该token 的文档数是调用 trainer-termDocCount 中的value
key |
value |
_WT,label,token |
TF值 |
_WT,label,token |
logidf |
_FS |
1.0 |
②BayesTfIdfReducer 的输出为:
key |
value |
输出 |
_WT,label,token |
TF × logidf |
trainer- tfidf |
_FS |
属性总数 |
trainer- VocabCount |
⑶BayesWeightSummerDriver
输入文件格式:SequenceFileInputFormat.class
输出文件格式:BayesWeightSummerOutputFormat.class
输出key : StringTuple.class
输出value : DoubleWritable.class
输入路径:是第二个map/reduce 生成的 trainer-tfIdf 文件
输出:trainer-weights 文件
Map: BayesWeightSummerMapper.class
Reduce: BayesWeightSummerReducer.class
这里只调用了第二个map/reduce 生成的 trainer-tfIdf ,没有调 trainer- VocabCount
① BayesWeightSummerMapper的输出为:
key |
value |
_SJ,token |
TFIdf值 |
_SK,label |
TFIdf值 |
_SJSK |
TFIdf值 |
②BayesWeightSummerReducer 的输出为:
key |
value |
输出 |
_SJ,token |
某属性的全部TFIdf总和 |
Sigma_j |
_SK,label |
某类下的所有属性的TFIdf总和 |
Sigma_k |
_SJSK |
所有的TFIdf值 |
Sigma_kSigma_j |
⑷ BayesThetaNormalizerDriver
输入文件格式:SequenceFileInputFormat.class
输出文件格式:SequenceFileOutputFormat.class
输出key : StringTuple.class
输出value : DoubleWritable.class
输入路径: 第二个map/reduce 生成的 trainer-tfIdf/ 下的 trainer-tfIdf 和 trainer- VocabCount,以及 trainer-weights/ 的 Sigma_k 和 Sigma_kSigma_ j
输出:trainer-thetaNormalizer 文件
① BayesWeightSummerMapper的输出为:
Log里的分子中 TFIdf是某类下某属性的TFIdf值,分母中 VocabCount是属性总数
key |
value |
_LTN,label |
Log[(TFIdf+1.0)/(sigma_k+ VocabCount )] |
②BayesWeightSummerReducer 的输出为:
将Map 的结果合并
key |
value |
_LTN,label |
ΣLog[(TFIdf+1.0)/(sigma_k+ VocabCount )] |
发表评论
-
hive 安装运行权限错误Permission denied: user=hive, access=WRITE,
2013-07-24 17:10 18463在安装hive过程中遇到了hive权限错误: : E ... -
hadoop 源码编译 导入eclipse
2013-04-25 18:23 3879hadoop 源码编译 导入eclipse h ... -
hive null 和空值
2013-02-28 09:46 3608hive的数据源是基于hdfs的数据文件,如果文件的某一个字 ... -
mahout中bayes分类分析—2
2012-11-27 17:40 27362、 模型 以上训练部分的四个job 执行完毕后,整 ... -
谷歌开源 Supersonic 查询引擎
2012-11-21 11:25 1152谷歌近日开源了其Supersonic项目。据谷歌描述,Supe ... -
Cloudera Impala:基于Hadoop的实时查询开源项目
2012-11-13 11:08 1216摘要:号外!Cloudera发布了实时查询开源项目Impala ... -
hadoop 运行任务超时
2012-08-29 15:08 1194在默认指定的10分钟或具体在配置文件指定的时间内没有报告状态, ... -
Task process exit with nonzero status of 1.
2012-08-28 11:08 3141在平时跑mapReduce程序时,经常会遇到这样的错误,网上也 ... -
mahout中bayes分类分析—1
2012-08-21 16:18 1515引用:http://blog.163.com/ji ... -
导出excel2007 poi3.8
2012-07-27 19:17 5490poi3.8默认情况下,用到的临时目录是系统自带的临时目录,在 ... -
hbase 导出 excel报表 jxl
2012-07-27 18:58 2873package sina.hive.vipfaninfo; ... -
hbase 导入导出
2012-07-12 19:17 3462hbase导入导出第一方案: hbase已经自带了这个命令,下 ... -
hive函数大全
2012-06-29 19:14 238041.内置运算符 1.1关系运 ... -
Hadoop Job Scheduler作业调度器
2012-06-21 11:46 4125Hadoop Job Scheduler Hadoop的作业调 ... -
关于hadoop2.0自定义计数器
2012-06-07 11:38 1784最近写了个mapReduce进行数据分析,发现数据不合理,想写 ... -
hadoop Text编码问题
2012-06-01 17:33 1935Hadoop写map/reduce作业开始,就遇到了输入数据是 ...
相关推荐
基于labview的声卡数据采集系统与分析设计毕业论文
Android Studio实现学生信息管理系统源码(高分项目).zip个人经导师指导并认可通过的高分大作业项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 Android Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理
个人毕业设计 - 基于树莓派、OpenCV及Python语言的人脸识别.zip
考虑时变压力角和时变齿侧间隙的直齿轮六自由度平移-扭转耦合非线性动力学程序,包括时域图,相图,FFT图,庞加莱图,分岔图。 要想学好齿轮动力学,需要有扎实的齿轮动力学理论和非线性动振动理论。 齿轮啮合刚度建模是齿轮动力学求解的第一步。
tdm64-gcc-10.3.0-2.exe.zip。资源来源于网络分享,如有侵权请告知!
安卓项目源码Android broadcast电池电量显示源码提取方式是百度网盘分享地址
汽车中间件市场调研报告:2023年全球汽车中间件市场销售额达到了78亿美元 在数字化转型的浪潮中,汽车中间件作为连接硬件与软件的关键桥梁,正引领着汽车行业的新一轮变革。随着全球汽车产业的快速发展,中间件市场规模持续扩大,展现出前所未有的增长潜力。然而,面对复杂多变的市场环境和不断涌现的新技术,企业如何精准把握市场脉搏,实现可持续发展?本文将深入探讨全球及中国汽车中间件市场的现状、趋势及竞争格局,为您揭示咨询的重要性。 市场概况: 根据QYResearch(恒州博智)的统计及预测,2023年全球汽车中间件市场销售额达到了78亿美元(约7803百万美元),预计2030年将达到156亿美元(约15630百万美元),年复合增长率(CAGR)为10.3%(2024-2030)。这一数据不仅彰显了中间件市场的强劲增长动力,也预示着未来巨大的市场空间。 技术创新与趋势: 随着自动驾驶、车联网等技术的不断发展,汽车中间件正面临着前所未有的技术挑战与机遇。新一代中间件需要具备更高的实时性、更低的延迟以及更强的数据处理能力,以满足复杂多变的汽车应用场景。同时,云计算、大数据、人工智能等技术的融合应用,将进
计算机系毕业设计
亲测可用与黑莓OS6和OS7的文件管理器,测试型号9788、9900、9981
基于STM8单片机的编程实例,可供参考学习使用,希望对你有所帮助
超全知识点,用来学习都可以。
驾驶行为风险预测。2018平安产险数据建模大赛 驾驶行为预测驾驶风险Fork或借鉴请注明出处 @ChungKing . Thx比赛链接2018平安产险数据建模大赛 驾驶行为预测驾驶风险数据下载秩第五周 第六周 相关文章http://blog.51cto.com/yixianwei/2120336执照版权所有 (c) ChungKing。保留所有权利。根据MIT许可证授权。
元旦烟花html
在21世纪的科技浪潮中,人工智能(AI)无疑是最为耀眼的明星之一,它以惊人的速度改变着我们的生活、工作乃至整个社会的运行方式。而在人工智能的广阔领域中,大模型(Large Models)的崛起更是开启了智能技术的新纪元,引领着AI向更加复杂、高效、智能的方向发展。本文将深入探讨人工智能大模型的内涵、技术特点、应用领域以及对未来的影响。 一、人工智能大模型的内涵 人工智能大模型,顾名思义,是指具有庞大参数规模和数据处理能力的AI模型。这些模型通过深度学习算法,在海量数据上进行训练,能够学习到丰富的知识表示和复杂的模式识别能力。与传统的小型或中型模型相比,大模型在理解自然语言、生成高质量内容、进行跨模态信息处理等方面展现出前所未有的优势。它们不仅能够执行特定的任务,如图像识别、语音识别,还能进行创造性的工作,如文本生成、音乐创作,甚至在某些情况下展现出接近或超越人类的智能水平。 二、技术特点 海量数据与高效训练:大模型依赖于庞大的数据集进行训练,这些数据涵盖了广泛的主题和情境,使得模型能够学习到丰富的语义信息和上下文理解能力。同时,高效的训练算法和硬件加速技术,如TPU(Tensor Processing Unit)和GPU,使得大规模模型的训练成为可能。 自注意力机制与Transformer架构:许多领先的大模型采用了Transformer架构,特别是其自注意力机制,这种设计使得模型在处理序列数据时能够捕捉到长距离依赖关系,极大地提高了模型的表达能力和泛化能力。 多任务学习与迁移学习:大模型通常具备多任务学习的能力,即在一次训练中同时学习多个任务,这有助于模型学习到更通用的知识表示。此外,迁移学习使得这些模型能够轻松适应新任务,只需少量额外数据或微调即可。
2020中国高校计算机大赛·华为云大数据挑战赛-热身赛队名无能万金油2020中国高校计算机大赛·华为云大数据挑战赛--热身赛热身赛Rank 7CSDN博客我的博客 (建议直接打开热身赛code.ipynb,里面有详细说明)比赛地址华为云大数据挑战赛--热身赛赛题说明热身赛题——交通流量预测随着电子信息和移动通信技术高速发展和不断融合,人工智能在各个领域都相继取得了巨大的突破,城市智能体也应运而生,而城市交通又是城市智能体的核心。交通流量数据既是城市交通中的基础数据,又是反应交通状况的重要指标之一,准确预测交通流量对城市交通具有重大意义。本题以交通流量预测为目标,邀请各个队伍以历史交通流量数据建立对应的算法模型,预测目标流量数据,通过预测值和真实值之间的对比得到预测准确率,以此来评估各队伍所提交的预测算法。要求lightgbm 2.3.0学习熊猫==0.24.2泡菜numpy全面质量管理scipy ==>1.1.0##数据在trian文件夹下:1月12日 ~2月8日 各路口数据train/01-12/chongzhi_beie
使用Hadoop、Spark等实现的大数据平台项目大数据项目集1. 基于Hadoop的离线用户行为日志分析(weblog)技术栈Hadoop豆 点击流数据处理 点击会话流模型构建 Hive明细表构建 用户行为指标分析2. 基于Akka实现RPC通信(akka_rpc)技术栈Akka 模拟Hadoop集群间通信 模拟Spark集群间通信 模拟Yarn通信3. 广告数据管理平台(dmp)技术栈Spark、Scala 广告日志ETL 报表统计 用户画像构建 广告标签统计 DMP结果入库HBase4. 基于Spark MLLib实现个性化推荐(mllib)技术栈Spark、ScalaMovieLens 数据模型构建 冷启动启动时用户随机对10部电影评分 切分数据集 ALS模型构建 模型评估 个性化推荐5. 基于Flink对CDN日志分析(flink-train)技术栈Flink、Scala 模拟Kafka生产者生成日志数据 CDN日志分析
数据可视化大屏展示维兹前言提到数据大屏,通常大家的印象就是各种图表、表格的数据展示,然后不断地轮询后端接口。对于前端开发者来说,更多的关注点在于布局问题、图表的兼容性问题以及窗口变化后图表样式问题。对于后端来说,主要考虑的是如何在不断的请求中减轻服务器的压力。但实际上,数据大屏的需求还远不止于此前端发布后应当可以作为应用直接运行,而不需要手动输入地址进行预览。 需要减轻服务器的压力,避免频繁的数据请求。 当前后端任何一方或双方都离线的情况下,数据仍能正常运行。 需要日志的存储,以便随时查看问题。 需要调用系统的能力和跨域调用API,以增加数据展示的灵活性。解决方案我采用了GO和lorca的方式来解决以上问题特征打包体积轻量,仅20MB。使用无头浏览器lorca,可自定义Chrome和JavaScript之间的交互。支持交叉编译到Windows和Mac系统。离线状态下也可以正常运行。可以运行本地服务,减轻服务器压力。编译速度快,运行性能优秀。依赖项该项目的依赖项如下Go 1.20+节点 14.8+整体方案演示下载对应的安装包
仅限个人学习,禁止商业用途!
cmn.txt的英文句子经过分词、转为小写处理得到的结果存放的文件
基于PLC控制密码锁.doc