`
icenows
  • 浏览: 58301 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类

基于频道相关性的IDF计算_小结

阅读更多

由于项目需要改进关键词算法,在算法改进的可行方向_20090413 中提到了几个可能的改进意见,这里先就第三点做了一些实现。

实现目标 :区分出高频的关键词,同时解决低频词IDF值过高的影响。

实现依据 :高频词中,无意义词在各频道的分布比较均衡,而关键词在各频道的出现频率差距比较大。由此,对于某一个候选词w,分析w在各频道的出现频率P(wi)的统计性质,即可区分出高频的无意义词和高频关键词。

总体思路 :根据各个频道的关键词频率辞典,构建一个M*N的矩阵,其中M表示总频道数,N表示辞典中的词语数(以分词核心辞典baseword.dic为基准)。按照一序列方法来分析该矩阵,最终输出为修正过的频道IDF辞典。

实现步骤

一、综合MIK基准辞典和紫光输入法第五版核心辞典作为新的基准辞典;

二、基于频道划分,重新计算搜狗新闻源的原始IDF辞典;

三、在第二步计算结果的基础上,生成关键词频率矩阵,——其中新增加了关键词w在所有频道的均值和方差;

四、在第二步的基础上,对各个频道的IDF序列进行排序,然后计算出左右分解点,——以1000划分IDF序列,根据相邻子序列之间的IDF增量得到分解点的IDF值;

五、结合第三、四的计算结果,首先以左右分解点将各个频道的IDF序列划分为三个部分,第一部分为高频词,第二部分为中频词,第三部分为低频词:对于第一部分,分析该词各频道的IDF值分布,对频道无关词进行IDF值压制,将频道相关词进行IDF值提升;第二部分不做修改;第三部分以该词的频道均值和原来的IDF值为参数按一定比例调低。

备注与讨论

1、基于子序列IDF增量的高、中、低频关键词划分。最初是将IDF值序列拟合为正态分布,最终实验结果证明这是一个错误的假设。随后考虑过非参数拟合实现,因为只能取到点概率,其中有些问题暂时没找到解决办法而否决。 最终采用的是以增量0.1作为高中频分解点,以自序列>1000作为中低频分解点,该分类的实验效果还算比较理想。

2、高频词的分类问题    目前的分类条件是,如果关键词w在各频道都位于第一部分,且方差小于频道均值的平方,则认为w为无意义关键词,否则为高频关键词,赋予频道中词频均值作为IDF值。该分类方法比较粗糙,可以考虑引入更为有效的分类方法,比较频道相关度的概念。

分享到:
评论

相关推荐

    TF-IDF.py.zip_TF-IDF WEIGHT_tf-idf_tf_idf_特征提取

    在《TF-IDF.py》这个文件中,很可能包含了实现TF-IDF权重计算的Python代码。Python中,可以使用`sklearn`库的`TfidfVectorizer`类来进行TF-IDF的计算。这个类可以处理词汇表构建、文本分词、TF-IDF转换等一系列操作...

    GetFileTimes.rar_IF-IDF_TF_java TF-IDF_tf idf_tf idf java

    标签中包含了"java_tf-idf"和"tf_idf__java",这表明代码是用Java语言实现的,且与TF-IDF算法有关。"if-idf"可能是指在原始TF-IDF基础上加入了某些改进,可能是引入了某个特定的项频率(Item Frequency)计算方式。 ...

    TF-IDF.zip_TF-IDF java_java tf idf_tf idf_tf-idf

    3. 计算IDF值:遍历词频矩阵,根据公式计算每个词的IDF值。 4. 计算TF-IDF值:将TF值与对应的IDF值相乘,得到每个词在每个文档中的TF-IDF值。 5. 特征选择:根据TF-IDF值,可以选择出最具代表性的词作为文档的特征...

    DNESP32S3使用指南-IDF版_V1.4.pdf

    ### DNESP32S3使用指南-IDF版_V1.4.pdf 知识点解析 #### 一、文档概述 该文档为“DNESP32S3使用指南-IDF版_V1.4.pdf”,主要提供了关于DNESP32S3开发板的详细使用指导。文档不仅介绍了开发板的基本特性和功能,还...

    tf-idf.zip_Information Retrival_python IR_python TF-IDF_tf-idf

    在信息检索系统中,TF-IDF可用于计算查询与文档的相关性。当我们有一个查询(或关键词),我们可以计算查询中每个词的TF-IDF值,然后将这些值相加以得到查询的总得分。得分最高的文档被认为是与查询最相关的。 此外...

    Using_TF-IDF_to_Determine_Word_Relevance_in_Document_Queries

    ### 使用TF-IDF确定文档查询中的词相关性 在当今数据驱动的世界中,从大量文本信息中高效地检索相关信息是一项至关重要的技能。本文探讨了如何应用TF-IDF(Term Frequency-Inverse Document Frequency)来确定文档...

    机器学习文本分类基于TF-IDF+朴素贝叶斯文本数据的分类与分析源码(高分大作业).zip

    机器学习文本分类基于TF-IDF+朴素贝叶斯文本数据的分类与分析源码(高分大作业).zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够...

    NLP:基于TF-IDF的中文关键词提取.zip

    接着,`gen_idf.py`会基于特定的语料库计算所有词的IDF值,并保存到`idf.txt`。在实际应用时,`tfidf.py`会读取`idf.txt`,结合文本中的词频计算TF-IDF值,并找出具有最高TF-IDF值的关键词。 为了运行这个项目,你...

    基于TF-IDF算法抽取

    ### 基于TF-IDF算法抽取文章关键词 #### 一、引言 TF-IDF(Term Frequency-Inverse Document Frequency)是一种广泛应用于信息检索与文本挖掘领域的统计方法,用于评估单词对于一个文档集或者语料库中单个文档的...

    TF-IDF.rar_TFIDF 排序_java tfidf_tf-idf_tfidf_tfidf排序

    TF-IDF(Term Frequency-Inverse Document Frequency)是一种在信息检索和文本挖掘领域广泛使用的权重计算方法,用于评估一个词在文档中的重要性。这个概念基于两个原则:词频(Term Frequency,TF)和逆文档频率...

    DNESP32S3使用指南-IDF版_V1.5.pdf

    ### DNESP32S3使用指南-IDF版_V1.5.pdf 知识点解析 #### 一、概述 **DNESP32S3使用指南-IDF版_V1.5** 是一份详尽的文档,旨在指导用户如何利用正点原子的DNESP32S3开发板进行项目开发。该文档版本为V1.5,涵盖了...

    基于_ESP-IDF_原生开发接入腾讯_IoT_Explorer,支持_ESP32ESP32S2,_esp-qcloud.zip

    而ESP-IDF是Espressif(乐鑫科技)推出的针对ESP32系列芯片的开发框架,其开放源代码、支持多种编程语言的特性,使得基于ESP-IDF开发的物联网设备能轻松接入各种云平台。 本压缩包文件包含了将ESP-IDF原生开发的...

    TF-IDF_java_NPl_

    总之,"TF-IDF_java_NPl_"这个项目可能涉及到使用Java编程语言,结合NLP技术来实现TF-IDF算法,用于从多篇文章中提取关键词。这需要理解TF-IDF的基本原理,熟悉Java编程,以及一定的NLP基础知识。通过这样的实践,你...

    基于python的英文文档集上的tf、idf和tf_idf图像绘制数据集

    IDF的计算公式为:log(文档总数 / (含有该词的文档数 + 1))。这里的“文档总数”是指整个数据集中文档的数量,“含有该词的文档数”是统计含有该词的文档数量。IDF值越大,说明这个词越不常见,对区分文档主题越有...

    TF-IDF.zip_tf-idf_tfidf

    2. **搜索引擎排名**:搜索引擎会利用TF-IDF来决定搜索结果的相关性,高TF-IDF值的词更可能与查询相关。 3. **信息检索**:在海量文档中查找相关信息时,TF-IDF有助于找出最相关的文档。 4. **文本摘要**:通过识别...

    基于电子墨水屏、ESP32_和_esp-idf_v4.4_的_自行车_GPS_码表,

    esp-idf_v4.4是指ESP32的官方软件开发框架,其全称为Espressif IoT Development Framework,是Espressif Systems官方提供的开发套件,主要用来开发ESP32应用程序。该框架支持C和C++语言,提供丰富的组件和API,能够...

    tf-idf_tf-idf_

    这个概念基于两个主要因素:词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)。下面我们将详细探讨TF-IDF算法及其在分析多个PDF文件关键词中的应用。 1. **词频(Term Frequency, TF)**:...

    ESP8266-IDF-AT_V2.2.1.0.zip ESP8266 官方AT固件 WiFi功能固件下载 2022 最新版

    总的来说,ESP8266-IDF-AT_V2.2.1.0为开发者提供了一个强大而易用的工具,使他们能够快速地构建基于ESP8266的Wi-Fi功能产品,并通过持续的固件更新保持其功能的先进性和安全性。无论是初学者还是经验丰富的工程师,...

    人工智能-项目实践-搜索引擎-tf-idf 模型封装类,包含计算所有文档的tf-idf值,实现了基于tf-idf搜索引擎功能

    tf-idf 模型封装类,包含计算所有文档的tf-idf值,实现了基于tf-idf搜索引擎功能 tf-idf 模型封装类,包含计算所有文档的tf-idf值,实现了基于tf-idf搜索引擎功能 根据query,计算与每个文档的相似度,返回与query...

    sift_kmeans_td idf_svm

    在图像处理和计算机视觉领域,"sift_kmeans_td idf_svm" 是一个结合了多种技术进行场景分类和图像分类的解决方案。这个标题暗示了使用SIFT(尺度不变特征变换)特征,K-means聚类,Term Frequency-Inverse Document ...

Global site tag (gtag.js) - Google Analytics