`
rcfalcon
  • 浏览: 227964 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

TF/IDF概念学习笔记

阅读更多

今天晚上加班开发一套程序界面,等回到家已经11点30了。本来打算继续写我的GDE-X引擎,时间已经不够了。那么就学习一点东西吧,打开放在桌面上的吴军老师的《数学之美》,顿时发现一片新的天地。

 

—— TF/IDF概念。(turn frequency/Inverse document frequency)也称为词汇频率/逆向文本频率。

 

该技术是信息检索领域最重要的思想,用于确定检索关键词与被检索文本的相关性。

 

如何确定 关键词 与 被检索文本的相关性呢?从我们直观上来说,首先需要词匹配、其次需要对于我们的关键词有个衡量标准,比如搜“网络游戏的现状”,那么我们可以肯定 “网络游戏”在关键字中的分量要比“现状”更加重要,而“的”这个助词基本可以忽略。

 

我们可以将搜索关键字进行中文分词,假如得到 C1,C2,C3...Cn个分词。

那么对于每个分词我们有个权值,作为它的重要程度,比如W1,W2,W3。。。。Wn。

所以 越专业的词,我们就认为它的权值更高。如上例中 网络游戏 就比 现状的权值高。

 

那么某段记录的与我们的关键字的相关性 计算公式如下:

 

F = 词频1 * W1 + 词频2 * W2 + .... + 词频N * WN

 

词频就是该词在记录中出现的频率,(频率 = 出现次数 / 记录中词总数 )

 

这一部分我们叫做 TF(词汇频率) 概念。

 

然后我们需要求得各个词的权值,我们通过IDF(逆向文本)概念:

 

分析所有的被检索记录,若一个词出现得越多,则这个词越不重要。(越大众化)

若一个词出现得越少,则这个词越重要。(专业化)

 

对于词CN,若它在 n 个记录中出现过,假设系统总共有 m 条记录,则其权值计算公式为:

 

W = log( m / n )

 

为什么是log?——这个据说证明相当复杂,但最终证明log是合理的。

 

这部分计算概念即为 IDF。

 

以这个概念为基础数学模型,提供一种在海量信息中建立对于 关键字 相关性的计算机制。这也是 搜索引擎的一个基本数学基础。

 

——非常简单,但是强大!

 

然后自己有点想法,改天可以自己实现一个简单的TF/IDF,再基于这个,研究一下是否可以做一个文章错别字检测的程序。(貌似WORD里有相关功能,但是不太好用?)——需要具体调研。。

 

分享到:
评论

相关推荐

    读书笔记之7TF-IDF算法实现关键词抽取

    TF-IDF算法是一种在自然语言处理(NLP)领域中广泛应用的关键字提取和文本检索技术。它的核心思想是通过衡量一个词在单个文档中出现的频率(TF,Term Frequency)以及在整个文档集合中出现的频率(IDF,Inverse ...

    全文检索初步学习笔记

    本学习笔记主要探讨全文检索的基本概念、工作原理以及实际应用,通过阅读《oracle全文检索.pdf》这本书,我们可以深入理解Oracle数据库中的全文检索功能。 一、全文检索概述 全文检索不同于传统的基于关键字的索引...

    全文检索学习笔记

    5. **结果文档排序**:计算文档与查询的相关性(如TF-IDF或BM25),按得分排序。 6. **返回结果**:向用户展示最相关的文档。 **Lucene** 是一个开源的全文检索库,它的核心组件包括: - **Document**:表示被索引...

    C++特征工程学习笔记.md

    ### C++特征工程学习笔记 #### 1. 特征工程概述 特征工程(Feature Engineering)是机器学习项目中至关重要的一步,它涉及到从原始数据中选择、转换和创建特征,目的是为了使这些特征能够更好地匹配机器学习算法,...

    MachineLearning_机器学习笔记_

    《机器学习笔记——深入探索与理解》 在当今数字化时代,机器学习作为人工智能的一个关键分支,已经在各个领域展现出强大的潜力和应用价值。本笔记旨在帮助读者深入理解和掌握机器学习的基本概念、理论框架以及实践...

    Basic_Ecommerce_Recomendation_System:该存储库包含基本类型的电子商务推荐引擎的代码。 通过使用TF-IDF和余弦相似度的概念,我们构建了此推荐引擎

    通过使用TF-IDF和余弦相似度的概念,我们构建了此推荐引擎。 数据 对于此项目,我们正在使用。 此数据集包含来自户外服装品牌产品目录的500个实际SKU的数据。 依赖关系和安装 我们需要以下依赖关系。 熊猫: sudo ...

    机器学习笔记.pdf

    除了以上提到的核心概念和技术外,《机器学习笔记》还探讨了一些其他重要话题,如大规模机器学习、当数据不足时应采取何种策略等。这些内容对于深入理解机器学习的实际应用场景和技术挑战非常有帮助。 总之,《机器...

    SMS-Spam-Classifier-models:我们将使用两种文本预处理技术Stemming和Lemmatization以及Word of Bag和TF-IDF模型来创建SMS垃圾邮件分类器模型

    我们将使用两种文本预处理技术Stemming和Lemmatization以及Word of Bag和TF-IDF模型来创建SMS垃圾邮件分类器模型。 定义: 词干:这是将单词转换为词根形式的过程。 词法化:与词干法不同,词法化将单词还原为该...

    Elasticsearch5学习笔记和Java对es进行增删改查示例

    - **全文搜索**: Elasticsearch支持基于TF-IDF的全文搜索,能快速找到相关文档。 - **聚合分析**: 提供丰富的聚合函数,如`terms`、`histogram`等,进行数据统计和分析。 - **过滤和排序**: 通过`must`、`should`...

    python,机器学习笔记,machine learning,nlp.zip

    例如,使用TF-IDF或Word2Vec进行特征提取,然后通过SVM、Logistic Regression或神经网络进行分类。深度学习如LSTM和Transformer在序列标注和机器翻译上表现优异。 六、实践应用 1. 数据预处理:清洗文本数据,去除...

    yelp-review-rating-prediction:针对Yelp数据集挑战的LDA,TF-IDF和机器学习模型

    Yelp评论评级预测概括该项目的目的是使用评论文字来预测Yelp上的评论星级。 我们构建了以下模型,这些模型对评论数据进行文本分析以预测星级... 在至少一个示例中使用以下模块: Python 2.7 NumPy 大熊猫西皮scikit学习

    机器学习的笔记,可以保存下来观看

    机器学习笔记 机器学习是人工智能的一个子领域,涉及到计算机科学、数学、统计学、信息论、神经生理学等多个领域。机器学习的主要任务是使机器能够自动地学习和改进其性能。 在机器学习中,存在两种基本的学习方式...

    SOLR学习笔记

    评分(Score)用于表示文档与查询的相关性,Solr使用TF-IDF算法计算默认的评分。 8. **多字段搜索(Multi-Valued Fields)**:Solr允许字段存储多个值,这对于处理如标签、分类等多选属性非常有用。 9. **唯一...

    Screening-Childrens-Writing-Level-With-NLP:NLP项目,将TF-IDF和Word2Vec应用于预先标记的k-12学生论文的语料库,以预测学生的写作水平

    该模型是概念验证的机器学习模型,用于基于先前分类的文本的语料库评估学生的写作水平。 给定可用语料库的大小,并且某些课文被归为多个年级,因此将课文分为以下年级类别:初等(k-2),初中(3-4),初中(5 -8)...

    该仓库主要记录 NLP 算法工程师相关的 竞赛笔记.zip

    本篇将围绕NLP算法工程师在竞赛中的实践经验和学习笔记展开讨论,帮助读者深入理解这一领域的知识体系。 首先,NLP算法工程师在竞赛中扮演的角色不仅仅是技术实现者,更是问题解决者。他们需要具备扎实的数学基础,...

    CSE523-Machine-Learning-Outliers

    代码:包含使用上述方法的jupyter笔记本-> ContentBasedRefined.ipynb(使用scikit学习的TF-IDF实现的余弦相似性) -> GMM_UsingSciKit.ipynb(使用scikit学习的具有期望最大化的高斯混合模型) -> GMM_noscikit....

    python机器学习,最详细入门笔记.pdf

    根据给定的文件信息,本篇入门笔记详细介绍了Python机器学习领域的基础知识,从基础概念到具体的实践操作都有所涉及。接下来,我将对这些知识点进行详细解读。 ### 机器学习基础 #### 1. 机器学习简介 机器学习是...

    搜索引擎lucene学习资料

    在"lucene总结.chm"文件中,可能包含了网友们对Lucene的详细学习笔记和实践心得。CHM是Microsoft编写的帮助文件格式,通常包含HTML页面和相关资源,便于用户查阅和学习。在这里,读者可以找到关于Lucene的API用法、...

    20182019校招春招秋招算法机器学习(MachineLearning)深度学习(DeepLearning)

    此外,TF-IDF、n-gram、CRF(条件随机场)等技术也是NLP面试的常见考点。 综合来看,"Algorithm_Interview_Notes-Chinese-master-master"这个压缩包文件很可能包含了上述领域的面试准备材料,如笔记、练习题和案例...

Global site tag (gtag.js) - Google Analytics