`
liss
  • 浏览: 847908 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

文本挖掘技术(04812052)

阅读更多
主讲: 杨建武 yangjianwu@icst.pku.edu.cn  
助教: 王晨峰 wangchenfeng@icst.pku.edu.cn  
       

授课时间:周四 18:30--21:00

授课地点:文史楼 219

考试时间:2009-06-11(周四) 18:30--20:30

考试地点:一教104

 

课程主页:http://www.icst.pku.edu.cn/course/TextMining/08-09Spring/index.html

 

课程作业要求及评分细则

 

 

课程介绍


    随着信息技术的发展,信息量爆炸性增长,其中80%是非结构化信息。如何对这些非结
构化信息进行有效的分析处理成为学术界和工业界的研究热点。本课程是一门综合性的技术
研究课程,涉及数据挖掘、信息检索和自然语言处理等研究领域。课程的学习有助于我院学
生了解学术前沿,锻炼基础知识的综合应用能力,对于今后的学术研究或应用技术研发均具
有重要意义。

 

 

 课程讲义下载


2009-02-19

第一章

引言
2009-02-26

第二章

文本特征提取技术
2009-03-05

第三章

文本检索技术(part1)
2009-03-12

第三章

文本检索技术(part2)
2009-03-19

第四章

文本自动分类技术
2009-03-26

第五章

文本自动聚类技术
2009-04-02

第六章

话题检测跟踪技术
2009-04-09

第七章

文本过滤技术

第八章

关联分析技术
2009-04-16

第九章

文档自动摘要技术

第十章

信息抽取技术
2009-04-23

第十一章

2009-04-30

第十二章

文本情感分析技术

第十三章

Ontology技术

2009-05-07

第十四章

半结构化文本挖掘方法

第十五章

2009-05-14

讲座

 

2009-05-21

作业报告

课程作业交流报告

2009-05-28  

(端午节放假)

2009-06-04

复习答疑

2009-06-11

考试

地点:一教104

 

 

课程各章节说明

Ø         第一章:引言(2学时)

n         目的与要求:介绍文本挖掘概念与本课程的主要内容

n         主要内容

u       文本挖掘的概念与研究意义

u       文本挖掘的主要内容

u       本课程的总体安排

Ø         第二章:文本特征提取技术(4学时)

n         目的与要求:如何将文档转换成一组数学特征

n         主要内容

u       分词方法

u       短语识别与命名实体识别

u       向量空间模型与概率模型

u       文档间相似性度量

u       隐语义分析(LSA)

Ø         第三章:文本检索技术(6学时)

n         目的与要求:介绍文本检索的主要类型与技术

n         主要内容

u       信息检索模型

u      检索质量评价

u       倒排索引与全文检索技术

u       全文检索系统介绍

u       高维索引技术

Ø         第四章:文本自动分类技术(3学时)

n         目的与要求:文本自动分类技术介绍

n         主要内容

u       自动分类算法概述

u       KNN文本分类

u       SVM文本分类

Ø         第五章:文本自动聚类技术(3学时)

n         目的与要求:文本自动聚类技术介绍

n         主要内容

u       聚类技术概述

u  基于划分的K-Means文本聚类及变种

u      层次聚类、密度聚类、网格聚类

u       基于后缀树的文本聚类算法

Ø         第六章:话题检测跟踪技术(3学时)

n         目的与要求:介绍话题检测跟踪技术

n         主要内容

u       话题检测跟踪技术(TDT)相关概念

u       主题检测技术主要算法

u       主题追踪技术主要算法

u       TDT评测

Ø         第七章:文本过滤技术(1.5学时)

n         目的与要求:介绍文本过滤技术

n         主要内容

u  信息过滤概念

u       文本过滤方法

u       邮件过滤

Ø         第八章:关联分析技术(1.5学时)

n         目的与要求:介绍关联分析技术

n         主要内容

u       关联分析主要算法

u       关联分析在文本分析中的应用

Ø          第九章:文档自动摘要技术(1.5学时)

n         目的与要求:介绍文本摘要技术

n         主要内容

u       自动摘要概述

u       面向主题的文档摘要技术

u       多文档摘要技术

Ø         第十章:信息抽取(1.5学时)

n         目的与要求:介绍信息提取技术

n         主要内容

u       信息抽取介绍

u       信息提取的基本方法

u       基于模式学习的信息抽取方法

Ø         第 十一章:智能问答(QA)技术(3学时)

n         目的与要求:智能问答(Question & Answering)技术

n         主要内容

u  问答系统的概念与历史

u  QA@TREC

u       Pattern-based Approach

u       Knowledge-Based Approach

u       Web-based Approach

Ø         第十二章:文本情感分析技术(1.5学时)

n         目的与要求:介绍文本情感分析技术

n         主要内容

u       情感计算的概念

u       词或短语的情感倾向

u       文档与句子的情感倾向

u       观点挖掘

Ø         第十三章:Ontology1.5学时)

n         目的与要求:介绍本体和语义网的概念

n         主要内容

u   本体(Ontology)的概念

u  Semantic Web 与 OWL

u  词网 WordNet

u   知网 HowNet

Ø         第十四章:半结构化文本挖掘方法(1.5学时)

n         目的与要求:介绍一些半结构化文本挖掘方法

n         主要内容

u       半结构化数据概念

u       结构信息的描述与利用

u       XML文本挖掘方法

Ø         第十五章:文本挖掘工具与应用1.5学时)

n         目的与要求:介绍当前文本挖掘工具与典型应用场景

n         主要内容

u       文本挖掘在企业竞争情报系统中的应用

u       文本挖掘在企业客户关系管理中的应用

u       文本挖掘在网上舆情预警系统中的应用

u       IBM Text Miner

u       SAS Text Miner

u  Autonomy IDOL Server

u       方正智思中文文本挖掘平台

Ø         课程作业课堂报告(3学时)

n         目的与要求: 课程作业课堂报告交流

n         主要内容

u       学生分别介绍各自小组的课程实习和个人主要工作

n         主要参考文献

u       (无)

 

参考文献


    Ø 第一章  引言

        n  Hearst, Untangling Text Data Mining, Proc. of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics, University of Marylnd, 1999. (URL; .mht)

 

    Ø 第二章  特征提取

        n  孙茂松、邹嘉彦 汉语自动分词研究评述。《当代语言学》2001年第1期 pp. 22-32 (.pdf)

        n  M. Hearst. TextTiling: segmenting text into multi-paragraph subtopic passages. Computational Linguistics , 23 (1): 33-64, March 1997. (.pdf)

        n  J.G. Conrad and M.H. Utt. A system for discovering relationships by feature extraction from text databases. In SIGIR-94 conference proceedings. (.pdf)

        n  G. Salton and C. Buckley. Term-weighting approaches in automatic text retrieval. Information Processing Management, 24(5):513--523, 1988.

        n  S. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. A. Harshman, Indexing by latent semantic analysis, Journal of the Society for Information Science, 41(6), 391-407, 1990. (.pdf)

        n  svdpack: http://www.netlib.org/svdpack/

 

    Ø 第三章  文本检索技术

        n  Smart retrieval system:   ftp://ftp.cs.cornell.edu/pub/smart/

        n  Okapi system:   http://www.soi.city.ac.uk/~andym/OKAPI-PACK/index.html

        n  Lemur Toolkit:   http://www.lemurproject.org/

        n  Lucene:  http://jakarta.apache.org/lucene/

        n  G. Salton, and M. J. McGill, Introduction to Modern information Retrieval. McGraw-Hill, 1983.

        n  Christian Digout. Metric Techniques for High-Dimensional Indexing Technical Report TR 04-19 September 2004 (.pdf)

 

    Ø 第四章  文本自动分类技术

        n   F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf)

        n  M. Rogati and Y. Yang. High-performing feature selection for text classification  ACM CIKM 2002. (.pdf)

        n  Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf)

        n  苏金树、张博锋、徐 昕,基于机器学习的文本分类技术研究进展 软件学报 17(9): 1848-1859, 2006.9 (.pdf)

        n  基于统计学习理论的支持向量机算法研究 http://www.youngfan.com/nn/SVM.pdf (.pdf)

        n  瓦普尼克(著),张学工(译),统计学习理论的本质 清华大学出版社 2004.6

        n  SVMlight  http://svmlight.joachims.org/

        n  SVMTorch http://bengio.abracadoudou.com/projects/SVMTorch.html

 

    Ø 第五章  文本自动聚类技术

        n Jiawei Han、Micheline Kamber. Data Mining:Concepts and Techniques 高等教育出版社 2001年
(范明、孟小峰等译,数据挖掘概念与技术 机械工业出版 2001年8月) (Chapter 8 Cluster Analysis)

        n Daniel Fasulo. An analysis of recent work on clustering algorithms. Technical Report UW-CSE-01-03-02, University of Washington,1999. (.pdf)

        n Zamir O., Etzioni O. Web Document Clustering: A Feasibility Demonstration, Proceedings of the 19th International ACM SIGIR Conference (SIGIR'98), 1998. (.pdf)

        n  Hua-Jun Zeng, etc. Learning to Cluster Web Search Results, SIGIR’04, 2004. (.pdf)

 

    Ø 第六章  话题检测跟踪技术

        n TDT评测 http://www.nist.gov/speech/tests/tdt/index.htm

        n J. Allan, R. Papka, and V. Lavrenko. On-line new event detection and tracking. In Proc. of SIGIR Conference on Research and Development in Information Retrieval, 1998. (.pdf)

        n Y. Yang, T. Pierce, and J. G. Carbonell. A study on retrospective and on-line event detection. In Proc. of SIGIR Conference on Research and Development in Information Retrieval, 1998. (.pdf)

        n Y. Yang and J. Z. et al. Topic-conditioned novelty detection. In Proc. of the SIGKDD international conference on Knowledge discovery and data mining, 2002. (.pdf)

        n Jian Zhang, Zoubin Ghahramani and Yiming. Yang. A Probabilistic Model for Online Document Clustering with Application to Novelty Detection. In Proceedings of NIPS 2004, Vancouver, Canada, 2004. (.pdf)

        n Zhiwei Li, Bin Wang, Mingjing Li, etc. A Probabilistic Model for Retrospective News Event Detection. In Proc. of the SIGIR Conference on Research and Development in Information Retrieval, 2005. (.pdf)

        n D. Frey, R. Gupta, V. Khandelwal, V. Lavrenko, A. Leuski, and J. Allan, "Monitoring the News: a TDT demonstration system", demonstration appearing in Proceedings of the Human Language Technology Conference (HLT), 351-355, 2001. (.pdf)

 

    Ø 第七章  文本过滤技术

        n TREC评测 http://trec.nist.gov/

        n 黄萱菁, 夏迎炬, 吴立德 基于向量空间模型的文本过滤系统 软件学报 2003,14(3) 435-442 (.pdf)

        n Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan,Spam Filtering Using Statistical Data Compression Models,Journal of Machine Learning Research,Dec. 2006. pp 2673--2698 (.pdf)

 

    Ø 第八章  关联分析技术

        n Jiawei Han、Micheline Kamber. Data Mining:Concepts and Techniques 高等教育出版社 2001年
(范明、孟小峰等译,数据挖掘概念与技术 机械工业出版 2001年8月) (Chapter 6)

        n 钱铁云, 王元珍, 冯小年 结合类频率的关联中文文本分类 中文信息学报 2004 18(6): 30-36 (.pdf)

        n 宋擒豹,  沈钧毅 基于关联规则的Web文档聚类算法 软件学报 2002 13(03): 417-423 (.pdf)

 

    Ø 第九章  文档自动摘要技术

分享到:
评论

相关推荐

    优质课件 北京大学研究生课程文本挖掘 文本数据挖掘PPT教程(共67页) TextMining14-文本挖掘工具与应用.pptx

    文本挖掘是一种从非结构化文本数据中提取有价值信息的技术,广泛应用于多个领域,如生物技术、消费者产品、CRM、市场营销、教育、政府、医疗保健、保险等。在本北京大学研究生课程“文本挖掘”中,涵盖了从基础知识...

    文本挖掘技术资料

    在这个“文本挖掘技术资料”中,我们很可能会发现一系列关于如何有效地进行文本挖掘的教程和资源。 1. **文本预处理**:这是文本挖掘的第一步,包括去除停用词(如“的”、“是”、“在”等常见词汇)、词干提取...

    信息挖掘和文本挖掘技术

    《信息挖掘与文本挖掘技术详解》 在当今大数据时代,信息挖掘和文本挖掘技术成为科研、商业决策和社会分析的关键工具。这些技术的核心在于从海量数据中发现有价值的信息,揭示隐藏的模式,为人类理解世界提供了新的...

    文本挖掘技术

    第一章:引言 第二章:文本特征提取技术 第三章:文本检索技术 第四章:文本自动分类技术 第五章:文本自动聚类技术 第六章:话题检测跟踪技术 第七章:文本过滤技术 ...第十五章:文本挖掘工具与应用

    北大文本挖掘技术课件

    这门"北大文本挖掘技术课件"涵盖了从基础理论到实际应用的广泛内容,对于想要深入理解和掌握文本挖掘技术的学者来说,无疑是一份宝贵的资料。 1. **基础知识**:首先,课件可能会介绍文本挖掘的基本概念,包括信息...

    文本挖掘所需的批量文本

    这样的分类语料库对学习和实践文本挖掘技术具有极大的价值。 首先,我们要理解数据挖掘的基本概念。数据挖掘是从大型数据库或数据源中发现有用信息的过程,它通常涉及模式识别、统计分析和机器学习等技术。文本挖掘...

    文本挖掘_科技政策文本挖掘与应用_特点、应用场景、技术方法

    科技政策文本挖掘是指应用文本挖掘技术来分析和处理科技政策相关的文本数据,以获得有价值的信息和见解。 特点: * 非结构化:科技政策文本数据通常是非结构化的,缺乏统一的格式和标准。 * 元数据缺乏:科技政策...

    文本挖掘及其关键技术与方法

    文本挖掘技术涵盖了广泛的方法,用于从文本数据中提取有价值的信息。这些技术包括但不限于: - **主题模型**:如LDA(Latent Dirichlet Allocation),用于识别文档的主题分布。 - **情感分析模型**:如基于机器...

    文本挖掘课件文本挖掘的起源

    这一领域的早期工作主要集中在信息检索(IR)和自然语言处理(NLP),这两个领域为后来的文本挖掘技术奠定了基础。随着计算机性能的提升和互联网的普及,文本挖掘技术得到了快速发展,逐渐成为研究热点。 文本挖掘...

    文本挖掘技术及其在专利信息分析中的应用

    ### 文本挖掘技术及其在专利信息分析中的应用 #### 一、文本挖掘概述 文本挖掘(Text Mining, TM),也称作文本数据挖掘(Text Data Mining, TDM)或者文本知识发现(Knowledge Discovery in Texts, KDT),是数据...

    基于深度学习的文本挖掘研究.pdf

    本文对基于深度学习的文本挖掘技术进行了综述,讨论了文本挖掘的过程和应用领域,并对融合深度学习特征的文本挖掘技术进行了介绍。本文的研究结果可以为文本挖掘领域的研究人员和实践者提供有价值的参考和借鉴。 ...

Global site tag (gtag.js) - Google Analytics