`
ldb19890624
  • 浏览: 243609 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

用R读取PDF并进行数据挖掘

 
阅读更多

用R读取PDF并进行数据挖掘,例子如下:

# here is a pdf for mining
url <- "http://www.noisyroom.net/blog/RomneySpeech072912.pdf"
dest <- tempfile(fileext = ".pdf")
download.file(url, dest, mode = "wb")

# set path to pdftotxt.exe and convert pdf to text
exe <- "C:\\Program Files\\xpdfbin-win-3.03\\bin32\\pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)

# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt); shell.exec(filetxt) # strangely the first try always throws an error..

# do something with it, i.e. a simple word cloud
library(tm)
library(wordcloud)
library(Rstem)

txt <- readLines(filetxt) # don't mind warning..

txt <- tolower(txt)
txt <- removeWords(txt, c("\\f", stopwords()))

corpus <- Corpus(VectorSource(txt))
corpus <- tm_map(corpus, removePunctuation)
tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm)
d <- data.frame(freq = sort(rowSums(m), decreasing = TRUE))

# Stem words
d$stem <- wordStem(row.names(d), language = "english")

# and put words to column, otherwise they would be lost when aggregating
d$word <- row.names(d)

# remove web address (very long string):
d <- d[nchar(row.names(d)) < 20, ]

# aggregate freqeuncy by word stem and
# keep first words..
agg_freq <- aggregate(freq ~ stem, data = d, sum)
agg_word <- aggregate(word ~ stem, data = d, function(x) x[1])

d <- cbind(freq = agg_freq[, 2], agg_word)

# sort by frequency
d <- d[order(d$freq, decreasing = T), ]

# print wordcloud:
wordcloud(d$word, d$freq)

# remove files
file.remove(dir(tempdir(), full.name=T)) # remove files


分享到:
评论

相关推荐

    《R语言数据挖掘(第2版)》R代码和案例数据.rar

    《R语言数据挖掘(第2版)》是深入学习数据挖掘技术的重要参考资料,特别是对于使用R语言进行数据处理和分析的读者来说,这本书提供了丰富的实践案例和配套代码。本压缩包包含的文件主要与书中的实例相关,让我们逐一...

    用商业案例学R语言数据挖掘-学习笔记.pdf

    《用商业案例学R语言数据挖掘》这本书是针对商业智能时代数据分析需求而编写的,旨在帮助各类从业者掌握R语言在数据分析和数据挖掘中的应用。全书分为18章,覆盖了R语言的基础知识、统计学习方法和数据挖掘技术,...

    R语言与数据挖掘数据集

    "R语言与数据挖掘数据集"这个主题涵盖了两个关键概念:R语言的使用和数据挖掘过程。以下将详细介绍这两个方面。 首先,R语言是专为统计分析和图形绘制设计的一种编程语言,它的语法简洁明了,适合各种复杂的统计...

    R在环境监测中的数据挖掘处理和应用分析.pdf

    R语言在环境监测数据挖掘中的应用主要体现在数据处理、统计分析以及结果可视化等环节,它对于环境监测领域中的数据分析提供了强大的支持。本文将围绕以下几个方面进行详细阐述: 首先,R语言是一种用于统计分析和...

    R语言数据分析与数据挖掘实战第2章代码

    在本章"R语言数据分析与数据挖掘实战"中,我们将深入探讨R语言在数据分析和数据挖掘领域的应用。R语言作为一种强大的统计分析工具,因其开源、免费且拥有丰富的库支持,深受广大数据科学家和统计学者的喜爱。 首先...

    Python数据挖掘项目开发实战_新闻语料分类_编程案例解析实例详解课程教程.pdf

    《Python数据挖掘项目开发实战:新闻语料分类与编程案例解析》是一门深入探讨无监督学习在新闻领域应用的教程。本章的核心是利用Python进行新闻数据的获取、聚类分析以及主题抽取出隐藏在海量新闻报道中的趋势和主题...

    数据分析与数据挖掘资料 45分钟搞定R语言之数据库交互及统计绘图 共47页.pdf

    在数据分析和数据挖掘领域,R语言因其强大的统计分析能力和丰富的可视化功能而被广泛使用。本资料专注于R语言在数据库交互和统计绘图方面的应用,旨在帮助用户在45分钟内快速掌握这两个关键技能。 首先,R语言与...

    基于R语言的前列腺癌样本的关键基因数据挖掘.pdf

    本文展示了R语言在处理基因表达数据集方面的实际应用,如从GEO数据库下载前列腺癌样本基因表达谱数据集,并运用R语言进行数据预处理、差异基因筛选、富集分析和生存分析等关键步骤。 2. 基因表达谱数据集与数据分析...

    Python版数据挖掘实验2报告:使用 Scikit-learn中的 K近邻算法进行分类.pdf

    ### Python版数据挖掘实验2报告:使用 Scikit-learn中的 K近邻算法进行分类 #### 实验背景与目的 在本实验中,我们将探讨如何利用Python中的Scikit-learn库来实现K近邻(K-Nearest Neighbors, KNN)算法进行分类任务...

    数据挖掘分析.pdf

    通过以上步骤,我们可以对数据集进行初步的清洗和探索,识别潜在的问题,如缺失值和异常值,并可视化数据分布,这对于后续的数据挖掘和建模过程至关重要。这些基础分析技术是任何数据科学项目中的重要组成部分。

    R语言编程基础-教学大纲.pdf

    通过本课程的学习,学生将掌握 R 语言编程基础知识和技能,能够使用 R 语言进行数据分析和可视化,掌握 Rattle 工具实现数据挖掘相关操作,具备基本的数据分析和可视化能力,为今后进行实际编程操作奠定基础。

    R语言经典实例.pdf

    - 使用R语言读取销售数据,进行清洗、探索性分析及可视化展示。 - 运用线性回归模型预测未来销售额趋势。 #### 案例二:社交媒体情感分析 - 收集社交媒体上的评论或帖子数据,利用文本挖掘技术进行情感分析。 - ...

    大数据挖掘工具资料收集之RhadoopV1.0.pdf

    9. **接入数据挖掘软件 Weka**:RWeka 包使得用户可以在 R 中使用 Weka 的所有算法。 【Rhadoop的系统架构】 Rhadoop 架构由 R 环境和 Hadoop 环境组成。在 Hadoop 集群中安装 R 环境后,通过特定的 R 包,R 可以...

    统计建模与R软件.pdf

    - **数据导入与清理**:使用R读取各种格式的数据文件,并进行必要的预处理,如缺失值处理、异常值检测等。 - **数据可视化**:利用R的绘图功能,如ggplot2包,来创建高质量的图表。 - **假设检验**:通过t检验、...

    数据分析与R语言视频课件.zip

    《数据分析与R语言》课程是针对统计分析和数据挖掘领域的一系列教学材料,主要通过PDF格式的PPT呈现。R语言作为一门强大的开源编程语言,广泛应用于数据分析、统计建模和可视化,尤其在现代大数据处理中占据重要地位...

    数据挖掘课程实验最终报告.pdf

    1. **预处理**:这是数据挖掘的第一步,主要包括去除文本中的无关部分,如header、footer和注释信息,以及消除换行符"\r\n",将文本合并为连续的段落。此外,处理好的文件会被重新组织到与原目录结构相同的目录下。 ...

    r语言入门教学(1).pdf

    R语言是一个核心软件包,而RStudio是一个基于R语言开发的集成开发环境(IDE),它可以使得R语言的使用更为便捷。RStudio提供了一个方便的用户界面,包含四个主要区域:源代码编辑器、控制台、环境/历史记录和文件/...

    R in action.pdf

    R语言是一种用于统计分析、图形表示和报告编制的编程语言,非常适合数据挖掘、数据分析和图形展示等需求。这本书系统地介绍了R语言的基础知识和一些高级技巧,对于初学者来说是很好的入门教材,对于有经验的用户来说...

    R语言导论_中文修正版

    标题《R语言导论_中文修正版》和描述表明,本文档是一个对R语言的入门指导材料,它提供了R语言的基础知识、概念和操作,旨在帮助初学者了解并掌握R语言的基本使用。文章的内容经过适当调整,适于初学者学习,并通过...

    数据挖掘实验报告(同名22443).pdf

    报告中展示了R语言的代码片段,用以读取数据、计算误判率、寻找最佳K值以及评估各个特征对误判率的影响。从结果图可以看出,当K值为7时,误判率最低,且通过对比不同特征被剔除时的误判率变化,可以确定各个特征的...

Global site tag (gtag.js) - Google Analytics