用R读取PDF并进行数据挖掘,例子如下:
# here is a pdf for mining
url <- "http://www.noisyroom.net/blog/RomneySpeech072912.pdf"
dest <- tempfile(fileext = ".pdf")
download.file(url, dest, mode = "wb")
# set path to pdftotxt.exe and convert pdf to text
exe <- "C:\\Program Files\\xpdfbin-win-3.03\\bin32\\pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)
# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt); shell.exec(filetxt) # strangely the first try always throws an error..
# do something with it, i.e. a simple word cloud
library(tm)
library(wordcloud)
library(Rstem)
txt <- readLines(filetxt) # don't mind warning..
txt <- tolower(txt)
txt <- removeWords(txt, c("\\f", stopwords()))
corpus <- Corpus(VectorSource(txt))
corpus <- tm_map(corpus, removePunctuation)
tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm)
d <- data.frame(freq = sort(rowSums(m), decreasing = TRUE))
# Stem words
d$stem <- wordStem(row.names(d), language = "english")
# and put words to column, otherwise they would be lost when aggregating
d$word <- row.names(d)
# remove web address (very long string):
d <- d[nchar(row.names(d)) < 20, ]
# aggregate freqeuncy by word stem and
# keep first words..
agg_freq <- aggregate(freq ~ stem, data = d, sum)
agg_word <- aggregate(word ~ stem, data = d, function(x) x[1])
d <- cbind(freq = agg_freq[, 2], agg_word)
# sort by frequency
d <- d[order(d$freq, decreasing = T), ]
# print wordcloud:
wordcloud(d$word, d$freq)
# remove files
file.remove(dir(tempdir(), full.name=T)) # remove files
分享到:
相关推荐
《R语言数据挖掘(第2版)》是深入学习数据挖掘技术的重要参考资料,特别是对于使用R语言进行数据处理和分析的读者来说,这本书提供了丰富的实践案例和配套代码。本压缩包包含的文件主要与书中的实例相关,让我们逐一...
《用商业案例学R语言数据挖掘》这本书是针对商业智能时代数据分析需求而编写的,旨在帮助各类从业者掌握R语言在数据分析和数据挖掘中的应用。全书分为18章,覆盖了R语言的基础知识、统计学习方法和数据挖掘技术,...
"R语言与数据挖掘数据集"这个主题涵盖了两个关键概念:R语言的使用和数据挖掘过程。以下将详细介绍这两个方面。 首先,R语言是专为统计分析和图形绘制设计的一种编程语言,它的语法简洁明了,适合各种复杂的统计...
R语言在环境监测数据挖掘中的应用主要体现在数据处理、统计分析以及结果可视化等环节,它对于环境监测领域中的数据分析提供了强大的支持。本文将围绕以下几个方面进行详细阐述: 首先,R语言是一种用于统计分析和...
在本章"R语言数据分析与数据挖掘实战"中,我们将深入探讨R语言在数据分析和数据挖掘领域的应用。R语言作为一种强大的统计分析工具,因其开源、免费且拥有丰富的库支持,深受广大数据科学家和统计学者的喜爱。 首先...
《Python数据挖掘项目开发实战:新闻语料分类与编程案例解析》是一门深入探讨无监督学习在新闻领域应用的教程。本章的核心是利用Python进行新闻数据的获取、聚类分析以及主题抽取出隐藏在海量新闻报道中的趋势和主题...
在数据分析和数据挖掘领域,R语言因其强大的统计分析能力和丰富的可视化功能而被广泛使用。本资料专注于R语言在数据库交互和统计绘图方面的应用,旨在帮助用户在45分钟内快速掌握这两个关键技能。 首先,R语言与...
本文展示了R语言在处理基因表达数据集方面的实际应用,如从GEO数据库下载前列腺癌样本基因表达谱数据集,并运用R语言进行数据预处理、差异基因筛选、富集分析和生存分析等关键步骤。 2. 基因表达谱数据集与数据分析...
### Python版数据挖掘实验2报告:使用 Scikit-learn中的 K近邻算法进行分类 #### 实验背景与目的 在本实验中,我们将探讨如何利用Python中的Scikit-learn库来实现K近邻(K-Nearest Neighbors, KNN)算法进行分类任务...
通过以上步骤,我们可以对数据集进行初步的清洗和探索,识别潜在的问题,如缺失值和异常值,并可视化数据分布,这对于后续的数据挖掘和建模过程至关重要。这些基础分析技术是任何数据科学项目中的重要组成部分。
通过本课程的学习,学生将掌握 R 语言编程基础知识和技能,能够使用 R 语言进行数据分析和可视化,掌握 Rattle 工具实现数据挖掘相关操作,具备基本的数据分析和可视化能力,为今后进行实际编程操作奠定基础。
- 使用R语言读取销售数据,进行清洗、探索性分析及可视化展示。 - 运用线性回归模型预测未来销售额趋势。 #### 案例二:社交媒体情感分析 - 收集社交媒体上的评论或帖子数据,利用文本挖掘技术进行情感分析。 - ...
9. **接入数据挖掘软件 Weka**:RWeka 包使得用户可以在 R 中使用 Weka 的所有算法。 【Rhadoop的系统架构】 Rhadoop 架构由 R 环境和 Hadoop 环境组成。在 Hadoop 集群中安装 R 环境后,通过特定的 R 包,R 可以...
- **数据导入与清理**:使用R读取各种格式的数据文件,并进行必要的预处理,如缺失值处理、异常值检测等。 - **数据可视化**:利用R的绘图功能,如ggplot2包,来创建高质量的图表。 - **假设检验**:通过t检验、...
《数据分析与R语言》课程是针对统计分析和数据挖掘领域的一系列教学材料,主要通过PDF格式的PPT呈现。R语言作为一门强大的开源编程语言,广泛应用于数据分析、统计建模和可视化,尤其在现代大数据处理中占据重要地位...
1. **预处理**:这是数据挖掘的第一步,主要包括去除文本中的无关部分,如header、footer和注释信息,以及消除换行符"\r\n",将文本合并为连续的段落。此外,处理好的文件会被重新组织到与原目录结构相同的目录下。 ...
R语言是一个核心软件包,而RStudio是一个基于R语言开发的集成开发环境(IDE),它可以使得R语言的使用更为便捷。RStudio提供了一个方便的用户界面,包含四个主要区域:源代码编辑器、控制台、环境/历史记录和文件/...
R语言是一种用于统计分析、图形表示和报告编制的编程语言,非常适合数据挖掘、数据分析和图形展示等需求。这本书系统地介绍了R语言的基础知识和一些高级技巧,对于初学者来说是很好的入门教材,对于有经验的用户来说...
标题《R语言导论_中文修正版》和描述表明,本文档是一个对R语言的入门指导材料,它提供了R语言的基础知识、概念和操作,旨在帮助初学者了解并掌握R语言的基本使用。文章的内容经过适当调整,适于初学者学习,并通过...
报告中展示了R语言的代码片段,用以读取数据、计算误判率、寻找最佳K值以及评估各个特征对误判率的影响。从结果图可以看出,当K值为7时,误判率最低,且通过对比不同特征被剔除时的误判率变化,可以确定各个特征的...