用R读取PDF并进行数据挖掘 - 海瑟天涯 - ITeye博客

`

ldb19890624

浏览: 248754 次
性别:
来自: 北京

最近访客更多访客>>

caizi12

missing1314521

u012363178

halfsking

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (632)

社区版块

存档分类

最新评论

用R读取PDF并进行数据挖掘

阅读更多

用R读取PDF并进行数据挖掘，例子如下：

# here is a pdf for mining
url <- "http://www.noisyroom.net/blog/RomneySpeech072912.pdf"
dest <- tempfile(fileext = ".pdf")
download.file(url, dest, mode = "wb")

# set path to pdftotxt.exe and convert pdf to text
exe <- "C:\\Program Files\\xpdfbin-win-3.03\\bin32\\pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)

# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt); shell.exec(filetxt) # strangely the first try always throws an error..

# do something with it, i.e. a simple word cloud
library(tm)
library(wordcloud)
library(Rstem)

txt <- readLines(filetxt) # don't mind warning..

txt <- tolower(txt)
txt <- removeWords(txt, c("\\f", stopwords()))

corpus <- Corpus(VectorSource(txt))
corpus <- tm_map(corpus, removePunctuation)
tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm)
d <- data.frame(freq = sort(rowSums(m), decreasing = TRUE))

# Stem words
d$stem <- wordStem(row.names(d), language = "english")

# and put words to column, otherwise they would be lost when aggregating
d$word <- row.names(d)

# remove web address (very long string):
d <- d[nchar(row.names(d)) < 20, ]

# aggregate freqeuncy by word stem and
# keep first words..
agg_freq <- aggregate(freq ~ stem, data = d, sum)
agg_word <- aggregate(word ~ stem, data = d, function(x) x[1])

d <- cbind(freq = agg_freq[, 2], agg_word)

# sort by frequency
d <- d[order(d$freq, decreasing = T), ]

# print wordcloud:
wordcloud(d$word, d$freq)

# remove files
file.remove(dir(tempdir(), full.name=T)) # remove files

分享到：

Eclipse 4.2 SR1版悄悄发布 | Python 3.3版发布

2012-10-01 12:28
浏览 301
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

《R语言数据挖掘(第2版)》R代码和案例数据.rar: 《R语言数据挖掘(第2版)》是深入学习数据挖掘技术的重要参考资料，特别是对于使用R语言进行数据处理和分析的读者来说，这本书提供了丰富的实践案例和配套代码。本压缩包包含的文件主要与书中的实例相关，让我们逐一...

用商业案例学R语言数据挖掘-学习笔记.pdf: 《用商业案例学R语言数据挖掘》这本书是针对商业智能时代数据分析需求而编写的，旨在帮助各类从业者掌握R语言在数据分析和数据挖掘中的应用。全书分为18章，覆盖了R语言的基础知识、统计学习方法和数据挖掘技术，...

R在环境监测中的数据挖掘处理和应用分析.pdf: R语言在环境监测数据挖掘中的应用主要体现在数据处理、统计分析以及结果可视化等环节，它对于环境监测领域中的数据分析提供了强大的支持。本文将围绕以下几个方面进行详细阐述：首先，R语言是一种用于统计分析和...

R语言数据分析与数据挖掘实战第2章代码: 在本章"R语言数据分析与数据挖掘实战"中，我们将深入探讨R语言在数据分析和数据挖掘领域的应用。R语言作为一种强大的统计分析工具，因其开源、免费且拥有丰富的库支持，深受广大数据科学家和统计学者的喜爱。首先...

Python数据挖掘项目开发实战_新闻语料分类_编程案例解析实例详解课程教程.pdf: 《Python数据挖掘项目开发实战：新闻语料分类与编程案例解析》是一门深入探讨无监督学习在新闻领域应用的教程。本章的核心是利用Python进行新闻数据的获取、聚类分析以及主题抽取出隐藏在海量新闻报道中的趋势和主题...

数据分析与数据挖掘资料 45分钟搞定R语言之数据库交互及统计绘图共47页.pdf: 在数据分析和数据挖掘领域，R语言因其强大的统计分析能力和丰富的可视化功能而被广泛使用。本资料专注于R语言在数据库交互和统计绘图方面的应用，旨在帮助用户在45分钟内快速掌握这两个关键技能。首先，R语言与...

基于R语言的前列腺癌样本的关键基因数据挖掘.pdf: 本文展示了R语言在处理基因表达数据集方面的实际应用，如从GEO数据库下载前列腺癌样本基因表达谱数据集，并运用R语言进行数据预处理、差异基因筛选、富集分析和生存分析等关键步骤。 2. 基因表达谱数据集与数据分析...

Python版数据挖掘实验2报告：使用 Scikit-learn中的 K近邻算法进行分类.pdf: ### Python版数据挖掘实验2报告：使用 Scikit-learn中的 K近邻算法进行分类 #### 实验背景与目的在本实验中，我们将探讨如何利用Python中的Scikit-learn库来实现K近邻(K-Nearest Neighbors, KNN)算法进行分类任务...

数据挖掘分析.pdf: 通过以上步骤，我们可以对数据集进行初步的清洗和探索，识别潜在的问题，如缺失值和异常值，并可视化数据分布，这对于后续的数据挖掘和建模过程至关重要。这些基础分析技术是任何数据科学项目中的重要组成部分。

R语言编程基础-教学大纲.pdf: 通过本课程的学习，学生将掌握 R 语言编程基础知识和技能，能够使用 R 语言进行数据分析和可视化，掌握 Rattle 工具实现数据挖掘相关操作，具备基本的数据分析和可视化能力，为今后进行实际编程操作奠定基础。

R语言经典实例.pdf: - 使用R语言读取销售数据，进行清洗、探索性分析及可视化展示。 - 运用线性回归模型预测未来销售额趋势。 #### 案例二：社交媒体情感分析 - 收集社交媒体上的评论或帖子数据，利用文本挖掘技术进行情感分析。 - ...

大数据挖掘工具资料收集之RhadoopV1.0.pdf: 9. **接入数据挖掘软件 Weka**：RWeka 包使得用户可以在 R 中使用 Weka 的所有算法。【Rhadoop的系统架构】 Rhadoop 架构由 R 环境和 Hadoop 环境组成。在 Hadoop 集群中安装 R 环境后，通过特定的 R 包，R 可以...

统计建模与R软件.pdf: - **数据导入与清理**：使用R读取各种格式的数据文件，并进行必要的预处理，如缺失值处理、异常值检测等。 - **数据可视化**：利用R的绘图功能，如ggplot2包，来创建高质量的图表。 - **假设检验**：通过t检验、...

数据分析与R语言视频课件.zip: 《数据分析与R语言》课程是针对统计分析和数据挖掘领域的一系列教学材料，主要通过PDF格式的PPT呈现。R语言作为一门强大的开源编程语言，广泛应用于数据分析、统计建模和可视化，尤其在现代大数据处理中占据重要地位...

数据挖掘课程实验最终报告.pdf: 1. **预处理**：这是数据挖掘的第一步，主要包括去除文本中的无关部分，如header、footer和注释信息，以及消除换行符"\r\n"，将文本合并为连续的段落。此外，处理好的文件会被重新组织到与原目录结构相同的目录下。 ...

r语言入门教学(1).pdf: R语言是一个核心软件包，而RStudio是一个基于R语言开发的集成开发环境（IDE），它可以使得R语言的使用更为便捷。RStudio提供了一个方便的用户界面，包含四个主要区域：源代码编辑器、控制台、环境/历史记录和文件/...

复杂数据统计方法-基于R的应用（带标签）: 该书深入探讨了如何利用R语言这一强大的统计工具来处理复杂的数据问题，涵盖了数据分析和数据挖掘的关键概念和技术。在当今大数据时代，理解和掌握这些方法对于数据科学家、分析师以及任何需要处理复杂数据的人来说...

R in action.pdf: R语言是一种用于统计分析、图形表示和报告编制的编程语言，非常适合数据挖掘、数据分析和图形展示等需求。这本书系统地介绍了R语言的基础知识和一些高级技巧，对于初学者来说是很好的入门教材，对于有经验的用户来说...

R语言导论_中文修正版: 标题《R语言导论_中文修正版》和描述表明，本文档是一个对R语言的入门指导材料，它提供了R语言的基础知识、概念和操作，旨在帮助初学者了解并掌握R语言的基本使用。文章的内容经过适当调整，适于初学者学习，并通过...

数据挖掘实验报告(同名22443).pdf: 报告中展示了R语言的代码片段，用以读取数据、计算误判率、寻找最佳K值以及评估各个特征对误判率的影响。从结果图可以看出，当K值为7时，误判率最低，且通过对比不同特征被剔除时的误判率变化，可以确定各个特征的...

Global site tag (gtag.js) - Google Analytics