`
thunderbow
  • 浏览: 155893 次
  • 性别: Icon_minigender_1
  • 来自: beijing
社区版块
存档分类
最新评论

Java实现抽取网页信息

阅读更多

使用正则表达式及字符串操作,抽取网页信息,实现代码如下:

/* 去script */
public static String trimScript(String content) {
String regEx = "<script[^>]*>[^<]+</script>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}
/* 去除注释*/
public static String trimComment(String content) {
String regEx = "<!--[^-]*-->";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}

/* 去除标签 */
public static String trimTag(String content) {
String regEx = "<[^>]+>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
result = result.replace(" ", "").replace(">", "").replace(
">", "");
return result;
}

/* 根据起始位置和结束位置,截取字符串 */
public static String subString(String start, String end, String content) {
int iStart = content.indexOf(start);
int iEnd = content.indexOf(end);
if (iStart < iEnd) {
return content.substring(iStart, iEnd);
}
return null;
}

分享到:
评论

相关推荐

    网页信息抽取工具 java网页信息抽取工具 java

    网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具

    Java精确抽取网页发布时间

    本文主要探讨如何使用Java实现这一功能,通过解析网页URL和内容来获取尽可能准确的发布时间,并将其转换为标准的"yyyy-MM-dd HH:mm:ss"格式。 首先,我们可以看到代码中定义了多个正则表达式,用于匹配URL中可能...

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页

    总之,Java实现的网页爬虫1.5版本聚焦爬虫是一个深入研究和实践Web信息提取的项目。通过合理的设计和优化,它可以有效地从互联网中抽取特定主题的内容,为各种数据分析任务提供数据支持。对于想要学习或提升爬虫技能...

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页html

    综上所述,"Java实现的网页爬虫1.5版本聚焦爬虫抽取网页html"是一个涉及网络编程、HTML解析、数据库操作和算法策略的综合项目。通过不断优化和改进,这个爬虫可以成为一个强大的信息获取工具,服务于各种数据分析和...

    自动抽取网页正文的算法,用JAVA实现.zip

    Java是一种高性能、跨平台的面向对象编程语言。它由Sun Microsystems(现在是Oracle Corporation)的James Gosling等人在1995年推出,被设计为一种简单、健壮、可移植、多线程、动态的语言。Java的主要特点和优势...

    新闻网页内容抽取java版

    java实现新闻网页内容抽取,具体算法参考“基于统计的新闻网页内容抽取”

    java实现的网页爬虫1.6版本聚焦爬虫抽取网页完整版

    JavaSpider 1.6是一款基于Java实现的网页爬虫软件,专为聚焦爬虫设计,旨在从互联网上抓取特定网站的源代码内容并进行存储。这个1.6版本是多个版本的集合,包含了从1.1到1.6的所有更新和改进,使得爬虫功能更加完善...

    基于统计的网页正文信息抽取

    在IT领域,网页正文信息抽取是一项重要的技术,它主要用于从大量的网页数据中提取出...结合htmlparser和Eclipse这样的工具,可以构建出高效且适应性强的正文抽取系统,这对于大数据时代的网页信息处理具有重要意义。

    基于Java实现的基于模板的网页结构化信息精准抽取组件。.zip

    本项目是一个基于Java实现的基于模板的网页结构化信息抽取组件,其核心目标是提高信息提取的准确性与效率。 首先,我们来详细探讨“基于模板”的网页信息抽取。模板是一种预先定义好的规则或模式,它包含了我们需要...

    基于java的网页抽取工具 Krabber.zip

    在本案例中,"基于java的网页抽取工具 Krabber.zip" 提供了一个利用Java实现的网页数据抓取解决方案。网页抽取,也称为网络爬虫或网页抓取,是获取大量网页信息并进行分析的过程,通常用于搜索引擎索引、市场研究、...

    java源码:网页抽取工具 Krabber.rar

    在IT领域,网页抽取,也称为网络爬虫或网页抓取,是一项重要的技术,用于自动化地从互联网上获取大量信息。Krabber是一个基于Java编写的网页抽取工具,它允许开发者有效地提取和处理网页上的数据。Java作为一门跨...

    HTMLParser抽取Web网页正文信息.doc

    ### HTMLParser抽取Web网页正文信息的关键知识点 #### 一、HTMLParser简介与应用 HTMLParser是一种用于解析HTML文档的工具,特别适用于从Web网页中提取有用的信息。它能够有效地识别和解析HTML标签,帮助开发者从...

    HTMLParser抽取Web网页正文信息

    HTMLParser 是一个强大的工具,用于解析和分析HTML文档,它能帮助我们从网页中抽取主要信息,排除掉无关的导航、广告和版权等噪音内容。这不仅能够优化用户体验,节省浏览时间,还能提高用户获取信息的效率,进而...

    网页信息提取java代码

    浙江大学楼学庆的第一个作业,用java提取网页信息。

    利用java定时爬取网页数据

    网页爬虫是一种自动提取网页信息的程序,通过模拟浏览器发送HTTP请求到服务器,然后解析返回的HTML或XML等格式的响应,获取所需数据。在这个过程中,我们通常会用到如Jsoup这样的库来解析HTML文档,找到目标元素并...

    基于Java的网页抽取工具 Krabber.zip

    【Java网页抽取工具Krabber】是一个用于从互联网上抓取和处理HTML内容的强大工具,主要针对那些希望从大量网页中提取结构化信息的开发者。Krabber利用Java的灵活性和跨平台特性,为用户提供了一个高效且易于使用的...

    一种基于分块的Web数据实体抽取方法

    该论文中提到的网页信息解析器ABCD,正是基于上述原理设计和实现的。通过一系列的实验,验证了该解析器在新闻网站复杂结构页面上的有效性。实验结果显示,ABCD具有良好的性能,能准确地抽取数据实体,满足实际项目的...

    基于java的开发源码-网页抽取工具 Krabber.zip

    【描述】Krabber是一个高效的网页抽取工具,其主要目标是帮助开发者从海量的网页信息中提取出有价值的数据。这个工具可能包含了用于解析HTML、CSS选择器、正则表达式匹配等多种技术,以便于从复杂的网页结构中定位和...

Global site tag (gtag.js) - Google Analytics