Java实现抽取网页信息 - 通吃互联网 - ITeye博客

`

thunderbow

浏览: 158647 次
性别:
来自: beijing

最近访客更多访客>>

zjut_wyj

cserw3c

yzl495

woodding2008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

雷博弈：统一的认证，
单点登陆的概念
gembin：这个算法数字大点就 java.lang.StackOverfl ...
关于java递归算法
hugh.wang：
关于java递归算法
lele0103： ...
关于java递归算法
afeifqh：很好。楼主加油！
对弹出框和模式框解决的方案

Java实现抽取网页信息

博客分类：

java 算法

Java 正则表达式

阅读更多

使用正则表达式及字符串操作，抽取网页信息，实现代码如下：

/* 去script */
public static String trimScript(String content) {
String regEx = "<script[^>]*>[^<]+</script>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}
/* 去除注释*/
public static String trimComment(String content) {
String regEx = "";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}

/* 去除标签 */
public static String trimTag(String content) {
String regEx = "<[^>]+>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
result = result.replace(" ", "").replace(">", "").replace(
">", "");
return result;
}

/* 根据起始位置和结束位置，截取字符串 */
public static String subString(String start, String end, String content) {
int iStart = content.indexOf(start);
int iEnd = content.indexOf(end);
if (iStart < iEnd) {
return content.substring(iStart, iEnd);
}
return null;
}

分享到：

中国最大的软件批发商 | 想建个程序员的网站

2009-01-15 14:37
浏览 1113
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

网页信息抽取工具 java网页信息抽取工具 java: 网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具

Java精确抽取网页发布时间: 本文主要探讨如何使用Java实现这一功能，通过解析网页URL和内容来获取尽可能准确的发布时间，并将其转换为标准的"yyyy-MM-dd HH:mm:ss"格式。首先，我们可以看到代码中定义了多个正则表达式，用于匹配URL中可能...

java实现的网页爬虫1.5版本聚焦爬虫抽取网页: 总之，Java实现的网页爬虫1.5版本聚焦爬虫是一个深入研究和实践Web信息提取的项目。通过合理的设计和优化，它可以有效地从互联网中抽取特定主题的内容，为各种数据分析任务提供数据支持。对于想要学习或提升爬虫技能...

java实现的网页爬虫1.5版本聚焦爬虫抽取网页html: 综上所述，"Java实现的网页爬虫1.5版本聚焦爬虫抽取网页html"是一个涉及网络编程、HTML解析、数据库操作和算法策略的综合项目。通过不断优化和改进，这个爬虫可以成为一个强大的信息获取工具，服务于各种数据分析和...

自动抽取网页正文的算法，用JAVA实现.zip: Java是一种高性能、跨平台的面向对象编程语言。它由Sun Microsystems（现在是Oracle Corporation）的James Gosling等人在1995年推出，被设计为一种简单、健壮、可移植、多线程、动态的语言。Java的主要特点和优势...

新闻网页内容抽取java版: java实现新闻网页内容抽取，具体算法参考“基于统计的新闻网页内容抽取”

java实现的网页爬虫1.6版本聚焦爬虫抽取网页完整版: JavaSpider 1.6是一款基于Java实现的网页爬虫软件，专为聚焦爬虫设计，旨在从互联网上抓取特定网站的源代码内容并进行存储。这个1.6版本是多个版本的集合，包含了从1.1到1.6的所有更新和改进，使得爬虫功能更加完善...

基于统计的网页正文信息抽取: 在IT领域，网页正文信息抽取是一项重要的技术，它主要用于从大量的网页数据中提取出...结合htmlparser和Eclipse这样的工具，可以构建出高效且适应性强的正文抽取系统，这对于大数据时代的网页信息处理具有重要意义。

基于Java实现的基于模板的网页结构化信息精准抽取组件。.zip: 本项目是一个基于Java实现的基于模板的网页结构化信息抽取组件，其核心目标是提高信息提取的准确性与效率。首先，我们来详细探讨“基于模板”的网页信息抽取。模板是一种预先定义好的规则或模式，它包含了我们需要...

基于java的网页抽取工具 Krabber.zip: 在本案例中，"基于java的网页抽取工具 Krabber.zip" 提供了一个利用Java实现的网页数据抓取解决方案。网页抽取，也称为网络爬虫或网页抓取，是获取大量网页信息并进行分析的过程，通常用于搜索引擎索引、市场研究、...

java源码：网页抽取工具 Krabber.rar: 在IT领域，网页抽取，也称为网络爬虫或网页抓取，是一项重要的技术，用于自动化地从互联网上获取大量信息。Krabber是一个基于Java编写的网页抽取工具，它允许开发者有效地提取和处理网页上的数据。Java作为一门跨...

HTMLParser抽取Web网页正文信息.doc: ### HTMLParser抽取Web网页正文信息的关键知识点 #### 一、HTMLParser简介与应用 HTMLParser是一种用于解析HTML文档的工具，特别适用于从Web网页中提取有用的信息。它能够有效地识别和解析HTML标签，帮助开发者从...

HTMLParser抽取Web网页正文信息: HTMLParser 是一个强大的工具，用于解析和分析HTML文档，它能帮助我们从网页中抽取主要信息，排除掉无关的导航、广告和版权等噪音内容。这不仅能够优化用户体验，节省浏览时间，还能提高用户获取信息的效率，进而...

网页信息提取java代码: 浙江大学楼学庆的第一个作业，用java提取网页信息。

利用java定时爬取网页数据: 网页爬虫是一种自动提取网页信息的程序，通过模拟浏览器发送HTTP请求到服务器，然后解析返回的HTML或XML等格式的响应，获取所需数据。在这个过程中，我们通常会用到如Jsoup这样的库来解析HTML文档，找到目标元素并...

基于Java的网页抽取工具 Krabber.zip: 【Java网页抽取工具Krabber】是一个用于从互联网上抓取和处理HTML内容的强大工具，主要针对那些希望从大量网页中提取结构化信息的开发者。Krabber利用Java的灵活性和跨平台特性，为用户提供了一个高效且易于使用的...

一种基于分块的Web数据实体抽取方法: 该论文中提到的网页信息解析器ABCD，正是基于上述原理设计和实现的。通过一系列的实验，验证了该解析器在新闻网站复杂结构页面上的有效性。实验结果显示，ABCD具有良好的性能，能准确地抽取数据实体，满足实际项目的...

基于Java的实例源码-网页抽取工具 Krabber.zip: 【标题】: "基于Java的实例源码-网页抽取工具 Krabber.zip" 提供了一个用Java实现的网页抓取工具。Krabber是这样一个工具，它能够从互联网上自动提取和处理信息，通常用于数据挖掘、搜索引擎索引或者网络分析。 ...

Global site tag (gtag.js) - Google Analytics