`
jmdq86
  • 浏览: 671 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

html抽取

阅读更多

<li class="ji" _bg=Y>
  <span class="one lan1 cutT" _chk=694>
  <script>wm(0)</script>
  <a _tc='0' href="/b-1001024083/694.htm" _link='1'>车世界中的6位女神</a><script>wm(7)</script></span>
  <span class="two lan2 cut"><a _ulink='312898810'>誑嬡柏‘鋇鋇</a></span>
  <span class="three gary1" _mng=N>
  8/<font color="#FF0000">2770</font></span>
  <span class="four lan2 cut" _mng=N>
  <a _ulink=1023781448>吉日总部客服</a></span>
  <span class="five gary1" _mng=N><script>wt(1237172399)</script></span><span class="one lan2 mngBtn" _mng=Y _id="694" _elite="0" _top="0" _lock="0" style="display:none"></span>
  </li>

 

对于这样一段html代码,我想抽取其中的帖子标题“车世界中的6位女神”,帖子的作者“誑嬡柏‘鋇鋇”,帖子的点击和回复数“8/2770”,帖子的最后回复人“吉日总部客服

java的正则应该怎么写呢?

我原来的例子是这样的

package com.common.test;

import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

@SuppressWarnings("unchecked")
public class servicingTest0 {

	public static void main(String args[]) {

		String html = "<title>买X3前最后一次考察 没想到就直接下订金了</title>" + "<title>BMW 2009精英驾驶培训课程现已出炉,3月全面启动招募报名!</title>"
				+ "<title>宝马7系历史回顾</title>";
		List resultList = getContext("<title>", "</title>", html);
		for (Iterator iterator = resultList.iterator(); iterator.hasNext();) {
			String context = (String) iterator.next();
			System.out.println(context);
		}
	}

	public static List getContext(String start, String end, String html) {

		List resultList = new ArrayList();
		/**
		 * Pattern p = Pattern.compile("<title>([^</title>]*)");
		 */
		Pattern p = Pattern.compile(start + "([^" + end + "]*)");// 匹配<title>开头,</title>结尾的文档
		Matcher m = p.matcher(html);
		while (m.find()) {
			resultList.add(m.group(1));
		}
		return resultList;
	}
}

 但是现在实际的问题是不存在像title那样简单的标签,比如帖子的标题标签是<a _tc='0' href="/b-1001024083/694.htm" _link='1'>标题</a>,这个694是需要变化的,如果是用”火车采集器“那么我只要给定<a _tc='0' href="/b-1001024083/(*).htm" _link='1'>和</a>,就可以拿到帖子标题,现在java中用正则如何实现这一功能,大大们帮我指点一下?谢谢啦

分享到:
评论

相关推荐

    HTML抽取器Xsoup.zip

    Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。 相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间都只有HtmlCleaner的一半。同时Xsoup提供全面的XPath解析...

    基于JerichoHTMLParser的html信息抽取.pdf

    HTML信息抽取是网络数据挖掘的重要组成部分,用于从网页中提取结构化或半结构化信息,以便进一步处理和分析。在给定的文件“基于JerichoHTMLParser的html信息抽取.pdf”中,作者王鸿伟探讨了如何利用Jericho HTML ...

    nodejs 解析html根据标签提取需要合并的js、css,并且更新html

    nodejs 解析html根据标签提取需要合并的js、css,并且更新html # 简介 &gt; 站点页面上js、css外链过多会导致网页的加载速度过慢,通过合并页面的js、css成一个文件,减少http的开销。 读取config.json,解析html根据 ...

    unity抽取html信息demo

    "unity抽取html信息demo"就是这样一个示例项目,它演示了如何在Unity中处理HTML数据,虽然可能不是全自动化的解决方案,但它提供了从静态HTML页面中提取关键信息的基础方法。 Unity本身并不直接支持HTML解析,但...

    HTMLParser抽取Web网页正文信息.doc

    它能够有效地识别和解析HTML标签,帮助开发者从复杂的网页结构中抽取特定的数据。在实际应用中,HTMLParser不仅能够处理标准的HTML文档,还能容忍一些常见的HTML语法错误,使得数据提取过程更加稳定和高效。 #### ...

    HTMLParser抽取Web网页正文信息

    HTMLParser 是一个强大的工具,用于解析和分析HTML文档,它能帮助我们从网页中抽取主要信息,排除掉无关的导航、广告和版权等噪音内容。这不仅能够优化用户体验,节省浏览时间,还能提高用户获取信息的效率,进而...

    点名器,名字随机抽取,四种不同类型

    四种代码均可伪随机名字抽取,但xxxx2.html的代码更多,更复杂,请使用时量力而行。 根据类型分为“名字抽取”和“点名器”两种类型。 名字抽取点击按钮随机抽取提前输入的名字,每点击一次抽取一个。 点名器开始...

    网页正则标签抽取例子

    网页正则标签抽取是网页解析和信息提取中的一个重要技术,主要应用于搜索引擎、数据挖掘和文本分析等领域。在Java中,我们可以利用正则表达式(RegExp)来高效地定位和提取网页中的特定信息。本文将详细讲解如何使用...

    基于机器学习的HTML标题抽取.pdf

    【基于机器学习的HTML标题抽取】是研究如何利用机器学习技术从HTML文档中准确地提取出代表文档主题的标题信息。HTML文档中的标题通常在&lt;Title&gt;...标签中,但并非所有网页都能准确地将主要内容概括在Title标签内。...

    从HTML文件中抽取正文的简单方案.pdf

    ### 从HTML文件中抽取正文的简单方案 #### 背景介绍 随着互联网的快速发展,HTML文件成为了信息传递的主要载体之一。然而,在这些文件中,真正的内容往往被各种无关的元素如广告、布局表格、格式标记等所包围。为了...

    一种基于分块的Web数据实体抽取方法

    1. **网页结构分析**:首先,对网页进行深度解析,识别出构成页面结构的EAFG(Extended Abstract Format for Graphics,此处可能是原文中的HTML)标记和视觉特征,如颜色、字体大小、位置等,这有助于区分不同的内容...

    vc下抽取html页面中js,并进行调用

    本文将深入探讨如何在VC中抽取HTML页面中的JavaScript代码,并对其进行调用。 首先,我们需要理解HTML页面结构。HTML是一种标记语言,用于构建网页的结构,而JavaScript是一种脚本语言,用于为网页添加交互性和动态...

    关于信息抽取的几个小资料

    它可能涵盖了网页解析(如HTML解析)、爬虫技术、链接分析以及如何处理半结构化和无结构化的网页数据。 最后,《WEB抽取工具介绍》可能介绍了几种流行的信息抽取工具,如BeautifulSoup、Scrapy、NLTK和spaCy等,...

    从HTML文件中抽取正文的简单方案 试验结果

    这篇名为“从HTML文件中抽取正文的简单方案 试验结果”的文章可能探讨了如何有效地从HTML文档中分离出核心的正文部分。 首先,提取HTML正文的一种常见方法是利用HTML标签的语义特性。例如,`&lt;article&gt;`、`&lt;main&gt;`、...

    PDF图片抽取软件

    2. Readme-说明.htm:这是一个HTML文件,通常包含软件的使用指南、许可协议、系统要求等信息。用户应先阅读此文件,以了解如何正确安装和使用软件,以及可能的限制和注意事项。 使用PDF图片抽取软件时,用户通常...

    基于统计的网页正文信息抽取

    总的来说,基于统计的网页正文信息抽取是通过统计学习方法从HTML结构中自动识别主要内容的过程,它依赖于有效的特征工程和模型训练。结合htmlparser和Eclipse这样的工具,可以构建出高效且适应性强的正文抽取系统,...

    HTML5公共页面提取作为公用代码的方法

    index.html &lt;!-- 底部加载外部文件 --&gt; [removed] $('.footer').load('conment/foot.html',function(responseTxt,statusTxt,xhr){ console.log('responseTxt,statusTxt,xhr') // console.log(re

    html5手机摇一摇抽取幸运号码代码

    在这个名为"html5手机摇一摇抽取幸运号码代码"的项目中,我们将探讨如何使用HTML5的DeviceMotion事件和JavaScript来创建一个摇一摇抽奖应用。 首先,我们需要了解HTML5的DeviceMotion事件。这个事件允许开发者获取...

    中文网页文本抽取源程序

    【中文网页文本抽取源程序】是一个专为处理中文网页数据而设计的软件开发资源,它包含了一组源代码,能够帮助开发者从HTML网页中提取出有用的文本信息。这个项目是用Visual C++ 6.0(简称VC6.0)开发的,这意味着它...

    网页信息抽取英文资料15篇

    1. **预处理**:这是信息抽取的第一步,包括去除HTML标记、分词、词干提取和停用词过滤等,目的是将原始文本转化为适合进一步分析的形式。 2. **命名实体识别**(NER):识别文本中具有特定意义的实体,如人名、...

Global site tag (gtag.js) - Google Analytics