0 0

如何用jsoup过滤文本内容5

比如<p>111111<br>2222</br><p>
现在想要得到“111111”这部分文本而过滤掉后面的HTML代码,用jsoup如何实现?(注:后面的html代码是不定的)

问题补充:
housen1987 写道
搞定了:

public static void main(String[] args) {
		// 直接从字符串中输入 HTML 文档
		String html = "<html><head><title></title></head>"
				+ "<body><p>111111<br>2222</br><p></body></html>";
		Document doc = Jsoup.parse(html);
		Elements links = doc.getElementsByTag("p");
		Element t =  links.get(0);
		System.out.println(t.childNode(0));
	}

这样的方法只能解决特定的一种格式,我先说明一下:节点P是不确定的,文本内容和HTML代码顺序也是不确定的,或许有的节点没有文本。我本来想用正则表达式来做,但是我不知道JSOUP自己是否能实现这个功能,我找API看了下似乎没找到
2012年1月06日 16:19

3个答案 按时间排序 按投票排序

0 0

引用
这样的方法只能解决特定的一种格式,我先说明一下:节点P是不确定的,文本内容和HTML代码顺序也是不确定的,或许有的节点没有文本。我本来想用正则表达式来做,但是我不知道JSOUP自己是否能实现这个功能,我找API看了下似乎没找到


jsoup可以做到这一点,其实只要参考js操作html的方式来操作jsoup。但是我没找到那么完美的方法。

正则是肯定可以办到的,jsoup其实也只是操作一个字符串,只要处理得当,就一定能获得想要的效果。不过可能麻烦了点。

就你的问题而言,正则是最好最快的方式。

2012年1月09日 10:02
0 0

搞定了:

public static void main(String[] args) {
		// 直接从字符串中输入 HTML 文档
		String html = "<html><head><title></title></head>"
				+ "<body><p>111111<br>2222</br><p></body></html>";
		Document doc = Jsoup.parse(html);
		Elements links = doc.getElementsByTag("p");
		Element t =  links.get(0);
		System.out.println(t.childNode(0));
	}

2012年1月06日 18:27
0 0

没想到什么好办法,这样的结构,在html界面里面很容易找,不过java就不好办了

	public static void main(String[] args) {
		// 直接从字符串中输入 HTML 文档
		String html = "<html><head><title></title></head>"
				+ "<body><p>111111<br>2222</br><p></body></html>";
		Document doc = Jsoup.parse(html);
		Elements links = doc.getElementsByTag("p");
		System.out.println(links.eq(0).text().split(" ")[0]);
	}

2012年1月06日 17:15

相关推荐

    jsoup网页内容分析

    - **内容过滤与清洗**:在处理用户提交的HTML内容时,JSoup可以用来清除恶意代码或不合规的HTML结构,保障网站安全。 综上所述,JSoup作为一款强大的HTML处理工具,无论是解析、提取还是操作HTML内容,都展现出了其...

    使用Jsoup解析html网页

    下面是一个简单的示例,展示了如何使用Jsoup连接到一个网页,选择特定元素并提取其内容: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; public class ...

    JsoupAPI(jsoup帮助文档)

    - **提取文本**:使用`Element.text()`或`Elements.eachText()`获取元素或一组元素的文本内容。 - **提取属性**:`Element.attr("attributeName")`获取指定属性的值,如链接的`href`属性。 - **遍历元素**:使用`...

    Android使用Jsoup技术解析HTML

    此外,还可以使用过滤器进一步筛选结果。 ### 6. 提取数据与更新UI 在获取到所需元素后,我们可以提取其中的数据,如文本、属性值等。这些数据通常会被用于填充ListView、RecyclerView或其他UI组件。需要注意的是...

    jsoup-jsoup-1.6.1.zip

    5. **安全过滤**:在解析过程中,jsoup可以对HTML内容进行安全过滤,避免XSS(跨站脚本攻击)的发生。它可以自动转义HTML特殊字符,防止恶意代码注入。 6. **连接与下载**:jsoup还提供了连接功能,可以直接从URL...

    jsoup1.10.3包和jsoupApi帮助文档

    - **内容过滤**:在用户生成内容的场景下,Jsoup可以帮助过滤掉恶意的HTML标签和属性,保障安全。 总的来说,jsoup1.10.3及其API文档是Web开发人员的得力工具,无论是在爬虫项目还是网页数据处理中,都能发挥巨大...

    jsoup-1.11.3.jar

    此外,还可以使用`Elements`对象的方法来提取元素集合的属性值或文本内容。 6. **表单提交**:Jsoup可以模拟浏览器填写和提交HTML表单,这对于自动化测试和模拟用户行为非常有用。 7. **事件处理**:虽然不像完整...

    org.jsoup.jar

    论坛系统则可能用它来解析用户的帖子内容,进行安全过滤。 总之,Jsoup作为Java中强大的HTML处理工具,其易用性和灵活性使得它在处理HTML相关任务时成为了首选。了解并熟练掌握Jsoup,对于提升Java开发者的Web数据...

    jsoup-1.6.3.rar HTML解析器

    - **内容过滤**:在论坛或博客系统中,使用jsoup过滤用户提交的HTML内容,防止XSS攻击。 综上所述,jsoup是一个强大的HTML解析库,它简化了Java开发者处理HTML文档的工作,提供了丰富的API和CSS选择器支持。无论是...

    jsoup-jsoup-1.12.2.zip

    3. **数据提取**:jsoup提供了方便的数据提取API,允许开发者轻松获取HTML元素的属性值,如文本内容、链接、图片地址等。这对于爬虫和数据挖掘项目非常有用。 4. **安全链接提取**:jsoup包含了一个链接安全过滤器...

    jsoup-1.7.1 chm

    jsoup能够防御跨站脚本(XSS)攻击,通过其内置的XSS防御机制,可以在提取和展示用户提供的HTML内容时,自动过滤潜在的恶意代码。 ### 应用场景 jsoup广泛应用于各种项目,包括爬虫框架、内容管理系统、数据提取...

    2010最新解析html开源项目jsoup源码及api下载及jsoup.jar

    通过这个文档,你可以快速查找并了解每个类、接口和方法的功能,学习如何正确使用它们来完成特定任务,如选取HTML元素、过滤、修改页面内容等。 **使用实例** 官方文档地址http://jsoup.org/cookbook/提供了丰富的...

    jsoup爬虫学习之爬取博客(包含jsoup jar包)

    例如,如果博客使用了AJAX技术动态加载内容,我们可以用`Selenium`模拟用户交互,先触发加载,再用`jsoup`解析加载后的内容。 标签"jsoup"表明了该资源的重点,意味着你将专注于学习`jsoup`库的应用。`jsoup`不仅...

    jsoup-1.8.1.jar

    总的来说,jsoup是Java开发者处理HTML的强大工具,无论是在Web抓取、数据提取还是内容安全方面,都能提供高效且易于使用的解决方案。尽管【压缩包子文件的文件名称列表】中的"a28554e6ba0447269e24d1534666477d"没有...

    jsoup相关jar包

    - **内容过滤**:在处理用户输入时,可以使用JSoup进行XSS(跨站脚本攻击)防护,清理不安全的HTML内容。 **总结** JSoup是一个强大的HTML处理库,提供了丰富的API来解析、操作和提取HTML数据。通过jsoup-proxy....

    jsoup-1.11.2.jar.zip

    - **内容提取**:在处理用户输入的HTML内容时,jsoup可以帮助提取和过滤掉不安全的HTML标签,防止XSS攻击。 - **网页爬虫**:构建简单的网页爬虫时,jsoup可以解析和分析网页结构,提取有用的数据。 - **数据迁移*...

    jsoup1.8.1jar包

    此外,Jsoup还提供了便利的方法如 `text()` 获取元素内的纯文本,`attr("attribute")` 获取或设置元素属性,以及 `append()` 和 `prepend()` 等用于修改元素内容。 在**数据提取**方面,Jsoup提供了强大的功能。...

    Jsoup.jar附带教程

    **元素操作** `Element` 类提供了丰富的操作方法,如`text()` 获取元素的文本内容,`html()` 获取或设置元素的HTML,以及`attr("attribute")` 获取或设置属性值。通过这些方法,你可以轻松地提取、修改或插入HTML...

    jsoup jar包

    - **内容过滤**:过滤HTML中的广告或其他不需要的元素,提升用户体验。 - **网站迁移**:将旧版网站的数据迁移到新版网站,或者转换HTML格式。 总的来说,JSoup是一个强大的HTML处理工具,无论你是要从网页中提取...

Global site tag (gtag.js) - Google Analytics