`
hunray
  • 浏览: 222018 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

HtmlParser抓取正文时去掉其中的js

    博客分类:
  • Java
 
阅读更多
/*
	 * 获取纯文本信息
	 */
	public static String getPlainText(String str) {
		try {
			Parser parser = new Parser();
			parser.setInputHTML(str);
			
			StringBean sb = new StringBean();
			// 设置不需要得到页面所包含的链接信息
			sb.setLinks(false);
			// 设置将不间断空格由正规空格所替代
			sb.setReplaceNonBreakingSpaces(true);
			// 设置将一序列空格由一个单一空格所代替
			sb.setCollapse(true);
			parser.visitAllNodesWith(sb);
			str = sb.getStrings();
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return str;
	}
分享到:
评论

相关推荐

    HTMLParser提取网页内容

    目的是去除网页中的JavaScript代码,因为它们通常不会包含在正文内容中。 - `[\\s\\S]*?</style>`:与上述类似,它匹配所有的`<style>`标签及其内部的CSS样式,避免这些非展示性的代码干扰正文的提取。 - `<![\\s\...

    HtmlParser2003 应用

    2. **搜索引擎爬虫**:在构建搜索引擎时,`HtmlParser2003`可以帮助爬虫程序快速抓取网页URL,提取关键词,从而建立索引。 3. **数据清洗**:对于含有大量HTML格式的非结构化数据,`HtmlParser2003`可以用于去除...

    java爬虫,以爬取sohu新闻为例

    4. **动态加载内容处理**:现代网页常常使用JavaScript来动态加载内容,例如Ajax。对于这类网页,简单的HTTP请求可能无法获取所有数据。此时可能需要用到如Selenium或Puppeteer这样的浏览器自动化工具,模拟用户行为...

    【Java】获取指定HTML 文档指定的body、页中超链接的标题和链接、指定博客文章的内容

    - 在抓取和处理网页数据时,确保遵循网站的robots.txt规则,尊重版权,并遵守相关法律法规。 通过以上知识点,你可以构建一个基本的Java程序,实现从HTML文档中获取所需信息的功能。记住,理解HTML结构和选择器的...

    Java开发:实现网站信息批量析取

    特别是在处理网站数据时,Java提供了多种工具和技术,比如字符串处理、多线程并发处理以及DOM和SAX等解析技术,这些都可以用来实现网站信息的有效抓取。 #### 关键技术 - **噪音过滤**:指去除无关或无意义的数据...

    C#过滤html方法

    在C#编程中,过滤HTML方法是常见的需求,特别是在处理用户输入、网页抓取或数据清洗等场景。本文将深入探讨两种主要的C#过滤HTML标签的方法,帮助开发者选择最适合自己项目的技术方案。 首先,我们要明确HTML过滤的...

    URL 过滤器:从网页上刮下一个或多个数字-matlab开发

    在IT领域,尤其是在数据分析和自动化任务中,经常需要从网页中抓取数据,这通常涉及到网页抓取(Web Scraping)技术。本话题主要聚焦于使用MATLAB进行URL过滤器的开发,目的是从网页上自动刮取一个或多个数字。...

    spider:使用C和C++语言开发的网络爬虫系统

    3. **数据清洗**:预处理抓取的数据,去除噪声,提高数据质量。 4. **分布式爬虫**:通过多台机器协同工作,爬取更大规模的数据。 5. **动态网页处理**:处理JavaScript生成的网页,可能需要借助如Selenium这样的...

Global site tag (gtag.js) - Google Analytics