`
Mybeautiful
  • 浏览: 298507 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

使用Cobra解析html, 及其提取table内容的例子。

阅读更多

    以下方法读取一个html格式的String,然后把其中的table内容读出,存入一个Arralyst, 该list装入的是String[], 即每一个String[]元素代码table的一行。

 

	private List parseTable(String htmlStr) throws SAXException, IOException {
		Reader reader = new StringReader(htmlStr);
		InputSourceImpl inputSource = new InputSourceImpl(reader,
				"aaa");
		UserAgentContext uacontext = new SimpleUserAgentContext();
		DocumentBuilderImpl builder = new DocumentBuilderImpl(uacontext);
		Document d = builder.parse(inputSource);
		HTMLDocumentImpl document = (HTMLDocumentImpl) d;
		
		
		NodeList  nl=document.getElementsByTagName("table");
		ArrayList<String[]> records=new ArrayList<String[]>();
		for (int i = 0; i < nl.getLength(); i++) {
			HTMLTableElementImpl table=(HTMLTableElementImpl)nl.item(i);
			HTMLCollection rows=table.getRows();
			for (int j = 0; j < rows.getLength(); j++) {
				HTMLTableRowElementImpl row =(HTMLTableRowElementImpl)rows.item(j);
				HTMLCollection cells=row.getCells();
				ArrayList<String> cellsStr=new ArrayList<String>();
				for (int k = 0; k < cells.getLength(); k++) {
					HTMLTableCellElementImpl cell =(HTMLTableCellElementImpl)cells.item(k);
					cellsStr.add(cell.getTextContent().toString());
				}
				records.add(cellsStr.toArray(new String[0]));
			}
		}
                return records;
	}
 

 

    由于要解析js,必须要用到Mozzila的rhino包。听说可以禁用js的解析,目前我还不知道如何做,没有仔细查API, 有知道的朋友说一声。

    附一个,由于需要足够大的DropBox空间,如果你也正好需要一个DropBox,请使用我的邀请码注册很实用的免费文件网盘DropBox 可以访问了

0
0
分享到:
评论

相关推荐

    cobra html解析器

    Cobra解析器以其高效、灵活和易于使用的特性在IT行业中赢得了广泛的青睐。 Cobra的核心功能在于它的API设计,它提供了丰富的接口供开发者调用。通过这些接口,程序员可以方便地访问和操作HTML文档的各个部分,例如...

    Cobra (HTML工具包源码)

    JavaScript是网页开发中不可或缺的脚本语言,Cobra能够解析和执行JavaScript代码,这对于处理动态生成的HTML内容尤其重要。通过内建的JavaScript引擎,Cobra可以帮助开发者在不依赖浏览器的情况下理解和操作网页的...

    Cobra 网页渲染引擎

    以下是一个简单的例子,展示如何使用Cobra获取DOM树上每个节点的位置信息: 1. 首先,加载网页内容到Cobra引擎: ```java CobraEngine engine = new CobraEngine(); engine.load("http://example.com"); ``` 2. ...

    cobra HTML转图片的jar

    Cobra工具的核心可能使用了Webkit或Gecko等浏览器内核,这些内核能够完整地解析和渲染HTML,包括CSS样式和JavaScript代码。在Java环境中,可以借助如HtmlUnit、PhantomJS、Puppeteer等库来实现这一功能。这些库能够...

    cobra 0.98.4

    Cobra 0.98.4 是一个针对Web开发者的强大工具,主要专注于HTML文档对象模型(DOM)的解析和渲染。这个版本是Cobra项目的其中一个重要里程碑,它提供了高效且稳定的性能,使得开发者能够更好地处理和操作HTML文档。...

    go Cobra命令行工具入门.doc

    Go Cobra 命令行工具是一种使用 Go 语言实现的命令行工具,目前被广泛应用于许多项目中,如 Kubernetes、Hugo 和 CLI 等。通过使用 Cobra,我们可以快速创建命令行工具,特别适合写测试脚本、各种服务的 Admin CLI ...

    Python-Cobra眼镜蛇白盒代码安全审计系统

    使用Cobra进行代码审计可以帮助开发团队遵循安全性最佳实践,确保在项目早期就发现和修复潜在的安全问题,从而提高软件的整体安全性。 7. **集成开发环境(IDE)集成**: Cobra可能支持与常见的IDE如PyCharm、VS ...

    cobra依赖源码

    例如,`gopkg.in/yaml.v2`可能是Cobra用来解析命令行参数中的YAML配置的依赖。 `github.com`目录下可能包含了一系列Cobra所依赖的其他开源库,如`github.com/spf13/cobra`就是Cobra库本身,`github....

    Go-GogRPC的Cobra命令行工具生成器

    "Go gRPC的Cobra命令行工具生成器"是为了解决在gRPC服务中创建易于使用的命令行界面的问题。通过这个工具,开发者可以快速地为gRPC服务添加命令行操作,使得服务不仅可以通过gRPC接口调用,还可以通过命令行执行,...

    COBRA SOAP介绍

    COBRA(Common Object Request Broker Architecture)和SOAP(Simple Object Access Protocol)是两个在分布式计算环境中广泛使用的通信协议和技术。它们分别代表了不同的时代背景和设计哲学,但在现代IT系统中,...

    COBRA 系统配置

    COBRA(Client/ORB Protocol for Remote Access)是一种用于分布式对象计算的技术,它允许客户端应用程序通过ORB(Object Request Broker)与远程服务器上的对象进行交互。COBRA系统配置是实现这种交互的基础步骤,...

    Cobra网站漏洞安全检测工具

    - **定期检测**:网络安全是个持续的过程,定期使用Cobra进行检测以确保网站始终处于安全状态。 - **结合人工审查**:虽然自动化工具非常有效,但人工审查仍然是必要的,因为有些复杂的漏洞可能需要专业知识来识别。...

    FBA研究利器-cobra2.05

    **学习和使用COBRA Toolbox:** - **入门教程**:官方提供详细的文档和教程,包括如何构建模型、运行模拟以及解释结果。 - **社区支持**:活跃的用户论坛可以帮助解决使用过程中遇到的问题,共享研究经验和案例。 - ...

    适用于分布式实时系统的Cobra Tao

    【标题】"适用于分布式实时系统的Cobra Tao"揭示了该技术是针对实时系统设计的,主要基于ACE(Adaptive Communication Environment)框架,并结合了COBRA(CORBA Component Model)服务器,即TAO(The Adaptive ...

    lobobrowser的cobra.jar包

    Cobra.jar 文件包含了 Lobo 浏览器引擎的类库,这些类库负责解析 HTML、CSS、JavaScript,以及处理网络请求和渲染页面。 **Java Archive (JAR) 文件** JAR 文件是 Java 平台上的标准归档格式,用于集合多个 Java ...

    cobra-tools:一个简单的GUI,用于提取OVL和OVS存档并修改其内容

    一个简单的GUI,用于提取OVL和OVS存档并修改其内容,以及相关内部文件格式的编辑器。 还包括用于Blender的模型插件。 安装 在获取最新的源代码并将其解压缩到您选择的文件夹中。 您需要安装: (请确保在安装过程...

    PyPI 官网下载 | cobra-0.5.11-cp36-cp36m-win_amd64.whl

    标题中的“PyPI 官网下载 | cobra-0.5.11-cp36-cp36m-win_amd64.whl”表明这是一个从Python Package Index(PyPI)官方源下载的软件包,名为`cobra-0.5.11`,版本为`0.5.11`,它是专门为Python 3.6编译的(`cp36`)...

    go cobra命令行工具

    使用 `cobra.Init` 函数并配置自动完成设置,用户可以在终端使用 Tab 键获取命令提示。 七、多级命令 Cobra 支持无限级别的子命令结构,这对于构建复杂的命令行工具非常有用。例如,你可以创建 `app service start...

    Cobra-White 白盒源代码审计工具-白帽子版

    Cobra-W -&gt; Cobra-White 白盒源代码审计工具-白帽子版

    Python库 | cobra_policytool-1.0.1-py2-none-any.whl

    资源分类:Python库 所属语言:Python 使用前提:需要解压 资源全名:cobra_policytool-1.0.1-py2-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

Global site tag (gtag.js) - Google Analytics