`
Jatula
  • 浏览: 276673 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

利用Java编写HTML文件分析程序

阅读更多

天津大学 崔航

摘要:本文从实践的角度重点阐述Java语言中输入流类StreamTokenizer在编写HTML文件分析程序中的应用,并介绍了以字节为单位下载Web页面的例程。

一、概述

Web服务器的核心是对HTML文件中的各标记(Tag)作出正确的分析,一种编程语言的解释程序也是对源文件中的保留字进行分析再做解释的。实际应用中,我们也常常会遇到需要对某一特定类型文件进行关键字分析的情况,比如,需要将某个HTML文件下载并同时下载与之相关的.gif、.class等文件,此时就要求对HTML文件中的标记进行分离,找出所需的文件名及目录。在Java出现以前,类似工作需要对文件中的每个字符进行分析,从中找出所需部分,不仅编程量大,且易出错。笔者在近期的项目中利用Java的输入流类StreamTokenizer进行HTML文件的分析,效果较好。在此,我们要实现从已知的Web页面下载HTML文件,对其进行分析后,下载该页面中包含的HTML文件(如果在Frame中)、图像文件和Class(Java Applet)文件。

二、StreamTokenizer类

StreamTokenizer即令牌化输入流的作用是将一个输入流中变成令牌流。令牌流中的令牌实体有三类:单词(即多字符令牌)、单字符令牌和空白(包括Java和C/C++中的说明语句)。

StreamTokenizer类的构造器为: StreamTokenizer(InputStream in)

该类有一些公有实例变量:ttype、sval和nval ,分别表示令牌类型、当前字符串值和当前数字值。当我们需要取得令牌(即HTML中的标记)之间的字符时,应访问变量sval。而读向下一个令牌的方法是调用nextToken()。方法nextToken()的返回值是int型,共有四种可能的返回:

StreamTokenizer.TT_NUMBER: 表示读到的令牌是数字,数字的值是double型,可以从实例变量nval中读取。

StreamTokenizer.TT_WORD: 表示读到的令牌是非数字的单词(其他字符也在其中),单词可以从实例变量sval中读取。

StreamTokenizer.TT_EOL: 表示读到的令牌是行结束符。

如果已读到流的尽头,则nextToken()返回TT_EOF。

开始调用nextToken()之前,要设置输入流的语法表,以便使分析器辨识不同的字符。WhitespaceChars(int low, int hi)方法定义没有意义的字符的范围。WordChars(int low, int hi)方法定义构造单词的字符范围。

三、程序实现

1、HtmlTokenizer类的实现

对某个令牌流进行分析之前,首先应对该令牌流的语法表进行设置,在本例中,即是让程序分出哪个单词是HTML的标记。下面给出针对我们需要的HTML标记的令牌流类定义,它是StreamTokenizer的子类:

 

import java.io.*;
import java.lang.String;

class HtmlTokenizer extends StreamTokenizer {
	// 定义各标记,这里的标记仅是本例中必须的,可根据需要自行扩充
	static int HTML_TEXT = -1;
	static int HTML_UNKNOWN = -2;
	static int HTML_EOF = -3;
	static int HTML_IMAGE = -4;
	static int HTML_FRAME = -5;
	static int HTML_BACKGROUND = -6;
	static int HTML_APPLET = -7;

	boolean outsideTag = true; // 判断是否在标记之中

	// 构造器,定义该令牌流的语法表。
	public HtmlTokenizer(BufferedReader r) {
		super(r);
		this.resetSyntax(); // 重置语法表
		this.wordChars(0, 255); // 令牌范围为全部字符
		this.ordinaryChar('<'); // HTML标记两边的分割符
		this.ordinaryChar('>');
	} // end of constructor

	public int nextHtml() {
		int token; // 令牌
		try {
			switch (token = this.nextToken()) {
			case StreamTokenizer.TT_EOF:
				// 如果已读到流的尽头,则返回TT_EOF
				return HTML_EOF;
			case '<': // 进入标记字段
				outsideTag = false;
				return nextHtml();
			case '>': // 出标记字段
				outsideTag = true;
				return nextHtml();
			case StreamTokenizer.TT_WORD:
				// 若当前令牌为单词,判断是哪个标记
				if (allWhite(sval))
					return nextHtml(); // 过滤其中空格
				else if (sval.toUpperCase().indexOf("FRAME") != -1
						&& !outsideTag) // 标记FRAME
					return HTML_FRAME;
				else if (sval.toUpperCase().indexOf("IMG") != -1 && !outsideTag) // 标记IMG
					return HTML_IMAGE;
				else if (sval.toUpperCase().indexOf("BACKGROUND") != -1
						&& !outsideTag) // 标记BACKGROUND
					return HTML_BACKGROUND;
				else if (sval.toUpperCase().indexOf("APPLET") != -1
						&& !outsideTag) // 标记APPLET
					return HTML_APPLET;
			default:
				System.out.println("Unknown tag: " + token);
				return HTML_UNKNOWN;
			} // end of case
		} catch (IOException e) {
			System.out.println("Error:" + e.getMessage());
		}
		return HTML_UNKNOWN;
	} //end of nextHtml

	protected boolean allWhite(String s) {//过滤所有空格
	//实现略
	}// end of allWhite

} //end of class

 

 

以上方法由笔者在近期项目中测试通过,操作系统为Windows NT4,编程工具使用Inprise Jbuilder3。

 

PS:自已还没有测试过,只是看到了,太晚了,先放着,觉得是个不错的东西,以前研究过分块抓取相关的,所以觉得可能有点提示;等明天看完再来修改一下;

2
10
分享到:
评论

相关推荐

    java代码生成html文件

    标题 "java代码生成html文件" 指的是利用Java编程语言编写代码,生成HTML文档。HTML(HyperText Markup Language)是网页内容的标准标记语言,而Java则提供了强大的后端处理能力。在实际开发中,我们可能会遇到这样...

    java编写的注册页面程序

    在这个“java编写的注册页面程序”中,开发者利用了Java的Servlet、JSP(JavaServer Pages)或者Spring MVC等技术来创建用户注册功能。这些技术允许程序员将业务逻辑与视图层分离,提高代码的可维护性和可扩展性。 ...

    java解析DWG文件为json使用superMap

    总的来说,通过结合SuperMap iObjects Java的强大功能和Java的灵活性,开发者可以有效地处理DWG文件并将其转换为JSON,为Web应用程序或数据分析提供便利。记得在开发过程中充分利用官方文档和Javadoc资源,以便更好...

    Java编写的淘宝爬虫程序

    综上所述,这个Java编写的淘宝爬虫程序涵盖了网络爬虫的多个关键领域,包括网络通信、数据解析、数据存储、异常处理以及可能的反爬策略,是数据科学家和NLP专家研究电商市场趋势、商品分析的重要辅助工具。

    Java编写spider网络爬虫程序源码

    Java编写Spider网络爬虫程序是IT领域中一种常见的技术实践,它主要用来自动化地抓取互联网上的信息。在这个源码中,我们可以学习到如何利用Java实现一个基础的网络爬虫,以便于下载指定域名范围内的网页内容,甚至...

    java编写的短信收发程序已用于实际的项目

    这类程序通常利用Java的网络编程能力,结合特定的短信网关协议来实现短信的发送和接收。在这个实际项目中,我们可以推测程序已经经过了严格的测试和优化,能够稳定地运行在生产环境中。 首先,`build.xml`文件是Ant...

    java编写的Blog

    综上所述,"java编写的Blog"是一个基于Java和MySQL的Web应用程序,利用Spring Boot框架和MVC架构,可能还涉及到Thymeleaf或JSP进行视图渲染,以及Spring Security进行用户管理。开发过程中,开发者会遵循最佳实践,...

    java源码包---java 源码 大量 实例

    Java编写的显示器显示模式检测程序 2个目标文件 内容索引:JAVA源码,系统相关,系统信息检测  用JAVA编写了一个小工具,用于检测当前显示器也就是显卡的显示模式,比如分辨率,色彩以及刷新频率等。 Java波浪文字...

    用java编写的OA系统

    【标题】"用Java编写的OA系统"是一个基于Web的办公自动化系统,它利用了多种Java技术和框架,为用户提供了一套完整的解决方案。该系统旨在提高工作效率,实现无纸化办公,促进信息共享,并且适用于各种组织机构。 ...

    Java编写的HTML浏览器

    Java编写的HTML浏览器是一种利用Java语言开发的软件,主要用于浏览和解析HTML文档。这个项目可能是一个学习实践或者小型应用示例,它展示了Java在前端领域的应用能力,尽管JavaScript通常是Web浏览器的标准选择。...

    java编写的简单的单位换算工具

    网页界面可能利用JavaServlets或JSP(JavaServer Pages)技术,结合HTML、CSS和JavaScript来创建交互式网页。 4. **数据结构与算法** 工具可能使用字典或映射(Map)数据结构来存储单位之间的转换系数。这样,在...

    java实验报告 所有的java实验源程序

    同时,实验也锻炼了我们编写、编译和运行 Java 程序的实际操作能力,加深了对 Java 虚拟机的理解。 七、实验体会与建议通过这个学期的 Java 实验,我深刻体会到了实践对于学习编程的重要性。理论知识和实际操作相...

    用Java实现的一个聊天程序

    总结,这个Java聊天程序项目展示了如何利用Java的网络编程能力创建一个基本的客户端-服务器通信系统,让多个用户可以通过网络进行实时交流。通过阅读源代码和相关文档,我们可以深入理解Java网络编程、多线程以及...

    Java编写Baidu关键词工具

    【标题】"Java编写Baidu关键词工具"是一个利用Java编程语言开发的应用,旨在帮助用户进行百度关键词的管理和分析。这个工具可能包含了一些功能,比如关键词的搜索、排名追踪、关键词优化建议等,对于SEO(搜索引擎...

    java程序 html静态页面

    在本项目中,“java程序 html静态页面”指的是利用Java技术来处理或生成HTML静态页面,这通常涉及到Web开发领域。HTML(超文本标记语言)是网页的基础,用于定义网页的结构和内容。 在电信报表系统中,HTML静态页面...

    利用 Java Web Start发布你用java程序

    ### 利用 Java Web Start 发布 Java 程序 #### JWS——Java Web Start 的功能与优势 Java Web Start(简称 JWS)是 Sun Microsystems(现 Oracle)为解决 Java 应用程序部署和更新问题而开发的一项技术。它是 JSR-...

    java用applet编写屏保程序

    ### Java Applet 编写屏保程序知识点解析 #### 一、Java Applet 概述 Applet 是一种特殊的 Java 应用程序,它被设计为嵌入到 HTML 页面中并通过 Web 浏览器来执行。Java Applet 可以在用户的计算机上执行一些计算...

    Java编写的HTML浏览器源码.zip

    总的来说,Java编写的HTML浏览器源码.zip是一个很好的学习资源,涵盖了Java GUI编程、HTML解析、网络编程以及可能的JavaScript交互等多个方面的知识。通过深入研究和实践,我们可以提升自己的Java编程技能,对浏览器...

    用Java编写的聊天程序

    总结来说,这个Java聊天程序展示了如何利用Java的核心特性(如网络编程和多线程)以及Applet技术,实现一个简单的网络聊天应用。对于学习Java编程和网络通信的学生或开发者,这是一个很好的实践项目,可以帮助他们...

    Java编写的web相册

    【Java编写的Web相册】是一个适合初学者的项目,旨在帮助他们理解Java在Web开发中的应用。这个项目的核心是利用Java技术来构建一个在线图片展示平台,用户可以浏览、上传和管理自己的照片集。通过这个项目,我们可以...

Global site tag (gtag.js) - Google Analytics