`
vtrtbb
  • 浏览: 360004 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

java检测html是否闭合

    博客分类:
  • java
阅读更多
class TagsList 
...{
    private String[] data;
    private int size = 0;

    public TagsList(int size) 
    ...{
        data = new String[size];
    }

    public TagsList() 
    ...{
        this(10);
    }

    public void add(String str) 
    ...{
        ensureCapacity(size + 1);
        data[size++] = str;
    }

    public String get(int index) 
    ...{
        if (index < size)
            return data[index];
        else
            return null;
    }

    //为了提高效率,只将其置为null
    public boolean remove(String str) 
    ...{
        for (int index = 0; index < size; index++) ...{
            if (str.equals(data[index])) ...{
                data[index] = null;
                return true;
            }
        }
        return false;
    }
    
    public boolean remove(int index)
    ...{
        if (index < data.length) ...{
            data[index] = null;
            return true;
        }
        return false;
    }

    public int size() 
    ...{
        return this.size;
    }

    //扩展容量
    public void ensureCapacity(int minSize) 
    ...{
        int oldCapacity = data.length;
        if (minSize > oldCapacity) ...{
            int newCapacity = (oldCapacity * 3 / 2 + 1) > minSize ? 
                    oldCapacity * 3 / 2 + 1 : minSize;
            data = (String[]) Arrays.copyOf(data, newCapacity);
        }
    }
}

 

 

**
 * 检验文本中的HTML标签是否闭合,并提供简单的修复功能
 * @author Liw
 * @time 2007-6
 */

public class TagsChecker 
...{
    public static boolean check(String str) 
    ...{
        TagsList[] unclosedTags = getUnclosedTags(str);

        if (unclosedTags[0].size() != 0) ...{
            return false;
        }
        for (int i = 0; i < unclosedTags[1].size(); i++) ...{
            if (unclosedTags[1].get(i) != null)
                return false;
        }

        return true;
    }

    public static String fix(String str) 
    ...{
        StringBuffer fixed = new StringBuffer(); // 存放修复后的字符串
        TagsList[] unclosedTags = getUnclosedTags(str);

        // 生成新字符串
        for (int i = unclosedTags[0].size() - 1; i > -1; i--) ...{
            fixed.append("<" + unclosedTags[0].get(i) + ">");
        }

        fixed.append(str);

        for (int i = unclosedTags[1].size() - 1; i > -1; i--) ...{
            String s = null;
            if ((s = unclosedTags[1].get(i)) != null) ...{
                fixed.append("</" + s + ">");
            }
        }

        return fixed.toString();
    }

    private static TagsList[] getUnclosedTags(String str) 
    ...{
        StringBuffer temp = new StringBuffer(); // 存放标签
        TagsList[] unclosedTags = new TagsList[2];
        unclosedTags[0] = new TagsList(); // 前不闭合,如有</div>而前面没有<div>
        unclosedTags[1] = new TagsList(); // 后不闭合,如有<div>而后面没有</div>
        boolean flag = false; // 记录双引号"或单引号'
        char currentJump = ' '; //记录需要跳过'...'还是"..."

        char current = ' ', last = ' '; // 当前 & 上一个

        // 开始判断
        for (int i = 0; i < str.length();) ...{
            current = str.charAt(i++); // 读取一个字符
            if (current == '"' || current == '\'') ...{
                flag = flag ? false : true; // 若为引号,flag翻转
                currentJump = current;
            }
            if (!flag) ...{
                if (current == '<') ...{ // 开始提取标签
                    current = str.charAt(i++);
                    if (current == '/') ...{ // 标签的闭合部分,如</div>
                        current = str.charAt(i++);

                        // 读取标签
                        while (i < str.length() && current != '>') ...{
                            temp.append(current);
                            current = str.charAt(i++);
                        }

                        // 从tags_bottom移除一个闭合的标签
                        if (!unclosedTags[1].remove(temp.toString())) ...{ // 若移除失败,说明前面没有需要闭合的标签
                            unclosedTags[0].add(temp.toString()); // 此标签需要前闭合
                        }
                        temp.delete(0, temp.length()); // 清空temp
                    } 
                    else ...{ // 标签的前部分,如<div>
                        last = current;
                        while (i < str.length() && current != ' '
                                && current != ' ' && current != '>') ...{
                            temp.append(current);
                            last = current;
                            current = str.charAt(i++);
                        }

                        // 已经读取到标签,跳过其他内容,如<div id=test>跳过id=test
                        while (i < str.length() && current != '>') ...{
                            last = current;
                            current = str.charAt(i++);
                            if (current == '"' || current == '\'') ...{ // 判断引号
                                flag = flag ? false : true;
                                currentJump = current;
                                if (flag) ...{ // 若引号不闭合,跳过到下一个引号之间的内容
                                    while (i < str.length() && str.charAt(i++) != currentJump);
                                    current = str.charAt(i++);
                                    flag = false;
                                }
                            }
                        }
                        if (last != '/' && current == '>') // 判断这种类型:<TagName />
                            unclosedTags[1].add(temp.toString());
                        temp.delete(0, temp.length());
                    }
                }
            } 
            else ...{
                while (i < str.length() && str.charAt(i++) != currentJump); // 跳过引号之间的部分
                flag = false;
            }
        }
        return unclosedTags;
    }
}

 

 

 

public class Test 
...{
    public static void main(String[] args)
    ...{
        System.out.println("--功能测试--");
        String str1 = "tt</u>ss</a>aa<div name="<test>" id='3' other='<test>'><b>sff";
        String str2 = "tt<u>ss</u><div id=test name="<test>"><a>fds</a></div>";
        System.out.println("检查文本 " + str1);
        System.out.println("结果:" + TagsChecker.check(str1));
        System.out.println("检查文本 " + str2);
        System.out.println("结果:" + TagsChecker.check(str2));
        System.out.println("修复文本 " + str1);
        System.out.println("结果:" + TagsChecker.fix(str1));
        
        for (int i = 0; i < 10; i++) ...{
            str1 += str1;
        }
        
        System.out.println();
        System.out.println("--效率测试--");
        System.out.println("文本长度:" + str1.length());
        long t1 = System.currentTimeMillis();
        boolean closed = TagsChecker.check(str1);
        long t2 = System.currentTimeMillis();
        String fixedStr = TagsChecker.fix(str1);
        long t3 = System.currentTimeMillis(); 
        System.out.println("检查用时:" + (t2 - t1) + " 毫秒 结果:" + closed);
        System.out.println("修复用时:" + (t3 - t2) + " 毫秒");
    }

}

 

 

 

下面是在我机器上的测试结果:

配置:CPU P4-M1.8GHz   内存 768M

--功能测试--
检查文本 tt</u>ss</a>aa<div name="<test>" id='3' other='<test>'><b>sff
结果:false
检查文本 tt<u>ss</u><div id=test name="<test>"><a>fds</a></div>
结果:true
修复文本 tt</u>ss</a>aa<div name="<test>" id='3' other='<test>'><b>sff
结果:<a><u>tt</u>ss</a>aa<div name="<test>" id='3' other='<test>'><b>sff</b></div>

--效率测试 --
文本长度:62464
检查用时:101 毫秒 结果:false
修复用时:110 毫秒

分享到:
评论

相关推荐

    java 读取html过滤标签

    在Java编程中,读取HTML并过滤特定标签是一项常见的任务,尤其在处理网页抓取、数据提取或构建网络爬虫时。这篇博文链接虽然没有提供具体的内容,但我们可以通过标题和标签来推测其主要讨论的内容。这里我们将深入...

    HTMl语法分析程序

    - **错误检测**:找出不正确的HTML标签、缺失的闭合标签、非法字符等问题。 - **验证标准**:检查代码是否符合HTML5或XHTML规范。 - **自动修复**:在可能的情况下,自动修正语法错误。 - **格式化**:美化代码,使...

    java前端面试题

    ### Java前端面试题详解 #### 一、对HTML5的理解 HTML5不仅仅是一个新的HTML版本,它是前端开发领域的一次重大革新。它包含了多种新技术,例如HTML5本身的增强功能、CSS3、JavaScript的新特性(如ES6)、以及一...

    html低级语法检查,超级文本编辑器

    综合来看,这个压缩包可能是一个用于开发和测试HTML的Java应用程序,提供了HTML语法检查功能,利用正则表达式进行错误检测,并且包含了一些必要的资源文件。使用这样的工具可以帮助开发者和Web设计师快速定位和修复...

    Eclipse的HTML格式化插件 Eclipse Tidy

    2. **错误检测**:Eclipse Tidy能检查HTML源码中的语法错误,如未闭合的标签、无效的属性或者非法字符等,帮助开发者及时发现并修复问题。 3. **兼容性增强**:考虑到不同浏览器之间的解析差异,Eclipse Tidy会尝试...

    JTidy配置手册,将Html页面转化为xml

    1. **HTML清理**:JTidy可以检测并修复HTML文档中的错误,如未闭合的标签、非法字符等,使其更符合W3C标准。 2. **HTML格式化**:它可以对HTML源码进行美化,使代码易于阅读和理解,通过设置不同的参数,可以调整...

    eclipse 中html,js提示jar包插件.zip

    Eclipse是一款广泛使用的Java集成开发环境(IDE),但它的功能并不仅限于Java,它也支持其他语言,如HTML和JavaScript。在Web开发过程中,为了提高开发效率,开发者通常需要IDE提供代码提示和智能感知功能。"eclipse...

    网页版扫描程序,支持html aspx jsp php asp

    在网页版扫描程序中,它会检查HTML代码是否符合最佳实践,例如是否有无效的标签、缺失的闭合标签或不恰当的嵌套。 ASPX是微软的ASP.NET框架的一部分,用于创建动态网页和Web应用程序。ASPX文件结合了HTML、服务器端...

    tidy所有源码,用于正文提取

    3. 清理和修复:tidy根据W3C标准,对输入的HTML进行清理,修复诸如缺失的闭合标签、无效的属性等问题。 4. 格式化:tidy可以按照用户设定的格式规则重新输出HTML,使其更易读。 5. 输出:最后,tidy将处理后的HTML...

    基于python+Django+opencv的疲劳检测系统源码数据库.docx

    - **眼睛状态检测**:通过对眼部特征的提取,结合阈值判断眼睛是否闭合。 - **疲劳评估算法**:根据眼睛闭合时间、眨眼频率等指标,制定一套合理的疲劳评估模型。 4. **系统特点**: - **高效性**:系统响应速度...

    htmlparser1.6最新版

    5. **字符编码识别**:HTMLParser可以自动检测HTML文档的字符编码,确保正确地处理各种语言的字符。 6. **DOM树构建**:虽然HTMLParser主要是事件驱动的,但也可以通过`HTMLNode`类构建一个DOM树,便于对整个HTML...

    helper.rar

    对当前网页进行Javascript、CSS、HTML编码规范的检测,包括文件是否压缩、标签是否正确闭合、cookie管理等等 页面性能检测 对当前页面的性能进行检测,如HTTP响应时间、页面渲染时间、是否启用gzip压缩等等 FeHelper...

    网页设计与制作报告书.pdf

    报告通过脚本实例显示了如何检测用户浏览器中Flash插件的版本,从而确定用户是否可以正常浏览含有Flash内容的网页。此外,文档中还提到了WebTV这种早期的网络电视,它对Flash的版本有特殊要求。 HTML的Doctype声明...

    EclipseHTMLEditor和StrustIDE插件

    4. **错误检查**:编辑器能实时检测并标记潜在的语法错误,如未闭合的标签等。 5. **预览功能**:提供了一个内置的预览窗口,可以在编辑代码的同时查看页面效果。 StrutsIDE则是专门针对Apache Struts框架的Eclipse...

    CnsaferSI (JSP+oracle注入工具)

    JSP(JavaServer Pages)是Java平台上的一种动态网页技术,允许开发人员将Java代码嵌入到HTML页面中,从而实现动态内容的生成。JSP的执行流程包括编译、实例化、请求处理和响应生成等步骤,它提供了一种便捷的方式来...

    TWINE-开源

    通过与在线 HTML 和辅助功能验证服务的接口集成,TWINE 能够自动化检测 Web 页面的合规性,确保它们符合 W3C 的 HTML5 标准和无障碍指南。 **标签:“开源软件”** **详细知识点:** 1. **HTML 验证**:TWINE ...

    prueba1:在此存储库中,我们将上传测试代码

    进行HTML测试时,开发者通常会使用自动化测试框架,如JUnit(Java)、Mocha/Chai(JavaScript)或pytest(Python),编写断言来验证HTML元素的存在、属性值、DOM结构等。同时,静态代码分析工具,如HTML Linter,...

    2021-2022计算机二级等级考试试题及答案No.10543.docx

    **注意**:并非所有HTML标记都是成对出现的,有些标记是自闭合的,例如` `用于换行,不需要闭合标记。 ### 2. 多媒体计算机 - **定义**:能够处理声音、图像、动画等多种媒体信息的计算机被称为多媒体计算机。 ...

Global site tag (gtag.js) - Google Analytics