`
liuxinglanyue
  • 浏览: 557220 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

java获取网页主信息之五:测试(转)

阅读更多

1.所需文件

 param.txt:存放需要提取信息的网页路径
 TestPage:存放需要提取信息的网页
 Out.txt:输出的网页内容

2.测试程序

package test;   
  
import java.io.*;   
import Source.*;   
  
//提取页面主要信息测试   
public class ETest{   
  
    public static void main(String args[])   
    {   
        //输出文件   
        String out = "out.txt";   
        File outfile = new File(out);   
        //建立html树   
        HTML2Tree h2t = new HTML2Tree();   
        String file = getFilename();   
        h2t.main(file);   
        HTree tree = h2t.getTree();   
        //允许标准差   
        double th = 0.79;   
        //选择主要信息块   
        ChooseBlock cb = new ChooseBlock(th);   
        //输出主要信息   
        String str = cb.getContent(tree);   
        if(str == null)   
        {   
            System.out.println("文件为空");   
            System.exit(1);   
        }   
        try  
        {   
            PrintWriter p = new PrintWriter(new BufferedWriter(new FileWriter(outfile)));   
            p.println(str);   
            p.close();   
        }   
        catch(IOException e)   
        {   
            System.out.println(e);   
            System.exit(1);   
        }   
    }   
    //获取要提取的网页文件名   
    private static String getFilename()   
    {   
        String file = "";   
        try  
        {   
            File f = new File("param.txt");   
            BufferedReader fis = new BufferedReader(new FileReader(f));   
            String s;   
            while((s = fis.readLine()) != null)    
            if(!s.equalsIgnoreCase(""))   
            {   
                 file = s;   
                 break;   
            }   
        }   
        catch(IOException e)   
        {   
            System.out.println(e);   
            System.exit(1);   
        }   
        return file;   
    }   
}   
 

分享到:
评论

相关推荐

    java获取网页主信息之五:测试

    标题“java获取网页主信息之五:测试”暗示了这是一个关于Java获取网页信息系列教程的第五部分,重点可能放在测试和验证已经实现的代码功能上。在这个阶段,开发者通常会编写单元测试或者集成测试,确保代码能够正确...

    java 实现整张网页快照

    例如,可以执行一个JavaScript脚本来获取网页的canvas元素,然后调用`toDataURL()`方法将canvas内容转换为Base64编码的图像数据。 5. **处理图像数据**:在Java端接收到Base64编码的图像数据后,将其解码并保存为...

    Java获取网页中url的图片资源.rar

    Java获取网页中的图片资源,启动线程,智能解析URL,加载图片资源,显示图片数据,测试时候请用IE打开useTrackedImage.html 文件,载入图像文件,并获取该图像文件。本Java例子主要是利用java.awt.MediaTracker 类来...

    Java实现网页截图技术

    在Java实现网页截图时,我们首先创建一个`Robot`实例,然后使用`createScreenCapture()`方法来获取整个屏幕或特定区域的图像。此外,为了确保网页完全加载后再进行截图,通常会使用`delay()`方法来进行延时。 #### ...

    java课程设计java jsoup 爬取1688网站信息,详细例子

    这是一个非常实用的技术,它可以帮助我们自动化地获取网页上的数据,如商品名称、价格、评价等,为数据分析或构建电商平台的模拟系统提供基础。 首先,让我们深入理解Java。Java是一种广泛使用的面向对象的编程语言...

    java爬取网页表格的例子(运行环境myeclipse)

    总的来说,这个例子展示了如何利用Java和相关库来自动化获取网页上的信息,这对于数据分析、市场研究、新闻监控等各种应用场景都非常有用。理解并实践这样的示例,能够提升你在数据获取和处理方面的技能,为后续的...

    纯Java实现整个网页截图项目源代码

    在本项目中,"纯Java实现整个网页截图项目源代码" 是一个利用Java编程语言来实现的实用程序,它能够捕获整个网页的图像并将其保存为图片文件。这个项目的核心在于利用DJNativeSwing组件,这是一个开源的Java库,它...

    java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去

    本篇文章将详细探讨如何使用Java进行网页信息采集,并将所需数据存储到数据库的相应字段中。 首先,我们需要了解网页采集的基本步骤: 1. **网络请求**:使用HTTP协议发送请求到目标网页,如使用`java.net.URL`和`...

    java/jsp获取系统时间大全(已测试)

    在Java和JSP编程中,获取系统时间是一项基础但至关重要的任务。这涉及到日期和时间处理,对于构建动态网页和应用程序来说是常见的需求。本文将深入探讨如何在Java和JSP中有效地获取系统时间。 首先,Java提供了`...

    java实现网页截图技术

    要获取网页的可视区域截图,可以调用`takeScreenshot`方法: ```java TakesScreenshot screenshot = (TakesScreenshot) driver; File srcFile = screenshot.getScreenshotAs(OutputType.FILE); ``` 5. **保存...

    rxtx java获取电子称重量数据完整版

    rxtx java获取电子称重量数据完整版 最近因为要弄一个网页获取电子称重量的功能,所以去查看了这方面的资料,找了许多人的资料,看了许多。这个对于我来说本来就是新东西,更加不懂。所以这个东西对于新手很适合,...

    java抓取网页的爬虫

    Java抓取网页的爬虫是一种自动化程序,用于从互联网上收集和处理大量数据。它模拟浏览器行为,通过...通过以上技术和概念的掌握,开发者可以构建出功能强大、高效的Java网页爬虫,实现对互联网信息的自动获取和处理。

    使用java快速判断网页链接是否有效

    ### 使用Java快速判断网页链接是否有效 在互联网应用开发中,经常会遇到需要验证网页链接有效性的情况。例如,在爬虫程序中需要确保所抓取的链接是有效的,或者是在网站维护过程中检查外部链接的有效性等。本文将...

    java行转列的例子

    7. 错误处理与测试: - 在处理数据时,应考虑到异常情况,如空指针、数组越界等,并进行适当的错误处理。 - 编写单元测试确保转换逻辑的正确性。 在提供的"行转列"压缩包文件中,可能包含了实现这个功能的示例...

    java开发获取网页当前位置的代码

    在Java开发中,获取网页当前位置通常涉及到Web应用的上下文路径(Context Path)或者当前请求的URL。这在构建动态网页时非常有用,比如在构建导航菜单、面包屑导航或者需要根据当前页面路径进行某些逻辑判断时。下面...

    自动登陆网站获取信息(JAVA)

    在Java编程领域,实现自动登录网站并获取信息是一项常见的任务,尤其在开发Web爬虫或者自动化测试时。这里我们将深入探讨如何使用Java结合Spring框架在IntelliJ IDEA集成开发环境中来实现这一目标。 首先,我们需要...

    java 通过指定的URL可以获取网页的源代码

    在Java编程语言中,获取网页源代码是一项基本的网络操作,通常用于爬虫、数据分析或者自动化测试等场景。这个过程涉及到Java的`java.net`和`java.io`这两个核心包中的类和方法。下面我们将详细讲解如何实现这个功能...

Global site tag (gtag.js) - Google Analytics