`
sysu_zeh
  • 浏览: 28595 次
  • 性别: Icon_minigender_1
  • 来自: 广州
最近访客 更多访客>>
社区版块
存档分类
最新评论

java获取网页主信息之五:测试

阅读更多

1.所需文件

 param.txt:存放需要提取信息的网页路径
 TestPage:存放需要提取信息的网页
 Out.txt:输出的网页内容

2.测试程序

  1. package test;   
  2.   
  3. import java.io.*;   
  4. import Source.*;   
  5.   
  6. //提取页面主要信息测试   
  7. public class ETest{   
  8.   
  9.     public static void main(String args[])   
  10.     {   
  11.         //输出文件   
  12.         String out = "out.txt";   
  13.         File outfile = new File(out);   
  14.         //建立html树   
  15.         HTML2Tree h2t = new HTML2Tree();   
  16.         String file = getFilename();   
  17.         h2t.main(file);   
  18.         HTree tree = h2t.getTree();   
  19.         //允许标准差   
  20.         double th = 0.79;   
  21.         //选择主要信息块   
  22.         ChooseBlock cb = new ChooseBlock(th);   
  23.         //输出主要信息   
  24.         String str = cb.getContent(tree);   
  25.         if(str == null)   
  26.         {   
  27.             System.out.println("文件为空");   
  28.             System.exit(1);   
  29.         }   
  30.         try  
  31.         {   
  32.             PrintWriter p = new PrintWriter(new BufferedWriter(new FileWriter(outfile)));   
  33.             p.println(str);   
  34.             p.close();   
  35.         }   
  36.         catch(IOException e)   
  37.         {   
  38.             System.out.println(e);   
  39.             System.exit(1);   
  40.         }   
  41.     }   
  42.     //获取要提取的网页文件名   
  43.     private static String getFilename()   
  44.     {   
  45.         String file = "";   
  46.         try  
  47.         {   
  48.             File f = new File("param.txt");   
  49.             BufferedReader fis = new BufferedReader(new FileReader(f));   
  50.             String s;   
  51.             while((s = fis.readLine()) != null)    
  52.             if(!s.equalsIgnoreCase(""))   
  53.             {   
  54.                  file = s;   
  55.                  break;   
  56.             }   
  57.         }   
  58.         catch(IOException e)   
  59.         {   
  60.             System.out.println(e);   
  61.             System.exit(1);   
  62.         }   
  63.         return file;   
  64.     }   
  65. }   

 

  • IE.rar (86.4 KB)
  • 描述: 附件:完整源程序与可执行文件
  • 下载次数: 214
分享到:
评论
3 楼 Sequencenet 2011-04-15  
可以使用,开源精神发扬光大。
2 楼 sku 2008-05-25  
好东东,谢谢博主无私奉献,真的太厉害。我一定要好好研究一下。
博主好像很久没有写东西了,坚持多写写吧。向你学习。
1 楼 zsyao 2008-05-19  
强人!好东西,谢谢!!

相关推荐

    Java实现网页截图技术

    在Java实现网页截图时,我们首先创建一个`Robot`实例,然后使用`createScreenCapture()`方法来获取整个屏幕或特定区域的图像。此外,为了确保网页完全加载后再进行截图,通常会使用`delay()`方法来进行延时。 #### ...

    java 实现整张网页快照

    在Java编程环境中,生成网页快照是一项常见的需求,主要用于数据抓取、网页存档或测试自动化等场景。这里我们关注的焦点是如何利用Java实现整张网页的快照功能。通过标题"java 实现整张网页快照"和描述,我们可以...

    java课程设计java jsoup 爬取1688网站信息,详细例子

    在这个项目中,我们关注的是使用Java和Jsoup库来爬取1688网站的信息。这是一个非常实用的技术,它可以帮助我们自动化地获取网页上的数据,如商品名称、价格、评价等,为数据分析或构建电商平台的模拟系统提供基础。 ...

    纯Java实现整个网页截图项目源代码

    在本项目中,"纯Java实现整个网页截图项目源代码" 是一个利用Java编程语言来实现的实用程序,它能够捕获整个网页的图像并将其保存为图片文件。这个项目的核心在于利用DJNativeSwing组件,这是一个开源的Java库,它...

    java实现网页截图技术

    在Java编程环境中,实现网页截图技术是一项常见的需求,特别是在自动化测试、数据分析或者生成网页快照等场景中。本文将深入探讨如何使用Java来捕获网页的屏幕快照,并结合提供的标签"源码"和"工具",给出具体的实现...

    使用java快速判断网页链接是否有效

    ### 使用Java快速判断网页链接是否有效 在互联网应用开发中,经常会遇到需要验证网页链接有效性的情况。例如,在爬虫程序中需要确保所抓取的链接是有效的,或者是在网站维护过程中检查外部链接的有效性等。本文将...

    java爬取网页表格的例子(运行环境myeclipse)

    总的来说,这个例子展示了如何利用Java和相关库来自动化获取网页上的信息,这对于数据分析、市场研究、新闻监控等各种应用场景都非常有用。理解并实践这样的示例,能够提升你在数据获取和处理方面的技能,为后续的...

    Java获取网页中url的图片资源.rar

    Java获取网页中的图片资源,启动线程,智能解析URL,加载图片资源,显示图片数据,测试时候请用IE打开useTrackedImage.html 文件,载入图像文件,并获取该图像文件。本Java例子主要是利用java.awt.MediaTracker 类来...

    JAVA源码Java编写的网页版魔方游戏

    通过以上几个方面的详细介绍,我们可以看出,Java在网页版魔方游戏的开发过程中扮演着非常重要的角色,不仅可以实现稳定高效的后台逻辑处理,还可以结合前端技术提供良好的用户体验。希望这些知识点能够帮助您更好地...

    java抓取网页的爬虫

    Java抓取网页的爬虫是一种自动化程序,用于从互联网上收集和处理大量数据。它模拟浏览器行为,通过...通过以上技术和概念的掌握,开发者可以构建出功能强大、高效的Java网页爬虫,实现对互联网信息的自动获取和处理。

    java将网页保存成mht格式文件

    这个【标题】"java将网页保存成mht格式文件"指向的是一个Java项目,其目的是将网页转换为MHT格式,以便离线查看或保存网页的原始状态。 在Java中实现这个功能,通常需要以下步骤: 1. **抓取网页内容**:首先,你...

    java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去

    本篇文章将详细探讨如何使用Java进行网页信息采集,并将所需数据存储到数据库的相应字段中。 首先,我们需要了解网页采集的基本步骤: 1. **网络请求**:使用HTTP协议发送请求到目标网页,如使用`java.net.URL`和`...

    JAVA Selenium 自动测试

    WebDriver支持多种编程语言,Java是其中之一,因此我们可以用Java编写测试脚本来驱动浏览器执行任务。 **1. Selenium与Java结合** 在Java中使用Selenium,首先需要引入对应的依赖库,通常通过Maven或Gradle来管理...

    基于Java的旅游信息管理系统的设计与实现.docx

    【基于Java的旅游信息管理系统的设计与实现】 随着全球市场经济管理水平的飞速提升,旅游行业得到了前所未有的发展机遇。在这个背景下,旅游信息管理系统成为了一个至关重要的工具,它能够有效地整合和管理日益增长...

    Java 网页浏览器组件介绍

    Java 网页浏览器组件是Java编程中一个重要的部分,它允许开发者在Java应用程序中嵌入网页浏览功能。这样的组件通常被称为Java Web Start(JWS)或JavaFX WebView,它们为用户提供了一种在不依赖外部浏览器的情况下...

Global site tag (gtag.js) - Google Analytics