1.所需文件
param.txt:存放需要提取信息的网页路径
TestPage:存放需要提取信息的网页
Out.txt:输出的网页内容
2.测试程序
package test;
import java.io.*;
import Source.*;
//提取页面主要信息测试
public class ETest{
public static void main(String args[])
{
//输出文件
String out = "out.txt";
File outfile = new File(out);
//建立html树
HTML2Tree h2t = new HTML2Tree();
String file = getFilename();
h2t.main(file);
HTree tree = h2t.getTree();
//允许标准差
double th = 0.79;
//选择主要信息块
ChooseBlock cb = new ChooseBlock(th);
//输出主要信息
String str = cb.getContent(tree);
if(str == null)
{
System.out.println("文件为空");
System.exit(1);
}
try
{
PrintWriter p = new PrintWriter(new BufferedWriter(new FileWriter(outfile)));
p.println(str);
p.close();
}
catch(IOException e)
{
System.out.println(e);
System.exit(1);
}
}
//获取要提取的网页文件名
private static String getFilename()
{
String file = "";
try
{
File f = new File("param.txt");
BufferedReader fis = new BufferedReader(new FileReader(f));
String s;
while((s = fis.readLine()) != null)
if(!s.equalsIgnoreCase(""))
{
file = s;
break;
}
}
catch(IOException e)
{
System.out.println(e);
System.exit(1);
}
return file;
}
}
分享到:
相关推荐
标题“java获取网页主信息之五:测试”暗示了这是一个关于Java获取网页信息系列教程的第五部分,重点可能放在测试和验证已经实现的代码功能上。在这个阶段,开发者通常会编写单元测试或者集成测试,确保代码能够正确...
例如,可以执行一个JavaScript脚本来获取网页的canvas元素,然后调用`toDataURL()`方法将canvas内容转换为Base64编码的图像数据。 5. **处理图像数据**:在Java端接收到Base64编码的图像数据后,将其解码并保存为...
Java获取网页中的图片资源,启动线程,智能解析URL,加载图片资源,显示图片数据,测试时候请用IE打开useTrackedImage.html 文件,载入图像文件,并获取该图像文件。本Java例子主要是利用java.awt.MediaTracker 类来...
在Java实现网页截图时,我们首先创建一个`Robot`实例,然后使用`createScreenCapture()`方法来获取整个屏幕或特定区域的图像。此外,为了确保网页完全加载后再进行截图,通常会使用`delay()`方法来进行延时。 #### ...
这是一个非常实用的技术,它可以帮助我们自动化地获取网页上的数据,如商品名称、价格、评价等,为数据分析或构建电商平台的模拟系统提供基础。 首先,让我们深入理解Java。Java是一种广泛使用的面向对象的编程语言...
总的来说,这个例子展示了如何利用Java和相关库来自动化获取网页上的信息,这对于数据分析、市场研究、新闻监控等各种应用场景都非常有用。理解并实践这样的示例,能够提升你在数据获取和处理方面的技能,为后续的...
在本项目中,"纯Java实现整个网页截图项目源代码" 是一个利用Java编程语言来实现的实用程序,它能够捕获整个网页的图像并将其保存为图片文件。这个项目的核心在于利用DJNativeSwing组件,这是一个开源的Java库,它...
本篇文章将详细探讨如何使用Java进行网页信息采集,并将所需数据存储到数据库的相应字段中。 首先,我们需要了解网页采集的基本步骤: 1. **网络请求**:使用HTTP协议发送请求到目标网页,如使用`java.net.URL`和`...
在Java和JSP编程中,获取系统时间是一项基础但至关重要的任务。这涉及到日期和时间处理,对于构建动态网页和应用程序来说是常见的需求。本文将深入探讨如何在Java和JSP中有效地获取系统时间。 首先,Java提供了`...
要获取网页的可视区域截图,可以调用`takeScreenshot`方法: ```java TakesScreenshot screenshot = (TakesScreenshot) driver; File srcFile = screenshot.getScreenshotAs(OutputType.FILE); ``` 5. **保存...
Java抓取网页的爬虫是一种自动化程序,用于从互联网上收集和处理大量数据。它模拟浏览器行为,通过...通过以上技术和概念的掌握,开发者可以构建出功能强大、高效的Java网页爬虫,实现对互联网信息的自动获取和处理。
rxtx java获取电子称重量数据完整版 最近因为要弄一个网页获取电子称重量的功能,所以去查看了这方面的资料,找了许多人的资料,看了许多。这个对于我来说本来就是新东西,更加不懂。所以这个东西对于新手很适合,...
### 使用Java快速判断网页链接是否有效 在互联网应用开发中,经常会遇到需要验证网页链接有效性的情况。例如,在爬虫程序中需要确保所抓取的链接是有效的,或者是在网站维护过程中检查外部链接的有效性等。本文将...
7. 错误处理与测试: - 在处理数据时,应考虑到异常情况,如空指针、数组越界等,并进行适当的错误处理。 - 编写单元测试确保转换逻辑的正确性。 在提供的"行转列"压缩包文件中,可能包含了实现这个功能的示例...
在Java开发中,获取网页当前位置通常涉及到Web应用的上下文路径(Context Path)或者当前请求的URL。这在构建动态网页时非常有用,比如在构建导航菜单、面包屑导航或者需要根据当前页面路径进行某些逻辑判断时。下面...
在Java编程领域,实现自动登录网站并获取信息是一项常见的任务,尤其在开发Web爬虫或者自动化测试时。这里我们将深入探讨如何使用Java结合Spring框架在IntelliJ IDEA集成开发环境中来实现这一目标。 首先,我们需要...
在Java编程语言中,获取网页源代码是一项基本的网络操作,通常用于爬虫、数据分析或者自动化测试等场景。这个过程涉及到Java的`java.net`和`java.io`这两个核心包中的类和方法。下面我们将详细讲解如何实现这个功能...