`

通过访问地址抓取网页数据

xml 
阅读更多
public class Test2 {

public static void main(String[] args) throws HttpException, IOException {

// 构造HttpClient的实例
HttpClient httpClient = new HttpClient();
//获取xml字符串的地址
String url2="http://oa.shunde.gov.cn/egp/OAXSERVICE?ACTION=CommonChannel.CommonAction.getSelInfo&token=123";
       //String url2="http://item.yixun.com/item-386275.html";
System.out.println("url------------>>" + url2);
                 //get方法实例
GetMethod getMethod = new GetMethod(url2);
// 使用系统提供的默认的恢复策略
getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,

new DefaultHttpMethodRetryHandler());
try {
// 执行getMethod
int statusCode = httpClient.executeMethod(getMethod);
if (statusCode != HttpStatus.SC_OK) {
System.err.println("Method failed: "
+ getMethod.getStatusLine());
}
// 读取内容
byte[] responseBody = getMethod.getResponseBody();

String ISOname = "";

ISOname = new String(responseBody, "utf-8");

// 处理内容
System.out.println("ISOname----------------------->>"
+ new String(ISOname));
             //解析内容
//readXml(new String(ISOname));

} catch (HttpException e) {
// 发生致命的异常,可能是协议不对或者返回的内容有问题
System.out.println("Please check your provided http address!");
e.printStackTrace();
} catch (IOException e) {
// 发生网络异常
e.printStackTrace();
} finally {
// 释放连接
getMethod.releaseConnection();
}
}
    /**
     * 解析抓取的xml字符串
     * @param strXml
     */
public static void readXml(String strXml) {

System.out.println("111111111111111111111111");
Document document;

try {
document = DocumentHelper.parseText(strXml);

Element users = document.getRootElement();

for (Iterator iter = users.elementIterator(); iter.hasNext();) {

Element element = (Element) iter.next();

Attribute id = element.attribute("id");

Attribute name = element.attribute("name");

Attribute orgId = element.attribute("orgId");

Attribute parentId = element.attribute("parentId");

Attribute frzg = element.attribute("frzg");

Attribute addr = element.attribute("orgId");

System.out.println("id---------------------<" + id.getText());

System.out.println("name---------------------<"
+ name.getText());

System.out.println("orgId---------------------<"
+ orgId.getText());

System.out.println("parentId---------------------<"
+ parentId.getText());

System.out.println("frzg---------------------<"
+ frzg.getText());

System.out.println("addr---------------------<"
+ addr.getText());
}

} catch (DocumentException e) {
e.printStackTrace();
}
}

附件为jar包
分享到:
评论

相关推荐

    Android开发简单获取网页数据

    在Android开发中,获取网页数据是一项常见的任务,无论是从ASPX、PHP或其他类型的网页服务器获取信息,都是通过网络请求来实现的。本文将详细介绍如何在Android应用中简单地获取网页数据,以及涉及到的关键技术。 ...

    LABVIEW 获取网页数据_labview访问网页下载文章

    标题 "LABVIEW 获取网页数据_labview访问网页下载文章" 描述了一个使用LabVIEW(Laboratory Virtual Instrument Engineering Workbench)编程来获取和下载网页数据的过程。LabVIEW是美国国家仪器公司(NI)开发的一...

    网页数据抓取工具,ajax异步数据获取,模拟访问网页提取内容

    网页数据抓取是互联网时代获取信息的重要手段,它允许我们自动化地从网页中提取大量有用的数据,例如新闻、产品信息、用户评论等。在标题提到的"网页数据抓取工具"中,C#语言被用来开发这样的工具,这表明我们可以...

    java抓取网页数据

    在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...

    Java抓取https网页数据

    Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)

    循环访问网页获取ajax数据

    从一个足球数据网站循环访问不同网页获取ajax数据 ,使用了线程和委托。 不能从webbrowser1.documenttext 获取ajax数据 ,需要使用webbrowser1.document.getelementbyid获取ajax内容。每隔4秒转使用委托转到下一个...

    通过URL地址获取网页生成jpg图片

    本教程将详细介绍如何通过URL地址获取网页并生成jpg图片,同时解决32位和64位运行环境下的兼容性问题。我们将主要使用Java语言来实现这一功能,因为它具有丰富的库和跨平台的特性。 首先,我们需要一个能够处理网络...

    网页数据比分抓取源码

    这个"网页数据比分抓取源码"演示了如何通过编程技术实现这一目标。 首先,我们要了解网页抓取的基本原理。网页抓取,又称网络爬虫,是利用计算机程序自动遍历互联网上的网页,提取所需信息的过程。它涉及到HTTP协议...

    esp8266和stm32驱动之三实现访问网站获取数据

    在本文中,我们将深入探讨如何使用ESP8266 WiFi模块与STM32微控制器协作,实现通过网络访问网站并获取所需数据的功能。ESP8266以其强大的WiFi功能和低功耗特性,广泛应用于物联网(IoT)项目,而STM32作为一款高性能的...

    VBA操作网页读取数据自动填入EXCEL表中

    以上便是通过VBA实现网页数据抓取并自动填充到Excel中的完整过程。这种方法适用于需要定期从特定网站获取数据并进行批量处理的场景。需要注意的是,在实际应用过程中可能还需要考虑网络延迟、网页结构变化等因素对...

    C# WebBrowser获取网站数据

    总结来说,C# WebBrowser控件提供了一种有效的方法来模拟浏览器行为,绕过反爬虫策略并获取网页数据。结合适当的事件处理和HTML解析技术,我们可以实现强大的网页数据抓取功能。不过,务必尊重网站的robots.txt规则...

    QT HTTP请求获取网页

    本文将深入探讨如何使用QT进行HTTP GET请求来获取网页。 首先,你需要了解HTTP协议。HTTP(超文本传输协议)是互联网上应用最为广泛的一种网络协议,用于从Web服务器传输超文本到本地浏览器。GET方法是HTTP请求中的...

    linux C/C++实现的通过url访问网页提取网页文字内容

    2. 连接服务器:使用`getaddrinfo()`获取服务器的地址信息,然后用`connect()`建立连接。 3. 发送HTTP请求:构造GET请求字符串,然后用`send()`发送。 4. 接收HTTP响应:用循环接收服务器返回的数据,直到连接关闭,...

    Java网页抓取数据

    它们提供了发送HTTP请求并接收响应的功能,是抓取网页数据的基础。 2. **HTML解析**:解析HTML文档以提取所需数据,可以使用Jsoup库。Jsoup支持CSS选择器,能够方便地定位到网页元素,并提供API进行元素的操作和...

    用VBA抓取网页数据

    通过本文的介绍,我们了解了如何使用VBA中的XMLHTTP对象来抓取网页数据。XMLHTTP对象不仅提供了丰富的属性和方法,而且还可以处理各种格式的数据,这使得它成为了自动化数据抓取任务的理想选择。希望本文能帮助读者...

    C#抓取网页股票年报数据程序源代码

    通过HttpRequest对象,程序可以模拟用户的行为,例如发送GET或POST请求来获取网页内容;HttpResponse则用于接收服务器返回的数据。在此程序中,开发者可能利用这两个类来构建一个HTTP客户端,与目标网站进行交互,...

    通过网页获取MAC地址

    标题提到的"通过网页获取MAC地址",通常需要服务器端的技术支持。一种可能的方法是利用ActiveX控件,如压缩包中的WebGetMAC.cab文件所示,这可能是一个包含ActiveX组件的 CAB 文件,用于在Internet Explorer中运行。...

    BYD.rar_byd_比亚迪_网页抓取_网页数据 c#

    【标题】"BYD.rar_byd_比亚迪_网页抓取_网页数据 c#"涉及的核心知识点主要集中在网页抓取和C#编程语言上,特别是在利用C#进行网页数据的抓取和处理方面。在这个项目中,开发者可能使用了C#语言来编写程序,以从...

    Java爬虫Jsoup+httpclient获取动态生成的数据

    在Web开发和数据抓取领域,Java爬虫技术是实现网页自动化信息提取的重要手段。本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据...

    可自定义配置的网页数据抓取引擎

    网页数据抓取,也称为网络爬虫或Web抓取,是通过自动化程序从互联网上抓取大量信息的过程。这种程序通常模拟浏览器行为,访问网页,解析HTML代码,并根据预设的规则提取特定数据。在这个案例中,"可自定义配置"意味...

Global site tag (gtag.js) - Google Analytics