`

java 读取页面源码的多种方式

阅读更多
1、Socket读取
      String strServer=http://www.google.cn;//这里同样可以用ip来访问:203.208.35.100
      String strPage="/language_tools?hl=zh-CN";
      try {
           String hostname = strServer;
           int port = 80;
           InetAddress addr = InetAddress.getByName(hostname);
           Socket socket = new Socket(addr, port);
           BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF8"));
           wr.write("GET " + strPage + " HTTP/1.0\r\n");
           wr.write("HOST:" + strServer + "\r\n");
           wr.write("\r\n");
           wr.flush();
           BufferedReader rd = new BufferedReader(new InputStreamReader(socket.getInputStream()));
           String line;
           while ((line = rd.readLine()) != null) {
                System.out.println(line);
           }
           wr.close();
           rd.close();
      } catch (Exception e) {
           System.out.println(e.toString());
      }
2、HttpClient方式
      HttpClient client=new HttpClient();
      GetMethod method=new GetMethod("http://www.baidu.com/");
      int status=client.executeMethod(method);
      if(status==HttpStatus.SC_OK){
       //读取内容
       byte[] responseBody = method.getResponseBody();
       //处理内容
       System.out.println(new String(responseBody));
       System.out.println("文件名称:"+method.getPath());
        }
3、HttpURLConnection方式
     String sCurrentLine;
     String sTotalString;
     sCurrentLine="";
     sTotalString="";
     java.io.InputStream l_urlStream;
     java.net.URL l_url = new java.net.URL("http://www.sina.com/");
     java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
     l_connection.connect();
     l_urlStream = l_connection.getInputStream();
     java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
     while ((sCurrentLine = l_reader.readLine()) != null) {
         sTotalString+=sCurrentLine;
     }

HttpClient和GetMethod都是来自apache的包
分享到:
评论

相关推荐

    android读取网页源代码

    这里我们以最基础的HttpURLConnection为例来展示如何读取网页源代码。 1. **HttpURLConnection的使用**: - 首先,确保在AndroidManifest.xml文件中添加了互联网权限: ```xml ``` - 创建一个线程或使用...

    用Java读取pdf中的数据

    Java作为一种强大的编程语言,提供了多种库来处理PDF文档,其中一个关键任务是读取PDF中的数据。本篇文章将详细介绍如何使用Java进行PDF数据的读取,并围绕`PdfReader`这个概念展开。 首先,`PdfReader`通常指的是...

    JAVA上百实例源码以及开源项目源代码

    Java从网络取得文件 1个目标文件 简单 Java从压缩包中提取文件 1个目标文件 简单 Java存储与读取对象 1个目标文件 如题 Java调色板面板源代码 1个目标文件 摘要:Java源码,窗体界面,调色板 使用Java语言编写的一款...

    java 生成网页图片Web源代码

    这个项目,"java 生成网页图片Web源代码",显然关注的就是如何使用Java来创建和处理图片,特别是在Web环境中的应用。以下是相关的知识点详解: 1. **Java图像处理库**:Java提供了内置的`java.awt`和`javax.imageio...

    现实网页下载java源代码

    本项目提供的"现实网页下载java源代码"旨在帮助开发者实现这一功能。Java作为一种多用途的编程语言,提供了多种方法来下载网页内容。下面将详细探讨相关知识点。 1. **HTTP协议**:网页下载的基本原理是通过HTTP...

    java 读取html过滤标签

    在Java编程中,读取HTML并过滤特定标签是一项常见的任务,尤其在处理网页抓取、数据提取或构建网络爬虫时。这篇博文链接虽然没有提供具体的内容,但我们可以通过标题和标签来推测其主要讨论的内容。这里我们将深入...

    java播放器源代码

    这可能包含了数据库设计、后台业务逻辑、前端页面等内容,而非Java播放器的源代码。如果希望进一步探讨酒店管理系统或ASP.NET的相关知识点,可以深入研究这个主题,但它与Java播放器的源代码开发不直接相关。

    电子发票源代码(java)

    在这个“电子发票源代码(java)”项目中,开发者已经实现了对两种主流电子发票格式——PDF和OFD的自动识别功能。下面我们将深入探讨相关知识点。 首先,PDF(Portable Document Format)是一种通用的文件格式,...

    公司网站源代码-java

    这是一个基于Java的公司宣传网站的源代码,它提供了多种功能,包括用户交互的前台展示以及后台管理。下面将详细阐述相关的核心知识点。 1. **Servlet**:Servlet是Java编程语言中用来扩展服务器功能的接口,它能够...

    纯代码读取PNG图片的类[PNGClass.rar]-精品源代码

    2. **枕善居VB源码博客.url**:这可能是一个链接,指向一个VB(Visual Basic)源代码相关的博客或者资源网站,可以为开发者提供更多的学习资料和示例。 3. **TestTiff**:TIFF(Tagged Image File Format)是一种...

    安卓java读取网页源码-AndroidInterview:安卓面试

    安卓java读取网页源码 Android的系统架构 HAL 的全称是硬件抽象层,这样厂商可以以封闭源代码形式提供硬件驱动模块。这一层把接口定义好了,不同的厂商可以提供不同的硬件和不同的驱动,层与层之间就隔离。正因为有...

    网页源码下载工具

    网页源码下载工具是一款基于Java编程语言开发的实用软件,主要功能是帮助用户方便快捷地获取互联网上的网页源代码。对于需要分析网页结构、研究网页设计或者进行网页爬虫开发的人来说,这款工具提供了极大的便利。 ...

    url获取的java源代码

    网络爬虫是一种自动提取网页的程序,通过遍历网页上的链接来发现新的页面。本示例的"GetURL.java"文件可能包含了获取网页HTML内容,然后从中提取出链接URL的功能。 5. **HTML解析**: 要从HTML文档中提取URL,...

    Java 解析 PDF, pdfbox读取PDF内容

    Java作为一款跨平台的编程语言,提供了多种库来处理PDF文档,其中之一就是PDFBox。本文将深入探讨如何使用PDFBox库在Java中解析PDF并读取其内容。 PDFBox是Apache软件基金会的一个开源项目,它为Java开发者提供了一...

    JavaWeb程序设计源代码

    JavaWeb程序设计源代码是学习Java Web开发的重要资源,它涵盖了构建动态网页应用程序的各种技术和实践。这个源代码集合可能是从一本详细的教材或教程中提取的,目的是为了帮助开发者深入理解并实践书中所讲解的理论...

    java各文件转换应用源码

    而`src`目录则包含了项目的源代码,用户可以通过查看和学习这些源代码来理解文件转换的具体实现细节。 总的来说,这个Java文件转换应用源码项目是一个全面的文件处理工具,涵盖了多种常见的文件格式转换需求。它...

    多线程搜索引擎java实现源代码

    本项目以"多线程搜索引擎java实现源代码"为标题,旨在介绍如何使用Java编程语言构建一个具备多线程特性的搜索引擎。这个搜索引擎可以抓取网络上的信息,存储网页快照,并建立索引,以便用户快速查询所需内容。下面...

    java代码实现填充word模板生成word合同的实例

    Java作为一种强大的编程语言,提供了多种库和工具来处理这类任务,如Apache POI和OpenOffice API等。本实例将探讨如何使用Java代码实现填充Word模板并生成Word合同。 首先,我们需要理解Apache POI库。Apache POI是...

    一个Java网站源码

    该Java网站源码是一个企业级别的门户系统,专为发布信息和产品管理而设计。这个项目是用Java编程语言实现的,表明它利用了Java的强大功能和面向对象的特性,使得代码可读性强、可维护性高。Java在Web开发领域的广泛...

Global site tag (gtag.js) - Google Analytics