`

java 读取页面源码的多种方式

阅读更多
1、Socket读取
      String strServer=http://www.google.cn;//这里同样可以用ip来访问:203.208.35.100
      String strPage="/language_tools?hl=zh-CN";
      try {
           String hostname = strServer;
           int port = 80;
           InetAddress addr = InetAddress.getByName(hostname);
           Socket socket = new Socket(addr, port);
           BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF8"));
           wr.write("GET " + strPage + " HTTP/1.0\r\n");
           wr.write("HOST:" + strServer + "\r\n");
           wr.write("\r\n");
           wr.flush();
           BufferedReader rd = new BufferedReader(new InputStreamReader(socket.getInputStream()));
           String line;
           while ((line = rd.readLine()) != null) {
                System.out.println(line);
           }
           wr.close();
           rd.close();
      } catch (Exception e) {
           System.out.println(e.toString());
      }
2、HttpClient方式
      HttpClient client=new HttpClient();
      GetMethod method=new GetMethod("http://www.baidu.com/");
      int status=client.executeMethod(method);
      if(status==HttpStatus.SC_OK){
       //读取内容
       byte[] responseBody = method.getResponseBody();
       //处理内容
       System.out.println(new String(responseBody));
       System.out.println("文件名称:"+method.getPath());
        }
3、HttpURLConnection方式
     String sCurrentLine;
     String sTotalString;
     sCurrentLine="";
     sTotalString="";
     java.io.InputStream l_urlStream;
     java.net.URL l_url = new java.net.URL("http://www.sina.com/");
     java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
     l_connection.connect();
     l_urlStream = l_connection.getInputStream();
     java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
     while ((sCurrentLine = l_reader.readLine()) != null) {
         sTotalString+=sCurrentLine;
     }

HttpClient和GetMethod都是来自apache的包
分享到:
评论

相关推荐

    JAVA上百实例源码以及开源项目源代码

     Tcp服务端与客户端的JAVA实例源代码,一个简单的Java TCP服务器端程序,别外还有一个客户端的程序,两者互相配合可以开发出超多的网络程序,这是最基础的部分。 递归遍历矩阵 1个目标文件,简单! 多人聊天室 3...

    android读取网页源代码

    这里我们以最基础的HttpURLConnection为例来展示如何读取网页源代码。 1. **HttpURLConnection的使用**: - 首先,确保在AndroidManifest.xml文件中添加了互联网权限: ```xml ``` - 创建一个线程或使用...

    JAVA上百实例源码以及开源项目

     Tcp服务端与客户端的JAVA实例源代码,一个简单的Java TCP服务器端程序,别外还有一个客户端的程序,两者互相配合可以开发出超多的网络程序,这是最基础的部分。 递归遍历矩阵 1个目标文件,简单! 多人聊天室 3...

    用Java读取pdf中的数据

    Java作为一种强大的编程语言,提供了多种库来处理PDF文档,其中一个关键任务是读取PDF中的数据。本篇文章将详细介绍如何使用Java进行PDF数据的读取,并围绕`PdfReader`这个概念展开。 首先,`PdfReader`通常指的是...

    java 生成网页图片Web源代码

    这个项目,"java 生成网页图片Web源代码",显然关注的就是如何使用Java来创建和处理图片,特别是在Web环境中的应用。以下是相关的知识点详解: 1. **Java图像处理库**:Java提供了内置的`java.awt`和`javax.imageio...

    现实网页下载java源代码

    本项目提供的"现实网页下载java源代码"旨在帮助开发者实现这一功能。Java作为一种多用途的编程语言,提供了多种方法来下载网页内容。下面将详细探讨相关知识点。 1. **HTTP协议**:网页下载的基本原理是通过HTTP...

    java 读取html过滤标签

    在Java编程中,读取HTML并过滤特定标签是一项常见的任务,尤其在处理网页抓取、数据提取或构建网络爬虫时。这篇博文链接虽然没有提供具体的内容,但我们可以通过标题和标签来推测其主要讨论的内容。这里我们将深入...

    java播放器源代码

    这可能包含了数据库设计、后台业务逻辑、前端页面等内容,而非Java播放器的源代码。如果希望进一步探讨酒店管理系统或ASP.NET的相关知识点,可以深入研究这个主题,但它与Java播放器的源代码开发不直接相关。

    电子发票源代码(java)

    在这个“电子发票源代码(java)”项目中,开发者已经实现了对两种主流电子发票格式——PDF和OFD的自动识别功能。下面我们将深入探讨相关知识点。 首先,PDF(Portable Document Format)是一种通用的文件格式,...

    公司网站源代码-java

    这是一个基于Java的公司宣传网站的源代码,它提供了多种功能,包括用户交互的前台展示以及后台管理。下面将详细阐述相关的核心知识点。 1. **Servlet**:Servlet是Java编程语言中用来扩展服务器功能的接口,它能够...

    纯代码读取PNG图片的类[PNGClass.rar]-精品源代码

    2. **枕善居VB源码博客.url**:这可能是一个链接,指向一个VB(Visual Basic)源代码相关的博客或者资源网站,可以为开发者提供更多的学习资料和示例。 3. **TestTiff**:TIFF(Tagged Image File Format)是一种...

    安卓java读取网页源码-AndroidInterview:安卓面试

    安卓java读取网页源码 Android的系统架构 HAL 的全称是硬件抽象层,这样厂商可以以封闭源代码形式提供硬件驱动模块。这一层把接口定义好了,不同的厂商可以提供不同的硬件和不同的驱动,层与层之间就隔离。正因为有...

    网页源码下载工具

    网页源码下载工具是一款基于Java编程语言开发的实用软件,主要功能是帮助用户方便快捷地获取互联网上的网页源代码。对于需要分析网页结构、研究网页设计或者进行网页爬虫开发的人来说,这款工具提供了极大的便利。 ...

    Java 解析 PDF, pdfbox读取PDF内容

    Java作为一款跨平台的编程语言,提供了多种库来处理PDF文档,其中之一就是PDFBox。本文将深入探讨如何使用PDFBox库在Java中解析PDF并读取其内容。 PDFBox是Apache软件基金会的一个开源项目,它为Java开发者提供了一...

    url获取的java源代码

    网络爬虫是一种自动提取网页的程序,通过遍历网页上的链接来发现新的页面。本示例的"GetURL.java"文件可能包含了获取网页HTML内容,然后从中提取出链接URL的功能。 5. **HTML解析**: 要从HTML文档中提取URL,...

    JavaWeb程序设计源代码

    JavaWeb程序设计源代码是学习Java Web开发的重要资源,它涵盖了构建动态网页应用程序的各种技术和实践。这个源代码集合可能是从一本详细的教材或教程中提取的,目的是为了帮助开发者深入理解并实践书中所讲解的理论...

    多线程搜索引擎java实现源代码

    本项目以"多线程搜索引擎java实现源代码"为标题,旨在介绍如何使用Java编程语言构建一个具备多线程特性的搜索引擎。这个搜索引擎可以抓取网络上的信息,存储网页快照,并建立索引,以便用户快速查询所需内容。下面...

    java代码实现填充word模板生成word合同的实例

    Java作为一种强大的编程语言,提供了多种库和工具来处理这类任务,如Apache POI和OpenOffice API等。本实例将探讨如何使用Java代码实现填充Word模板并生成Word合同。 首先,我们需要理解Apache POI库。Apache POI是...

Global site tag (gtag.js) - Google Analytics