`
chengyue2007
  • 浏览: 1489291 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

java抓取网页的内容

    博客分类:
  • java
阅读更多

public static String getHtmlReadLine(String httpurl){
     String CurrentLine="";
         String TotalString="";
         InputStream urlStream;
         String content="";
         try {
            URL url = new URL(httpurl);
           //  URL url = new URL("http://www.sugarinfo.net/dissertation/gctinfo/");
             HttpURLConnection connection = (HttpURLConnection)url.openConnection();
             connection.connect();
             urlStream = connection.getInputStream();
             BufferedReader reader = new BufferedReader(
             new InputStreamReader(urlStream,"utf-8"));
             while ((CurrentLine = reader.readLine()) != null) {
             TotalString += CurrentLine+"\n";
             /**换行的地方主要是在这里**/
                  }
               content =  TotalString;
           //  System.out.println(content);
         } catch (Exception e) {
      
             e.printStackTrace();
         }
  return content;
  
 }

分享到:
评论

相关推荐

    Java抓取网页内容三种方式

    Java 抓取网页内容三种方式 Java 抓取网页内容是指使用 Java 语言从互联网上抓取网页内容的过程。抓取网页内容是数据爬虫和网络爬虫的基础,它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java...

    java抓取网页内容源代码

    给定的Java代码实现了一个基本的网页抓取功能,它通过发送HTTP请求至指定URL,获取网页内容,并将其保存到本地文件中。具体步骤包括: 1. **初始化URL对象**:首先,创建一个`URL`对象,用于表示要抓取的网页地址。...

    Java抓取https网页数据

    Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)

    java抓取网页内容--生成静态页面

    在Java编程中,生成静态页面是一种常见的技术,它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容,并将其保存为一个HTML文件,即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

    JAVA通过url获取网页内容

    在网页抓取程序中,需要获取网页内容以存储到数据库中。在 web 服务中,需要获取网页内容以提供给用户。 五、获取网页内容的注意事项 在获取网页内容时,需要注意以下几点: * 需要检查 URL 是否正确,以免出现...

    java简单的抓取网页内容的程序

    java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java...

    Java抓取网页数据Demo

    本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据。 首先,让我们探讨**抓取原网页**的方法。在Java中,我们可以使用`java.net.URL`类来建立...

    java 获取json网页数据

    在Java编程中,获取JSON网页数据是常见的任务,特别是在处理Web API或者进行数据抓取时。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,因其简洁和高效而广泛被采用。本实例将深入讲解如何使用...

    java抓取网页-java工具类

    java抓取网页java工具类java抓取网页java工具类

    java网页抓取数据

    例如,使用Apache HttpClient,你可以创建一个HttpClient实例,配置请求头,然后执行HttpGet或HttpPost请求来获取网页内容: ```java CloseableHttpClient httpClient = HttpClients.createDefault(); ...

    java简单抓取网页内容

    确保在尝试获取网页内容时加入适当的异常处理代码。 4. **异步与多线程**: 对于大量网页抓取,考虑使用异步或多线程以提高效率。Java的`CompletableFuture`或`ExecutorService`可以帮助实现这一点。 5. **尊重...

    java抓取网页数据

    在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...

    java爬虫抓取网页内容,下载网站图片

    Java爬虫技术是一种用于自动化获取网页内容的程序,它能够模拟人类浏览器的行为,遍历互联网上的页面,提取所需的信息。在本场景中,我们将重点讨论如何利用Java编写爬虫来抓取网页内容并下载其中的图片。 首先,...

    Java实现网页抓取

    在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**:首先,理解HTTP协议是必要的,它是互联网上应用最广泛的一种...

    基于JAVA技术的网页内容智能抓取.doc

    3. 执行抓取任务:依据配置文件中的规则,发起HTTP请求获取网页内容。 4. 内容解析与处理:解析抓取到的HTML,根据预设规则提取目标内容并进行进一步的处理。 四、目前缺陷功能描述 尽管系统具有一定的实用性,但也...

    java解析网页内容

    但是,在网页内容的提取方面还有很多的问题,毕竟各个网页的风格不一样,所以大家可以根据自己的需要做一下修改。但是最大的问题还是在于目前的技术解决不了动态网页的解析问题。其实严格来说是可以解决的,只是太难...

    java http方式抓取网页信息 JAVAIO

    以下是一个基本示例,展示如何通过GET方法抓取网页内容: ```java import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; public class ...

    基于JAVA技术的网页内容智能抓取

    【基于JAVA技术的网页内容智能抓取】是一个利用Java编程语言实现的网页内容抓取系统,它结合了XML解析、HTML解析以及多种开源组件来高效地获取和处理网络上的信息。核心技术和组件包括: 1. **XML解析**:DOM4J被...

    java用网址抓取网页内容

    java用网址抓取网页内容,可用作Ajax+jsp跨域访问

    java抓取网页三种方式

    Java 抓取网页三种方式 Java 抓取网页是一种常见的应用场景,在 Web 开发和爬虫应用中尤其重要。下面,我们将介绍三种使用 Java 语言实现抓取网页的方式。 方式一:使用 URL 连接抓取网页 在第一个示例中,我们...

Global site tag (gtag.js) - Google Analytics