java抓取网页的内容 - - ITeye博客

`

chengyue2007

浏览: 1489291 次
性别:
来自: 大连

最近访客更多访客>>

akingde

wzbdocs

ytleon

arpenker

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

July01：推荐用StratoIO打印控件，支持网页、URL、图片、PD、 ...
web打印不显示页眉页脚
July01：推荐用StratoIO打印控件，浏览器和系统的兼容性都很好，而 ...
Javascript网页打印大全
hardyer：大哥写的很实在，受教了，提前祝你元旦快乐！
黎活明给程序员的忠告
cxysilahi：请问WIN7 64位，调用报错Exception in thr ...
JNative的初步使用
action1949：好东西，解决问题
JFreeChart乱码解决方法

java抓取网页的内容

博客分类：

java

阅读更多

public static String getHtmlReadLine(String httpurl){
    String CurrentLine="";
         String TotalString="";
         InputStream urlStream;
         String content="";
         try {
            URL url = new URL(httpurl);
           // URL url = new URL("http://www.sugarinfo.net/dissertation/gctinfo/");
             HttpURLConnection connection = (HttpURLConnection)url.openConnection();
             connection.connect();
             urlStream = connection.getInputStream();
             BufferedReader reader = new BufferedReader(
             new InputStreamReader(urlStream,"utf-8"));
             while ((CurrentLine = reader.readLine()) != null) {
             TotalString += CurrentLine+"\n";
             /**换行的地方主要是在这里**/
                  }
               content = TotalString;
           // System.out.println(content);
         } catch (Exception e) {

             e.printStackTrace();
         }
  return content;

}

分享到：

java过滤非法字符的两个方法 | 实现java读取网页内容并下载网页中出现的图 ...

2010-04-29 11:45
浏览 2470
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java抓取网页内容三种方式: Java 抓取网页内容三种方式 Java 抓取网页内容是指使用 Java 语言从互联网上抓取网页内容的过程。抓取网页内容是数据爬虫和网络爬虫的基础，它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java...

java抓取网页内容源代码: 给定的Java代码实现了一个基本的网页抓取功能，它通过发送HTTP请求至指定URL，获取网页内容，并将其保存到本地文件中。具体步骤包括： 1. **初始化URL对象**：首先，创建一个`URL`对象，用于表示要抓取的网页地址。...

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

java抓取网页内容--生成静态页面: 在Java编程中，生成静态页面是一种常见的技术，它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容，并将其保存为一个HTML文件，即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

JAVA通过url获取网页内容: 在网页抓取程序中，需要获取网页内容以存储到数据库中。在 web 服务中，需要获取网页内容以提供给用户。五、获取网页内容的注意事项在获取网页内容时，需要注意以下几点： * 需要检查 URL 是否正确，以免出现...

java简单的抓取网页内容的程序: java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java...

Java抓取网页数据Demo: 本文将详细讨论如何使用Java语言来抓取网页数据，包括两种主要方法：直接抓取原网页内容和处理网页中的JavaScript返回数据。首先，让我们探讨**抓取原网页**的方法。在Java中，我们可以使用`java.net.URL`类来建立...

java 获取json网页数据: 在Java编程中，获取JSON网页数据是常见的任务，特别是在处理Web API或者进行数据抓取时。JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，因其简洁和高效而广泛被采用。本实例将深入讲解如何使用...

java抓取网页-java工具类: java抓取网页java工具类java抓取网页java工具类

java网页抓取数据: 例如，使用Apache HttpClient，你可以创建一个HttpClient实例，配置请求头，然后执行HttpGet或HttpPost请求来获取网页内容： ```java CloseableHttpClient httpClient = HttpClients.createDefault(); ...

java简单抓取网页内容: 确保在尝试获取网页内容时加入适当的异常处理代码。 4. **异步与多线程**：对于大量网页抓取，考虑使用异步或多线程以提高效率。Java的`CompletableFuture`或`ExecutorService`可以帮助实现这一点。 5. **尊重...

java抓取网页数据: 在“java抓取网页数据”这个主题中，我们将深入探讨如何利用Java来抓取并处理互联网上的信息。首先，我们要了解什么是网络爬虫。网络爬虫（Web Crawler）是自动遍历互联网的程序，通过抓取网页内容并存储在本地，...

java爬虫抓取网页内容，下载网站图片: Java爬虫技术是一种用于自动化获取网页内容的程序，它能够模拟人类浏览器的行为，遍历互联网上的页面，提取所需的信息。在本场景中，我们将重点讨论如何利用Java编写爬虫来抓取网页内容并下载其中的图片。首先，...

Java实现网页抓取: 在这个Java实现网页抓取的项目中，我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**：首先，理解HTTP协议是必要的，它是互联网上应用最广泛的一种...

基于JAVA技术的网页内容智能抓取.doc: 3. 执行抓取任务：依据配置文件中的规则，发起HTTP请求获取网页内容。 4. 内容解析与处理：解析抓取到的HTML，根据预设规则提取目标内容并进行进一步的处理。四、目前缺陷功能描述尽管系统具有一定的实用性，但也...

java解析网页内容: 但是，在网页内容的提取方面还有很多的问题，毕竟各个网页的风格不一样，所以大家可以根据自己的需要做一下修改。但是最大的问题还是在于目前的技术解决不了动态网页的解析问题。其实严格来说是可以解决的，只是太难...

java http方式抓取网页信息 JAVAＩＯ: 以下是一个基本示例，展示如何通过GET方法抓取网页内容： ```java import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; public class ...

基于JAVA技术的网页内容智能抓取: 【基于JAVA技术的网页内容智能抓取】是一个利用Java编程语言实现的网页内容抓取系统，它结合了XML解析、HTML解析以及多种开源组件来高效地获取和处理网络上的信息。核心技术和组件包括： 1. **XML解析**：DOM4J被...

java用网址抓取网页内容: java用网址抓取网页内容，可用作Ajax+jsp跨域访问

java抓取网页三种方式: Java 抓取网页三种方式 Java 抓取网页是一种常见的应用场景，在 Web 开发和爬虫应用中尤其重要。下面，我们将介绍三种使用 Java 语言实现抓取网页的方式。方式一：使用 URL 连接抓取网页在第一个示例中，我们...

Global site tag (gtag.js) - Google Analytics