`
butterfly
  • 浏览: 8883 次
  • 性别: Icon_minigender_1
  • 来自: Sun Yet-sen Universi
最近访客 更多访客>>
社区版块
存档分类
最新评论

关于如何获取网页代码的问题

    博客分类:
  • null
阅读更多
我正在做一个数据挖掘的项目,第一步要把某个网站上的网页的代码下载下来,下面是我写的获取网页代码的程序的源代码:
/**
* Download the file specified by an URL.
*/
package fetchInformation;

import java.io.*;
import java.net.*;

/**
* @author caojinghua
*
*/
public class DownloadFiles {

       public static void LoadFiles(String spec, File save)
      {
try{
    URL url=new URL(spec);
    BufferedReader in=new BufferedReader(new InputStreamReader(url.openStream()));
    //output to a file
    BufferedWriter out=new BufferedWriter(new FileWriter(save));
    String line=null;
    while((line=in.readLine())!=null)
   {
         out.write(line);
   }
   if(in!=null)
         in.close();
   if(out!=null)
out.close();
}catch(MalformedURLException e)
{
     System.out.println(e);
}catch(IOException ioe)
{
     System.out.println(ioe);
}
      }
/**
* @param args
*/
public static void main(String[] args) {
String savepath="a.txt";
String url="http://www.dianping.com/";
try{
File savefile=new File(savepath);
LoadFiles(url, savefile);
}catch(NullPointerException e){
System.out.println(e);
}
}
}

奇怪的是,存储获取到的代码的文件a.txt的内容只有一行:http://www.dianping.com。而若改成获取其他的网站,譬如:url="http://www.google.cn",获取到的内容跟用浏览器查看网页源文件里的内容是一样的,我试过很多网站都没问题,但上面这个网站就不行,不知道是不是该网站要登陆的原因,但用浏览器浏览该网站时是不用登陆的。
分享到:
评论
2 楼 butterfly 2007-01-22  
我按照楼主的blog里写的修改了代码:
URLConnection urlcon=(HttpURLConnection)url.openConnection();
urlcon.setRequestProperty("User-agent", "Firefox/2.0");
BufferedReader in=new BufferedReader(new InputStreamReader(urlcon.getInputStream()));

但抛出java.net.ProtocolException: Server redirected too many  times (20)
1 楼 dengyin2000 2007-01-21  
你可能需要设置请求的user-agent参数.请看我的blog
http://dengyin2000.iteye.com/blog/47414

相关推荐

    网页代码获取工具

    网页代码获取工具是一种用于提取和分析网页源代码的软件,对于网页开发者、SEO优化师以及网络数据抓取人员来说,这种工具极其重要。它能够帮助用户快速查看和理解网页背后的HTML、CSS、JavaScript等代码结构,从而...

    利用IDHTTP多次获取网页代码

    本篇文章将深入探讨如何利用`IDHTTP`来多次获取网页代码,并针对可能出现的问题提供解决方案。 首先,`IDHTTP`是Indy库中的一个组件,它提供了对HTTP协议的支持,允许开发者发送各种HTTP请求(如GET、POST等)并...

    vb 获取网页代码

    在VB(Visual Basic)编程环境中,获取网页代码是一项常见的任务,尤其对于开发网络应用程序或进行网页数据抓取的开发者来说。这个"傻瓜式教程"将带你了解如何使用VB的基本控件和方法来实现这一功能。 首先,我们...

    VC获取网页源代码,用来修改其源代码

    在IT行业中,获取网页源代码是一项基础而重要的技能,尤其对于开发者来说,它可能是为了分析网页结构、抓取数据或是进行自动化测试等目的。在这个场景中,"VC"可能指的是Visual C++,一种广泛使用的C++集成开发环境...

    获取网页源代码

    获取网页源代码是网络爬虫、数据分析、网页抓取等任务的基础步骤。本工具专注于提供一个简单的方式,让用户通过输入URL地址就能便捷地获取到目标网页的源代码。 首先,我们需要理解URL(统一资源定位符)的作用。...

    VC++ 获取网页源代码.rar

    在给定的“VC++ 获取网页源代码.rar”压缩包中,我们可以推测它包含了一个或多个VC++项目或示例,这些项目或示例演示了如何利用VC++获取网页的源代码。这是一项基本但至关重要的技能,特别是在网络爬虫、数据分析和...

    网页代码查看器

    网页代码查看器是一种工具,主要用于帮助用户查看和理解网页的源代码。在互联网技术日益发达的今天,了解和分析网页代码对于开发者、设计师以及网络爱好者来说都至关重要。无论是为了学习HTML、CSS、JavaScript等...

    获取网页代码

    获取网页代码是理解网页结构、设计和功能的基础,对于开发者、SEO优化人员、网络分析师等都是至关重要的技能。下面将详细介绍如何获取和查看网页代码,以及相关的重要知识点。 1. **HTML (HyperText Markup ...

    获取网页源代码。支持从txt中获取URL以及导出txt文件

    在这个主题中,我们将深入探讨如何从txt文件中获取URL并下载网页源代码,以及如何将这些源代码导出到新的txt文件。 首先,我们需要理解如何从txt文件中读取URL。在编程中,这通常涉及到文件I/O操作,特别是读取文件...

    [转帖]通过WebView获取访问网页的源代码

    【标题】:“通过WebView获取访问网页的源代码” 在Android应用开发中,WebView是一个非常重要的组件,它允许我们在应用程序内部加载和显示网页内容。有时,我们可能需要获取用户通过WebView浏览的网页源代码,以便...

    VC++ 获取网页源代码

    以下是一些关于"VC++获取网页源代码"的关键知识点: 1. WinINet库:Microsoft为Windows平台提供了一个名为WinINet的库,它简化了网络应用程序的开发,包括HTTP、HTTPS和FTP协议的访问。在VC++中,我们可以通过...

    mfc获取网页代码

    本篇将详细讲解如何使用MFC来获取网页源代码,并将其保存到TXT文本文件中。 首先,我们需要了解MFC中的网络编程基础。MFC封装了WinInet库,这个库是Windows内置的Internet API,允许我们进行HTTP、HTTPS等协议的...

    http协议+socket获取网页内容源代码

    http协议+socket获取网页内容源代码。

    网上花店网页代码 html静态花店网页设计制作 dw静态鲜花网页成品模板素材网页 web前端网页设计与制作 div静态网页设计

    - 如果希望获得更高效的开发体验,可以考虑使用Vscode或HBuilder这类支持代码提示和调试功能的编辑器。 ### 知识点四:代码示例解析 下面是一段HTML代码示例,展示了如何构建一个基本的HTML文档结构: ```html ...

    获取网页源代码vb

    下面将详细解释如何在VB6中获取网页源代码,并探讨相关知识点。 首先,我们需要了解HTTP协议,它是互联网上应用最为广泛的一种网络协议,用于从Web服务器传输超文本到本地浏览器。当我们在浏览器中输入网址并按下...

    提取网页源代码

    在处理网页源代码时,可能遇到编码问题,如非ASCII字符显示异常。确保正确识别和处理编码,例如UTF-8是最常见的网页编码标准。此外,需要注意异步加载的内容,因为初始的源代码可能不包含所有数据,可能需要等待...

    免费获取网页文本内容或源代码

    有的网页设置了不可复制功能。这个小工具可以不受限制地获取网页中的文本内容,可以选择是否包含网页标签。

    Delphi 获取网页源代码.rar

    Delphi 获取网页源代码,这个程序首先是一个网页浏览器,可解析用户输入的网址,直接输出网页界面,然后通过操作主窗口区的Tab选项,查看该网页的源代码,也就是完成了两种功能:1、网页浏览器,2、查看源代码。...

Global site tag (gtag.js) - Google Analytics