我正在做一个数据挖掘的项目,第一步要把某个网站上的网页的代码下载下来,下面是我写的获取网页代码的程序的源代码:
/**
* Download the file specified by an URL.
*/
package fetchInformation;
import java.io.*;
import java.net.*;
/**
* @author caojinghua
*
*/
public class DownloadFiles {
public static void LoadFiles(String spec, File save)
{
try{
URL url=new URL(spec);
BufferedReader in=new BufferedReader(new InputStreamReader(url.openStream()));
//output to a file
BufferedWriter out=new BufferedWriter(new FileWriter(save));
String line=null;
while((line=in.readLine())!=null)
{
out.write(line);
}
if(in!=null)
in.close();
if(out!=null)
out.close();
}catch(MalformedURLException e)
{
System.out.println(e);
}catch(IOException ioe)
{
System.out.println(ioe);
}
}
/**
* @param args
*/
public static void main(String[] args) {
String savepath="a.txt";
String url="http://www.dianping.com/";
try{
File savefile=new File(savepath);
LoadFiles(url, savefile);
}catch(NullPointerException e){
System.out.println(e);
}
}
}
奇怪的是,存储获取到的代码的文件a.txt的内容只有一行:http://www.dianping.com。而若改成获取其他的网站,譬如:url="http://www.google.cn",获取到的内容跟用浏览器查看网页源文件里的内容是一样的,我试过很多网站都没问题,但上面这个网站就不行,不知道是不是该网站要登陆的原因,但用浏览器浏览该网站时是不用登陆的。
分享到:
相关推荐
网页代码获取工具是一种用于提取和分析网页源代码的软件,对于网页开发者、SEO优化师以及网络数据抓取人员来说,这种工具极其重要。它能够帮助用户快速查看和理解网页背后的HTML、CSS、JavaScript等代码结构,从而...
本篇文章将深入探讨如何利用`IDHTTP`来多次获取网页代码,并针对可能出现的问题提供解决方案。 首先,`IDHTTP`是Indy库中的一个组件,它提供了对HTTP协议的支持,允许开发者发送各种HTTP请求(如GET、POST等)并...
在VB(Visual Basic)编程环境中,获取网页代码是一项常见的任务,尤其对于开发网络应用程序或进行网页数据抓取的开发者来说。这个"傻瓜式教程"将带你了解如何使用VB的基本控件和方法来实现这一功能。 首先,我们...
在IT行业中,获取网页源代码是一项基础而重要的技能,尤其对于开发者来说,它可能是为了分析网页结构、抓取数据或是进行自动化测试等目的。在这个场景中,"VC"可能指的是Visual C++,一种广泛使用的C++集成开发环境...
获取网页源代码是网络爬虫、数据分析、网页抓取等任务的基础步骤。本工具专注于提供一个简单的方式,让用户通过输入URL地址就能便捷地获取到目标网页的源代码。 首先,我们需要理解URL(统一资源定位符)的作用。...
在给定的“VC++ 获取网页源代码.rar”压缩包中,我们可以推测它包含了一个或多个VC++项目或示例,这些项目或示例演示了如何利用VC++获取网页的源代码。这是一项基本但至关重要的技能,特别是在网络爬虫、数据分析和...
网页代码查看器是一种工具,主要用于帮助用户查看和理解网页的源代码。在互联网技术日益发达的今天,了解和分析网页代码对于开发者、设计师以及网络爱好者来说都至关重要。无论是为了学习HTML、CSS、JavaScript等...
获取网页代码是理解网页结构、设计和功能的基础,对于开发者、SEO优化人员、网络分析师等都是至关重要的技能。下面将详细介绍如何获取和查看网页代码,以及相关的重要知识点。 1. **HTML (HyperText Markup ...
在这个主题中,我们将深入探讨如何从txt文件中获取URL并下载网页源代码,以及如何将这些源代码导出到新的txt文件。 首先,我们需要理解如何从txt文件中读取URL。在编程中,这通常涉及到文件I/O操作,特别是读取文件...
【标题】:“通过WebView获取访问网页的源代码” 在Android应用开发中,WebView是一个非常重要的组件,它允许我们在应用程序内部加载和显示网页内容。有时,我们可能需要获取用户通过WebView浏览的网页源代码,以便...
以下是一些关于"VC++获取网页源代码"的关键知识点: 1. WinINet库:Microsoft为Windows平台提供了一个名为WinINet的库,它简化了网络应用程序的开发,包括HTTP、HTTPS和FTP协议的访问。在VC++中,我们可以通过...
本篇将详细讲解如何使用MFC来获取网页源代码,并将其保存到TXT文本文件中。 首先,我们需要了解MFC中的网络编程基础。MFC封装了WinInet库,这个库是Windows内置的Internet API,允许我们进行HTTP、HTTPS等协议的...
http协议+socket获取网页内容源代码。
- 如果希望获得更高效的开发体验,可以考虑使用Vscode或HBuilder这类支持代码提示和调试功能的编辑器。 ### 知识点四:代码示例解析 下面是一段HTML代码示例,展示了如何构建一个基本的HTML文档结构: ```html ...
下面将详细解释如何在VB6中获取网页源代码,并探讨相关知识点。 首先,我们需要了解HTTP协议,它是互联网上应用最为广泛的一种网络协议,用于从Web服务器传输超文本到本地浏览器。当我们在浏览器中输入网址并按下...
在处理网页源代码时,可能遇到编码问题,如非ASCII字符显示异常。确保正确识别和处理编码,例如UTF-8是最常见的网页编码标准。此外,需要注意异步加载的内容,因为初始的源代码可能不包含所有数据,可能需要等待...
有的网页设置了不可复制功能。这个小工具可以不受限制地获取网页中的文本内容,可以选择是否包含网页标签。
Delphi 获取网页源代码,这个程序首先是一个网页浏览器,可解析用户输入的网址,直接输出网页界面,然后通过操作主窗口区的Tab选项,查看该网页的源代码,也就是完成了两种功能:1、网页浏览器,2、查看源代码。...