首先在获取html页面的源代码之前..
要准备Apache里面的两个包:
htmllexer.jar
htmlparser.jar
有了这两个包方便,抓取网页中的源代码,抓取之后,生成一个txt文档..如果要获取里面的内容..就自己处理下就好了..
具体代码如下:
package pack.java.url;
import java.io.File;
import java.io.FileOutputStream;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
public class Test {
/**
* 测试方法;
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception{
// TODO Auto-generated method stub
String url="http://www.baidu.com/";
//创建一个parser对象;
Parser parser=new Parser(url);
//设置字符编码格式;
parser.setEncoding("gb2312");
NodeList list=parser.parse(null);
//输出;
FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));
outputStream.write(list.toHtml().getBytes());
}
}
分享到:
相关推荐
VC 抓取指定网页的源代码,抓取远程指定URL地址中包括的文件,并显示出网页源代码,实现了类似“采集”的功能,将远程网页的内容先读取出来,然后显示,由此可扩展成一个采集模块,添加过滤功能即可,要用到字符串...
标题中的“基于Python的网络爬虫之LOL贴吧批量信息抓取采集含源代码”表明了这个压缩包的内容是关于使用Python编程语言实现的一个网络爬虫项目,目标是抓取LOL(League of Legends,即英雄联盟)贴吧的大量信息。...
标题中的“用python编写的网页监控源代码”指的是一个使用Python编程语言开发的程序,它的主要功能是对指定的网页内容进行实时监控。这样的工具在数据分析、网站维护、爬虫项目等领域有着广泛的应用,例如监测竞争...
在给定的“VC++ 获取网页源代码.rar”压缩包中,我们可以推测它包含了一个或多个VC++项目或示例,这些项目或示例演示了如何利用VC++获取网页的源代码。这是一项基本但至关重要的技能,特别是在网络爬虫、数据分析和...
描述部分与标题相同,"计算机软件-商业源码-纯PB代码获取网页的源代码.zip",这进一步强调了这个资源的核心内容——一段商业级的PureBasic代码,它的主要任务是从互联网上抓取网页的HTML源码。这可能是为了数据抓取...
### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...
《VB网页分析源代码》是针对网页数据抓取与解析的编程实践,主要采用Visual Basic (VB) 这一编程语言实现。VB是一种基于事件驱动的编程环境,尤其适合开发Windows应用程序,它提供了直观易用的界面设计工具和强大的...
总的来说,抓取网页源代码是一项基础但关键的网络编程任务,它涉及网络协议、数据编码和错误处理等多个方面。通过实践和理解这样的程序,开发者可以进一步掌握网络通信的原理,并将其应用到更复杂的网络应用中,如...
在这个名为"使用HttpClient获取网页html源代码.zip"的压缩包中,包含了一个简单的示例项目——WebDataShow,用于演示如何使用HttpClient获取网页HTML。 首先,我们需要导入Apache HttpClient库。在Android Studio中...
"jsp网页抓取天气预报源代码" 这个标题表明这是一个与Java Server Pages(JSP)相关的项目,目标是实现从网页上抓取天气预报信息的功能。JSP是一种动态网页技术,允许开发者在HTML页面中嵌入Java代码来处理服务器端...
标签 "软件/插件" 提示我们,这可能是某种软件应用程序,或者是浏览器插件,如Chrome或Firefox的扩展,用于集成到用户的日常浏览环境中,提供自动抓取网页源代码的服务。 在压缩包子文件的文件名称列表中,我们看到...
标题中的"C#抓取网页股票年报数据程序源代码"指的是一个使用C#编程语言开发的软件应用程序,其主要功能是从互联网上的网页中抓取股票年报的相关数据。在信息技术领域,这种程序通常被称为网络爬虫或者网页抓取工具,...
本资源“网站信息采集源代码.rar”提供了一套用于实现这一功能的源代码,可以帮助我们理解并学习如何编写自己的网络爬虫。 在网站信息采集过程中,首先我们需要明确目标,即确定要抓取的网站和具体的数据类型。这些...
在这个主题中,源代码是实现这些技术的关键部分,它允许读者或研究者理解算法的工作原理并进行定制化。 【ptwobrussell-Mining-the-Social-Web-a1118d8】看起来是一个与《Mining the Social Web》一书相关的项目...
获取网页源代码是网络爬虫、数据分析、网页抓取等任务的基础步骤。本工具专注于提供一个简单的方式,让用户通过输入URL地址就能便捷地获取到目标网页的源代码。 首先,我们需要理解URL(统一资源定位符)的作用。...
什么叫爬虫:简单的说就是你以后不需要再在网页上一条一条的复制了 其实他的主要服务对象是“搜索引擎”,比如:google、jack爱问、必应、雅虎中国、搜狗、搜搜、百度、中搜、有道 别名:蜘蛛、蚂蚁…… 一个IP对应...
首先,让我们了解一下如何在不同的浏览器中查看网页源代码。在大多数现代浏览器中,如Google Chrome、Firefox、Microsoft Edge或Safari,你可以通过以下步骤来查看源代码: 1. 打开你想要查看源代码的网页。 2. ...
我们可以通过分析网页源代码,找出视频链接的规律,然后利用Python的正则表达式和网络请求库来实现自动化下载。 1. **分析网页源代码**: - 首先,我们需要访问目标网页并查看其源代码。在这个例子中,网页地址是`...
关关采集器是一款在IT行业中广泛应用的数据抓取工具,其5.6版本的源代码公开,为开发者提供了一个宝贵的资源,使得他们有机会深入理解采集器的工作原理,并可以根据自身需求进行定制化修改。本文将主要围绕关关采集...
通过发送HTTP请求到服务器,抓取工具可以获得网页的HTML源代码。解析这些HTML代码是关键步骤,因为网页中的文本信息通常嵌套在标签之中。理解HTML语法,识别出如`<p>`(段落)、`<a>`(链接)等标签,可以帮助定位并...