`

抓取网页中的源代码.

阅读更多

   首先在获取html页面的源代码之前..

   要准备Apache里面的两个包:

   htmllexer.jar

   htmlparser.jar

   有了这两个包方便,抓取网页中的源代码,抓取之后,生成一个txt文档..如果要获取里面的内容..就自己处理下就好了..

 

   具体代码如下:

 

package pack.java.url;
import java.io.File;
import java.io.FileOutputStream;
import org.htmlparser.Parser;   
import org.htmlparser.util.NodeList;
public class Test {   
    /**
     * 测试方法;
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception{   
        // TODO Auto-generated method stub 
        String url="http://www.baidu.com/";  
        //创建一个parser对象;
        Parser parser=new Parser(url);
        //设置字符编码格式;
        parser.setEncoding("gb2312");   
        NodeList list=parser.parse(null);   
        //输出;
        FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));
        outputStream.write(list.toHtml().getBytes());
    }   
}  

 

 

 

 

 

 

分享到:
评论

相关推荐

    VC 抓取指定网页的源代码.rar

    VC 抓取指定网页的源代码,抓取远程指定URL地址中包括的文件,并显示出网页源代码,实现了类似“采集”的功能,将远程网页的内容先读取出来,然后显示,由此可扩展成一个采集模块,添加过滤功能即可,要用到字符串...

    基于Python的网络爬虫之LOL贴吧批量信息抓取采集含源代码.rar

    标题中的“基于Python的网络爬虫之LOL贴吧批量信息抓取采集含源代码”表明了这个压缩包的内容是关于使用Python编程语言实现的一个网络爬虫项目,目标是抓取LOL(League of Legends,即英雄联盟)贴吧的大量信息。...

    用python编写的网页监控源代码.rar

    标题中的“用python编写的网页监控源代码”指的是一个使用Python编程语言开发的程序,它的主要功能是对指定的网页内容进行实时监控。这样的工具在数据分析、网站维护、爬虫项目等领域有着广泛的应用,例如监测竞争...

    VC++ 获取网页源代码.rar

    在给定的“VC++ 获取网页源代码.rar”压缩包中,我们可以推测它包含了一个或多个VC++项目或示例,这些项目或示例演示了如何利用VC++获取网页的源代码。这是一项基本但至关重要的技能,特别是在网络爬虫、数据分析和...

    计算机软件-商业源码-纯PB代码获取网页的源代码.zip

    描述部分与标题相同,"计算机软件-商业源码-纯PB代码获取网页的源代码.zip",这进一步强调了这个资源的核心内容——一段商业级的PureBasic代码,它的主要任务是从互联网上抓取网页的HTML源码。这可能是为了数据抓取...

    java抓取网页内容源代码

    ### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...

    VB网页分析源代码.rar

    《VB网页分析源代码》是针对网页数据抓取与解析的编程实践,主要采用Visual Basic (VB) 这一编程语言实现。VB是一种基于事件驱动的编程环境,尤其适合开发Windows应用程序,它提供了直观易用的界面设计工具和强大的...

    抓取网页源代码

    总的来说,抓取网页源代码是一项基础但关键的网络编程任务,它涉及网络协议、数据编码和错误处理等多个方面。通过实践和理解这样的程序,开发者可以进一步掌握网络通信的原理,并将其应用到更复杂的网络应用中,如...

    使用HttpClient获取网页html源代码.zip

    在这个名为"使用HttpClient获取网页html源代码.zip"的压缩包中,包含了一个简单的示例项目——WebDataShow,用于演示如何使用HttpClient获取网页HTML。 首先,我们需要导入Apache HttpClient库。在Android Studio中...

    jsp网页抓取天气预报源代码

    "jsp网页抓取天气预报源代码" 这个标题表明这是一个与Java Server Pages(JSP)相关的项目,目标是实现从网页上抓取天气预报信息的功能。JSP是一种动态网页技术,允许开发者在HTML页面中嵌入Java代码来处理服务器端...

    从今天起计算N天后的网页源代码.zip

    标签 "软件/插件" 提示我们,这可能是某种软件应用程序,或者是浏览器插件,如Chrome或Firefox的扩展,用于集成到用户的日常浏览环境中,提供自动抓取网页源代码的服务。 在压缩包子文件的文件名称列表中,我们看到...

    C#抓取网页股票年报数据程序源代码

    标题中的"C#抓取网页股票年报数据程序源代码"指的是一个使用C#编程语言开发的软件应用程序,其主要功能是从互联网上的网页中抓取股票年报的相关数据。在信息技术领域,这种程序通常被称为网络爬虫或者网页抓取工具,...

    网站信息采集源代码.rar

    本资源“网站信息采集源代码.rar”提供了一套用于实现这一功能的源代码,可以帮助我们理解并学习如何编写自己的网络爬虫。 在网站信息采集过程中,首先我们需要明确目标,即确定要抓取的网站和具体的数据类型。这些...

    [挖掘社交网络].源代码.zip

    在这个主题中,源代码是实现这些技术的关键部分,它允许读者或研究者理解算法的工作原理并进行定制化。 【ptwobrussell-Mining-the-Social-Web-a1118d8】看起来是一个与《Mining the Social Web》一书相关的项目...

    获取网页源代码

    获取网页源代码是网络爬虫、数据分析、网页抓取等任务的基础步骤。本工具专注于提供一个简单的方式,让用户通过输入URL地址就能便捷地获取到目标网页的源代码。 首先,我们需要理解URL(统一资源定位符)的作用。...

    基于Python的网络爬虫之LOL贴吧批量信息抓取采集含源代码.pdf

    什么叫爬虫:简单的说就是你以后不需要再在网页上一条一条的复制了 其实他的主要服务对象是“搜索引擎”,比如:google、jack爱问、必应、雅虎中国、搜狗、搜搜、百度、中搜、有道 别名:蜘蛛、蚂蚁…… 一个IP对应...

    查看网页源代码查看网页源代码

    首先,让我们了解一下如何在不同的浏览器中查看网页源代码。在大多数现代浏览器中,如Google Chrome、Firefox、Microsoft Edge或Safari,你可以通过以下步骤来查看源代码: 1. 打开你想要查看源代码的网页。 2. ...

    【Python爬虫】批量抓取网页上的视频.docx.pdf

    我们可以通过分析网页源代码,找出视频链接的规律,然后利用Python的正则表达式和网络请求库来实现自动化下载。 1. **分析网页源代码**: - 首先,我们需要访问目标网页并查看其源代码。在这个例子中,网页地址是`...

    guanguan5.6源代码.rar_关关_关关5.6_关关5.6源代码_关关源代码_关关采集

    关关采集器是一款在IT行业中广泛应用的数据抓取工具,其5.6版本的源代码公开,为开发者提供了一个宝贵的资源,使得他们有机会深入理解采集器的工作原理,并可以根据自身需求进行定制化修改。本文将主要围绕关关采集...

    网页文字抓取工具...

    通过发送HTTP请求到服务器,抓取工具可以获得网页的HTML源代码。解析这些HTML代码是关键步骤,因为网页中的文本信息通常嵌套在标签之中。理解HTML语法,识别出如`<p>`(段落)、`<a>`(链接)等标签,可以帮助定位并...

Global site tag (gtag.js) - Google Analytics