html页面抓取 - - ITeye博客

`

ysong_summer

浏览: 16837 次
性别:
来自: 深圳

最近访客更多访客>>

sea_wave2011

u011710489

woodding2008

dannyhz

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

ms143014： open in explorer + easy explore ...
eclipse插件之Easy Explorer (打开在eclipse中选定文件所在的目录。)
chenhailong：很好我知道的这个插件真的很强大。。。他们都不知道哈哈 ...
eclipse插件之Easy Explorer (打开在eclipse中选定文件所在的目录。)
buyajun： swt Designer 有没有安装程序，也发上来吧。我公 ...
eclipse插件swtDesigner的注册码,java反编译工具(有使用说明图示),灵格斯免安装版本,JAVA面试宝典
qq123zhz：大哥你的是ibatis2的。。
jquery中文api,iBatis_API

html页面抓取

阅读更多

public class Test001 {
    List<String> rsList = new ArrayList<String>();
    private Test001() {
        try {
            loadHtml();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private void loadHtml() throws IOException {
        // 定义一个url类的实例。
        URL url = new URL("http://top.baidu.com/buzz/top10.html");
        // 以特定格式读取文件流。
        InputStreamReader isr = new InputStreamReader(url.openStream(),
                "gb2312");
        BufferedReader br = new BufferedReader(isr);
        String s;

        boolean beginFind = false;
        while (null != (s = br.readLine())) {
            if ("<tbody id=\"listdata\">".equals(s.trim())) {
                beginFind = true;
            } else if ("</tbody>".equals(s.trim())) {
                break;
            }

            if (beginFind) {
                if(s.trim().startsWith("<td><a")){
                    rsList.add(findContent(s.trim()));
                }
            }
        }

        for (int i = 0; i < rsList.size(); i++) {
            System.out.println(rsList.get(i));
        }
    }

    public String findContent(String html) {
        // 配置html标记。
        Pattern p = Pattern.compile("<(\\S*?)[^>]*>.*?| <.*? />");
        Matcher m = p.matcher(html);

        String rs = new String(html);
        // 找出所有html标记。
        while (m.find()) {
            // 删除html标记。
            rs = rs.replace(m.group(), "");
        }
        return rs;
    }

    public static void main(String[] args) throws IOException {
        new Test001();
    }
}

分享到：

eclipse插件之Easy Explorer (打开在ecli ... | eclipse的代码生成器slave4j(源码和插件项 ...

2010-07-28 18:12
浏览 683
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python实现抓取HTML网页并以PDF文件形式保存的方法: 总的来说，通过结合`requests`、`beautifulsoup4`、`pdfkit`和`PyPDF2`，我们可以轻松地实现从HTML网页抓取内容并保存为PDF的功能，这对于数据分析、文档整理或者自动化报告生成等场景都非常实用。

网页Html抓取爬虫测试工具: 在网页抓取过程中，HTML抓取是最基础的步骤。HTML（HyperText Markup Language）是构成网页的主要标记语言，它包含了各种标签来定义页面结构和内容。抓取HTML数据通常是为了获取网页上的有用信息，如文章内容、产品...

html网页内容抓取: 对于“GetHtml”，这可能是你提供的压缩包中的一个文件或者工具，它可能是一个用于获取HTML页面的函数或者脚本。在Python中，可以使用`requests`库获取网页的HTML源码，然后使用BeautifulSoup解析这个源码，如下所示...

htmlparser实现从网页上抓取数据: - `HtmlPage(Parser parser)`：代表一个HTML页面，提供了许多方便的方法来操作页面内容。 4. **页面内容操作**： - `NodeList getBody()`：获取页面的主体部分。 - `TableTag getTables()`：获取页面中的表格。 ...

静态页面抓取工具: 在IT行业中，网页抓取是一项重要的技术，它用于自动化地从互联网上收集信息。静态页面抓取工具就是专为此目的设计的软件，它们能够高效地下载并存储网站的静态HTML内容，以便离线查看或者进一步的数据分析。本篇文章...

网页抓取小工具: 网页抓取的核心原理在于模拟浏览器的行为，发送HTTP请求到服务器，并接收服务器返回的HTML或其他格式的网页内容。这个过程中，我们通常会关注以下几个关键知识点： 1. **HTTP协议**：HTTP（超文本传输协议）是...

java网页抓取demo: Java网页抓取是一种技术，主要用于从互联网上自动提取或获取数据。这个"java网页抓取demo"项目提供了实现这一功能的实例代码。项目中的jar包是实现网页抓取的关键依赖库，包括Apache Commons Logging和HTTP Client。...

c# 网页抓取分析表格图形生成: 总的来说，C#网页抓取分析涉及了网络编程、HTML解析、数据处理、表格生成和图形化展示等多个方面，这些技术在大数据分析、市场研究、新闻监控等领域有着广泛应用。通过学习和掌握这些技能，开发者能够构建强大的数据...

网页抓取教程.zip: 网页抓取，也被称为网络爬虫或数据抓取，是一种自动化技术，用于从互联网上收集大量信息。在Java EE和Android开发中，网页抓取是一个重要技能，可以帮助开发者获取网站上的结构化数据，如新闻、产品信息、评论等，...

java网页抓取数据: 网页抓取，也称为网络爬虫或网页蜘蛛，是一种自动化程序，它按照一定的规则遍历互联网上的页面，提取所需的数据。这个过程涉及HTTP协议的理解，因为大部分网页都是通过HTTP或HTTPS协议传输的。 Java中的HTTP客户端...

网页抓取例子: 这可能是一个Java服务器页面（JSP）文件，用于展示如何在Java环境中进行网页抓取。JSP是创建动态Web内容的一种方式，通常与Servlet一起使用，可以嵌入Java代码来处理HTTP请求并生成HTML响应。以下是对网页抓取及其...

asp.net 网页抓取技术: 在ASP.NET框架下，网页抓取主要涉及HTTP请求、HTML解析和数据提取等核心概念。本文将深入探讨这些知识点，并通过实例来演示如何在ASP.NET中实现网页抓取。首先，HTTP请求是网页抓取的基础。在ASP.NET中，可以使用`...

蜘蛛程序，最基本的网页抓取和html解析实力: 网页抓取和HTML解析是网络数据获取的重要技术，尤其在信息挖掘、数据分析和搜索引擎优化等领域广泛应用。本项目“蜘蛛程序”使用C#语言实现，具备基础的网页抓取和HTML解析功能，能够自动访问指定的网页，并从中提取...

实用的网页抓取工具: NULL 博文链接：https://zhousheng193.iteye.com/blog/1096241

c#网页抓取: 在网页抓取中，我们通常使用它的`DownloadString`方法来获取HTML源码。例如： ```csharp using System.Net; WebClient client = new WebClient(); string htmlSource = client.DownloadString(...

C++实现网页抓取: 网页抓取通常是通过发送HTTP请求到目标服务器，然后解析返回的HTML或XML文档来实现的。在这个过程中，我们通常会用到HTTP库来构建和发送请求，以及HTML解析库来处理返回的网页内容。在C++中，我们可以使用如...

网页抓取软件(-------): 网页抓取，也被称为网络爬虫或数据抓取，是一种自动化技术，用于从互联网上大量收集和处理数据。这项技术通常被数据分析师、研究人员、市场营销人员以及网站管理员用来获取特定类型的信息，例如市场趋势、用户行为...

蓝蜘蛛网页抓取: 网页抓取，也称为网络爬虫或网页蜘蛛，是通过自动化程序遍历互联网上的页面，抓取并存储网页内容的过程。这一过程通常涉及HTTP协议的使用，通过发送请求到服务器获取响应，进而解析网页HTML代码，提取目标数据。 ...

Java实现网页抓取: 在IT行业中，网页抓取是一项基础且重要的技能，它允许我们自动地从互联网上获取大量信息，进行数据分析、搜索引擎优化、市场研究等用途。在这个Java实现网页抓取的项目中，我们将探讨如何利用Java编程语言来抓取网页...

Global site tag (gtag.js) - Google Analytics