`
ysong_summer
  • 浏览: 16820 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

html页面抓取

阅读更多
public class Test001 {  
    List<String> rsList = new ArrayList<String>();  
    private Test001() {  
        try {  
            loadHtml();  
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
    }  
 
    private void loadHtml() throws IOException {  
        // 定义一个url类的实例。  
        URL url = new URL("http://top.baidu.com/buzz/top10.html");  
        // 以特定格式读取文件流。  
        InputStreamReader isr = new InputStreamReader(url.openStream(),  
                "gb2312");  
        BufferedReader br = new BufferedReader(isr);  
        String s;  
 
        boolean beginFind = false;  
        while (null != (s = br.readLine())) {  
            if ("<tbody id=\"listdata\">".equals(s.trim())) {  
                beginFind = true;  
            } else if ("</tbody>".equals(s.trim())) {  
                break;  
            }  
 
            if (beginFind) {  
                if(s.trim().startsWith("<td><a")){  
                    rsList.add(findContent(s.trim()));  
                }  
            }  
        }  
          
        for (int i = 0; i < rsList.size(); i++) {  
            System.out.println(rsList.get(i));  
        }  
    }  
 
    public String findContent(String html) {  
        // 配置html标记。  
        Pattern p = Pattern.compile("<(\\S*?)[^>]*>.*?| <.*? />");  
        Matcher m = p.matcher(html);  
 
        String rs = new String(html);  
        // 找出所有html标记。  
        while (m.find()) {  
            // 删除html标记。  
            rs = rs.replace(m.group(), "");  
        }  
        return rs;  
    }  
 
    public static void main(String[] args) throws IOException {  
        new Test001();  
    }  

分享到:
评论

相关推荐

    Python实现抓取HTML网页并以PDF文件形式保存的方法

    总的来说,通过结合`requests`、`beautifulsoup4`、`pdfkit`和`PyPDF2`,我们可以轻松地实现从HTML网页抓取内容并保存为PDF的功能,这对于数据分析、文档整理或者自动化报告生成等场景都非常实用。

    网页Html抓取爬虫测试工具

    在网页抓取过程中,HTML抓取是最基础的步骤。HTML(HyperText Markup Language)是构成网页的主要标记语言,它包含了各种标签来定义页面结构和内容。抓取HTML数据通常是为了获取网页上的有用信息,如文章内容、产品...

    html网页内容抓取

    对于“GetHtml”,这可能是你提供的压缩包中的一个文件或者工具,它可能是一个用于获取HTML页面的函数或者脚本。在Python中,可以使用`requests`库获取网页的HTML源码,然后使用BeautifulSoup解析这个源码,如下所示...

    htmlparser实现从网页上抓取数据

    - `HtmlPage(Parser parser)`:代表一个HTML页面,提供了许多方便的方法来操作页面内容。 4. **页面内容操作**: - `NodeList getBody()`:获取页面的主体部分。 - `TableTag getTables()`:获取页面中的表格。 ...

    静态页面抓取工具

    在IT行业中,网页抓取是一项重要的技术,它用于自动化地从互联网上收集信息。静态页面抓取工具就是专为此目的设计的软件,它们能够高效地下载并存储网站的静态HTML内容,以便离线查看或者进一步的数据分析。本篇文章...

    网页抓取小工具

    网页抓取的核心原理在于模拟浏览器的行为,发送HTTP请求到服务器,并接收服务器返回的HTML或其他格式的网页内容。这个过程中,我们通常会关注以下几个关键知识点: 1. **HTTP协议**:HTTP(超文本传输协议)是...

    java网页抓取demo

    Java网页抓取是一种技术,主要用于从互联网上自动提取或获取数据。这个"java网页抓取demo"项目提供了实现这一功能的实例代码。项目中的jar包是实现网页抓取的关键依赖库,包括Apache Commons Logging和HTTP Client。...

    c# 网页抓取分析 表格图形生成

    总的来说,C#网页抓取分析涉及了网络编程、HTML解析、数据处理、表格生成和图形化展示等多个方面,这些技术在大数据分析、市场研究、新闻监控等领域有着广泛应用。通过学习和掌握这些技能,开发者能够构建强大的数据...

    网页抓取教程.zip

    网页抓取,也被称为网络爬虫或数据抓取,是一种自动化技术,用于从互联网上收集大量信息。在Java EE和Android开发中,网页抓取是一个重要技能,可以帮助开发者获取网站上的结构化数据,如新闻、产品信息、评论等,...

    java网页抓取数据

    网页抓取,也称为网络爬虫或网页蜘蛛,是一种自动化程序,它按照一定的规则遍历互联网上的页面,提取所需的数据。这个过程涉及HTTP协议的理解,因为大部分网页都是通过HTTP或HTTPS协议传输的。 Java中的HTTP客户端...

    网页抓取例子

    这可能是一个Java服务器页面(JSP)文件,用于展示如何在Java环境中进行网页抓取。JSP是创建动态Web内容的一种方式,通常与Servlet一起使用,可以嵌入Java代码来处理HTTP请求并生成HTML响应。 以下是对网页抓取及其...

    asp.net 网页抓取技术

    在ASP.NET框架下,网页抓取主要涉及HTTP请求、HTML解析和数据提取等核心概念。本文将深入探讨这些知识点,并通过实例来演示如何在ASP.NET中实现网页抓取。 首先,HTTP请求是网页抓取的基础。在ASP.NET中,可以使用`...

    蜘蛛程序,最基本的网页抓取和html解析实力

    网页抓取和HTML解析是网络数据获取的重要技术,尤其在信息挖掘、数据分析和搜索引擎优化等领域广泛应用。本项目“蜘蛛程序”使用C#语言实现,具备基础的网页抓取和HTML解析功能,能够自动访问指定的网页,并从中提取...

    实用的网页抓取工具

    NULL 博文链接:https://zhousheng193.iteye.com/blog/1096241

    c#网页抓取

    在网页抓取中,我们通常使用它的`DownloadString`方法来获取HTML源码。例如: ```csharp using System.Net; WebClient client = new WebClient(); string htmlSource = client.DownloadString(...

    C++实现网页抓取

    网页抓取通常是通过发送HTTP请求到目标服务器,然后解析返回的HTML或XML文档来实现的。在这个过程中,我们通常会用到HTTP库来构建和发送请求,以及HTML解析库来处理返回的网页内容。 在C++中,我们可以使用如...

    网页抓取软件(-------)

    网页抓取,也被称为网络爬虫或数据抓取,是一种自动化技术,用于从互联网上大量收集和处理数据。这项技术通常被数据分析师、研究人员、市场营销人员以及网站管理员用来获取特定类型的信息,例如市场趋势、用户行为...

    蓝蜘蛛网页抓取

    网页抓取,也称为网络爬虫或网页蜘蛛,是通过自动化程序遍历互联网上的页面,抓取并存储网页内容的过程。这一过程通常涉及HTTP协议的使用,通过发送请求到服务器获取响应,进而解析网页HTML代码,提取目标数据。 ...

    Java实现网页抓取

    在IT行业中,网页抓取是一项基础且重要的技能,它允许我们自动地从互联网上获取大量信息,进行数据分析、搜索引擎优化、市场研究等用途。在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页...

Global site tag (gtag.js) - Google Analytics