`
andrew.yulong
  • 浏览: 169866 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

抓取网页中指定节点的内容(java版本)

    博客分类:
  • java
阅读更多
package atest;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.*;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.*;

import com.jdon.controller.events.EventModel;

import cn.vetech.framework.base.dao.B_class_dao;
import cn.vetech.framework.base.dao.B_class_dao_sql;
import cn.vetech.framework.dao.SqlMapDaoTemplateFactory;
import cn.vetech.framework.news.dao.B_news_dao;
import cn.vetech.framework.news.dao.B_news_dao_sql;
import cn.vetech.framework.news.model.B_news;
import cn.vetech.framework.news.service.B_news_service;
import cn.vetech.framework.news.service.B_news_service_imp;
import cn.vetech.framework.util.VeDate;

/** *//**
 * 抓取中华培训网规则 1.抓取chinahtml/zixunzhongxin目录下的文件
 * 说明:循环网址下所有链接,根据一定规则过滤掉一部分链接,读出页面指定节点下的内容
 * 
@author sam.zhang
 * 
 
*/

public class TestParser ...{
    
private B_news_dao b_news_dao;

    
private B_class_dao b_class_dao;

    
private B_news_service b_news_service;

    
private String TRAINING_URL = "http://www.china-training.com"// 中华培训网网址

    
private static String TRAINING_ZXURL = "http://www.china-training.com/newpage/zxzx.asp"// 中华培训网资讯根网址

    
private String FILEPATH = "chinahtml"// 中华培训网放置新闻的根文件夹名

    
private String ZXZX = "zixunzhongxin"// 存放资讯中心的目录

    
public TestParser() ...{

        SqlMapDaoTemplateFactory sqldao 
= new SqlMapDaoTemplateFactory();

        b_news_dao 
= new B_news_dao_sql(sqldao);

        b_class_dao 
= new B_class_dao_sql(sqldao);

        b_news_service 
= new B_news_service_imp(b_news_dao, b_class_dao, null,
                
null);

    }


    
/** *//**
     * 得到指定网址下所有链接
     * 
     * 
@param url
     
*/

    
public void getAllUrls(String url) ...{
        NodeList nodeList 
= null;
        
try ...{
            Parser p 
= new Parser(url);
            
// nodeList = p.parse(new TagNameFilter( "A ")); // 使用TagNameFilter(两种写法都可以)
            nodeList = p.parse(new NodeClassFilter(LinkTag.class)); // 使用NodeClassFilter
        }
 catch (ParserException e) ...{
            e.printStackTrace();
        }

        
if (nodeList != null && nodeList.size() > 0...{
            
for (int i = 0; i < nodeList.size(); i++...{
                String u 
= ((LinkTag) nodeList.elementAt(i)).getLink()
                        .toString();
                
if (isIndesOf(u) != -1...{
                    
int num = ((LinkTag) nodeList.elementAt(i)).getLink()
                            .toString().split(
"/").length;
                    
if (num > 2...{
                        String str_1 
= ((LinkTag) nodeList.elementAt(i))
                                .getLink().toString().split(
"/")[1];
                        String str_2 
= ((LinkTag) nodeList.elementAt(i))
                                .getLink().toString().split(
"/")[2];
                        
if (str_1 != "" && str_2 != ""
                                
&& FILEPATH.equals(str_1) && ZXZX.equals(str_2)) ...{
                            String str_utl 
= ((LinkTag) nodeList.elementAt(i))
                                    .getLink().toString();
                            str_utl 
= TRAINING_URL + str_utl;
                            run(str_utl);
                        }

                    }

                }

            }

        }

    }


    
/** *//**
     * 得到根网址的实际内容
     * 
     * 
@param str
     
*/

    
public static void run(String str) ...{
        
try ...{
            NodeList nodelist;
            Parser parser 
= new Parser(str);                           //主要对象(传入网址)
            NodeFilter divFilter = new NodeClassFilter(Div.class);    //创建一个div对象
            OrFilter lastFilter = new OrFilter();
            lastFilter.setPredicates(
new NodeFilter[] ...{ divFilter });
            nodelist 
= parser.parse(lastFilter);
            Node[] nodes 
= nodelist.toNodeArray();
            String line 
= "";
            String title 
= ""// 标题
            String content = ""// 内容
            String source = ""// 来源
            for (int i = 0; i < nodes.length; i++...{
                Node node 
= nodes[i];
                
if (node instanceof Div) ...{
                    Div textnode 
= (Div) node;
                    line 
= textnode.getAttribute("id");
                    
if ("news_title".equals(line)) ...{
                        
// ...得到新闻标题(纯文本)
                        title = textnode.toPlainTextString();
                    }

                    
// ...得到文章正文(源码)
                    if ("news_content".equals(line)) ...{
                        content 
= textnode.getStringText();
                    }

                    
// ...得到文章来源(纯文本)
                    if ("news_date".equals(line)) ...{
                        source 
= isTrim(textnode.toPlainTextString());
                        
if (isIndesOfSource(source) != -1...{
                            source 
= isTrimSource(source.split("")[1]);
                            
if
分享到:
评论

相关推荐

    java调用OPC获取点位数据

    在Java中使用utgard库调用OPC服务时,首先需要添加utgard的jar包到项目类路径中。这个过程可以通过Maven或Gradle等构建工具完成,或者手动将jar包复制到项目的lib目录下。然后,可以按照以下步骤编写代码: 1. 引入...

    java利用url实现网页内容的抓取

    Java语言提供了丰富的库来实现网页内容的抓取,其中URL(Uniform Resource Locator)类是Java标准库中的核心组件,用于处理网络资源的访问。本文将详细介绍如何利用Java的URL类来实现网页内容的抓取。 首先,我们...

    htmlparser实现从网页上抓取数据(+例子)

    在这个例子中,我们使用DOM解析XML文件,查找并打印出所有指定标签名的元素及其内容。 总结起来,HTMLParser和Java的XML解析库提供了一种强大的工具,用于从HTML和XML文档中提取数据。HTMLParser通过事件驱动的方式...

    htmlparser实现从网页上抓取数据doc

    在提供的代码示例中,`ScrubSelectedWeb` 类展示了如何使用HTMLParser库来从指定的URL抓取网页内容并将其保存到本地文件。以下是一些关键点的详细说明: 1. **URL对象**:首先创建一个`URL`对象,它代表要抓取的...

    htmlparser进行网页信息的抽取

    HTMLParser 是一个强大的Java库,专门用于解析HTML文档并从中提取信息。...在给定的示例中,`WrapperComment` 类展示了如何结合多种过滤器从HTML文档中提取特定表格内容,这种方法可以灵活应用于各种网页抓取场景。

    java静态网页

    - Servlet是Java中用于处理HTTP请求的类,它是Java Web应用程序的核心部分。在本例中,`ToHtml` 类继承自 `HttpServlet`,并重写了 `service` 方法来处理请求和响应。 2. **动态网页静态化**: - 动态网页静态化...

    Java代码检查工具PMD

    该工具可以做到检查Java代码中是否含有未使用的变量、是否含有空的抓取块、是否含有不必要的对象等。该软件功能强大,扫描效率高,是Java程序员debug的好帮手。  它可以为您检查Java代码中存在的如下问题:  1、...

    java 解析 html

    在Java编程领域,解析HTML是一项常见的任务,尤其在数据抓取、网页自动化或者信息提取等应用场景中。HTML(HyperText Markup Language)是用于构建网页的标准标记语言,而Java提供了多种库来帮助开发者处理和解析...

    java 爬虫源码

    在这个Java实现的爬虫中,采用的是广度优先搜索(Breadth-First Search, BFS)策略,这是一种常见的网页抓取方法。 广度优先策略是从起点开始,先访问所有与其相邻的节点,然后再访问这些节点的相邻节点,以此类推...

    jsoup网页分析jar包

    这使得开发者能够通过DOM节点遍历、搜索和修改网页内容。 2. **CSS选择器**:Jsoup支持CSS选择器,允许开发者用简洁的方式来选取HTML元素。例如,`doc.select("p")` 可以选取所有的段落元素,而 `doc.select("....

    使用Jsoup库解析HTML、XML或URL链接中的DOM节点

    **Jsoup库解析HTML、XML或URL链接中的DOM...总之,Jsoup作为Java中处理HTML和XML的强大工具,能够简化数据提取和DOM操作。无论你是要从网页抓取信息,还是需要清洗和格式化HTML,Jsoup都能提供高效且易用的解决方案。

    超详细注释基于BlogJava主页的java爬虫程序

    本项目是一个针对BlogJava(一个知名的Java技术交流平台)的爬虫程序,通过深度遍历和广度遍历算法,能有效地抓取近7万篇博客文章,为研究或分析该平台上的Java技术趋势提供数据支持。 首先,我们来了解一下爬虫的...

    java 网络爬虫源码

    【标题】"Java网络爬虫源码"是一个关于使用JAVA编程语言开发的简易网络爬虫项目,它设计用于抓取特定网站的新闻内容。通过这个项目,开发者可以学习到如何利用Java来实现网页数据的自动化抓取,进一步理解网络爬虫的...

    GatherPlatform数据抓取平台

    GatherPlatform利用Webmagic的这些特性,实现了对网页内容的高效抓取,并提供了友好的用户界面,让用户可以自定义爬取规则,如指定起始URL、设置爬取深度、筛选特定元素等。 在GatherPlatform的**任务配置** 界面,...

    javajsp中使用HTMLParser

    在Java和JSP开发中,有时我们需要处理HTML文档,例如抓取网页数据、解析DOM结构或者提取特定信息。这时,HTMLParser就成为一个非常实用的工具。HTMLParser是一个开源的Java库,专门设计用来解析HTML文档,它允许...

    java生存静态页面

    在Java中,处理静态页面主要有以下几种方式: 1. **Servlet容器内置服务**:大多数Java Web应用是基于Servlet容器(如Tomcat、Jetty)运行的。这些容器通常具备内置的静态资源服务功能。当客户端请求一个静态资源时...

    hadoop中实现java网络爬虫(示例讲解)

    最后,更新`core-site.xml`,指定HDFS的名称节点为`localhost:9000`。 3. **格式化HDFS并启动Hadoop** 在Cygwin中,进入Hadoop的`bin`目录,使用`hadoop namenode -format`命令对HDFS进行格式化。然后,启动Hadoop...

Global site tag (gtag.js) - Google Analytics