java获取网页主信息之四:抽取信息块（转）

liuxinglanyue

浏览: 565353 次
性别:
来自: 杭州

最近访客更多访客>>

hui963966800

lhc98

guoshun0321

kidding87

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2011-02 ( 10)
2011-01 ( 22)
2010-12 ( 165)
更多存档...

博客分类：

主题爬虫

Java HTML

从已经建立完成的html树中抽取主信息。

package Source;   
  
public class ChooseBlock   
{   
    //构造方法,设置允许错误率   
    public ChooseBlock(double th)   
    {   
        threshold = th;   
    }   
    //获取一棵html树中的内容   
    public String getContent(HTree tree)   
    {   
        int maxIndex = 0;   
        String str = "";   
        String contBlock[] = tree.getBlock();   
        sizeBlock = getSizeBlock(contBlock);   
        int len = sizeBlock.length;   
        int aid[] = new int[len];   
        staBlock = new boolean[len];   
        iniStaBlock();   
        double val = calError();   
        //方差必须大于阈值,才认为有主要内容   
        if(val < threshold) return null;   
        int i = 0;   
        double max = 0.0;   
        do  
        {   
            //获得当前最可能的块   
            int index = getIndex();   
            aid[i] = index;   
            setBlock(index);   
            double tmp = val;   
            val = calError();   
            double err = tmp - val;   
            if(err > max)   
            {   
                max = err;   
                maxIndex = i;   
            }   
            if(err > val) break;   
            i++;   
        } while(true);   
        //选出来的块信息集合   
        for(i = 0; i <= maxIndex; i++)   
        {   
            int index = aid[i];   
            str = (new StringBuilder(String.valueOf(str))).append("\n").append(contBlock[index]).toString();   
        }   
        return str;   
    }   
  
    //获取每一信息块长度   
    private int[] getSizeBlock(String contBlock[])   
    {   
        int len = contBlock.length;   
        int sizeBlock[] = new int[len];   
        for(int i = 0; i < len; i++)   
            sizeBlock[i] = contBlock[i].length();   
        return sizeBlock;   
    }   
       
    //设置已被处理块   
    private void setBlock(int index)   
    {   
        staBlock[index] = true;   
    }   
       
    //初始化块   
    private void iniStaBlock()   
    {   
        int len = staBlock.length;   
        for(int i = 0; i < len; i++)   
            staBlock[i] = false;   
    }   
       
    //计算错误率,以方差记   
    private double calError()   
    {   
        int sum = 0;   
        int num = 0;   
        int len = sizeBlock.length;   
        //获得还未被选取块个数及其总长度   
        for(int i = 0; i < len; i++)   
            if(!staBlock[i])   
            {   
                num++;   
                sum += sizeBlock[i];   
            }   
        //定义还未被选取块平均长度   
        double avg = (double)sum / (1.0 * (double)num);   
        //计算方差   
        double err = 0.0;   
        for(int i = 0; i < len; i++)   
            if(!staBlock[i])   
            {   
                double val = (double)sizeBlock[i] - avg;   
                val *= val;   
                err += val;   
            }   
        //归一化   
        return Math.sqrt(err) / (1.0 * (double)num);   
    }   
       
    //获取最大未被选块的下标   
    private int getIndex()   
    {   
        int index = 0;   
        int max = 0;   
        int len = sizeBlock.length;   
        for(int i = 0; i < len; i++)   
            if(!staBlock[i] && sizeBlock[i] > max)   
            {   
                max = sizeBlock[i];   
                index = i;   
            }   
        return index;   
    }   
  
    private double threshold;   
    int sizeBlock[];   
    boolean staBlock[];   
}

分享到：

java获取网页主信息之五:测试（转） | java获取网页主信息之三:html to tree（转 ...

2010-12-04 21:08
浏览 1047
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java获取网页主信息之四:抽取信息块（转）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java获取网页主信息之四:抽取信息块（转）

评论

发表评论

相关推荐

真正属于主题爬虫的圈子

判断网页的编码（转）

java获取网页主信息之五:测试（转）

java获取网页主信息之三:html to tree（转）

java获取网页主信息之二:辅助操作（转）

java获取网页主信息之一:html树操作[转]

主题爬虫

数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律

数学之美系列二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

数学之美系列二十一 － 布隆过滤器（Bloom Filter）

数学之美 系列二十 －自然语言处理的教父 马库斯

数学之美 系列十九 － 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

数学之美 系列十八 － 矩阵运算和文本处理中的分类问题

数学之美 系列十七 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 （下）

数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作-弊问题(Search Engine Anti-SPAM)

数学之美 系列十六 （下）－ 不要把所有的鸡蛋放在一个篮子里 最大熵模型

数学之美 系列十五 繁与简 自然语言处理的几位精英

数学之美 十四 谈谈数学模型的重要性

数学之美 系列十三 信息指纹及其应用

数学之美 系列 12 - 余弦定理和新闻的分类

最近访客更多访客>>

数学之美系列二十三输入一个汉字需要敲多少个键 — 谈谈香农第一定律

数学之美系列二十二由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

数学之美系列二十一－布隆过滤器（Bloom Filter）

数学之美系列二十－自然语言处理的教父马库斯

数学之美系列十九－马尔可夫链的扩展贝叶斯网络 (Bayesian Networks)

数学之美系列十八－矩阵运算和文本处理中的分类问题

数学之美系列十七不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型（下）

数学之美系列十七闪光的不一定是金子谈谈搜索引擎作-弊问题(Search Engine Anti-SPAM)

数学之美系列十六（下）－不要把所有的鸡蛋放在一个篮子里　最大熵模型

数学之美系列十五繁与简自然语言处理的几位精英

数学之美十四谈谈数学模型的重要性

数学之美系列十三信息指纹及其应用

数学之美系列 12 - 余弦定理和新闻的分类