java获取网页主信息之五:测试（转）

liuxinglanyue

浏览: 565152 次
性别:
来自: 杭州

最近访客更多访客>>

hui963966800

lhc98

guoshun0321

kidding87

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2011-02 ( 10)
2011-01 ( 22)
2010-12 ( 165)
更多存档...

博客分类：

主题爬虫

Java F#HTML

1.所需文件

param.txt:存放需要提取信息的网页路径
TestPage:存放需要提取信息的网页
Out.txt:输出的网页内容

2.测试程序

package test;   
  
import java.io.*;   
import Source.*;   
  
//提取页面主要信息测试   
public class ETest{   
  
    public static void main(String args[])   
    {   
        //输出文件   
        String out = "out.txt";   
        File outfile = new File(out);   
        //建立html树   
        HTML2Tree h2t = new HTML2Tree();   
        String file = getFilename();   
        h2t.main(file);   
        HTree tree = h2t.getTree();   
        //允许标准差   
        double th = 0.79;   
        //选择主要信息块   
        ChooseBlock cb = new ChooseBlock(th);   
        //输出主要信息   
        String str = cb.getContent(tree);   
        if(str == null)   
        {   
            System.out.println("文件为空");   
            System.exit(1);   
        }   
        try  
        {   
            PrintWriter p = new PrintWriter(new BufferedWriter(new FileWriter(outfile)));   
            p.println(str);   
            p.close();   
        }   
        catch(IOException e)   
        {   
            System.out.println(e);   
            System.exit(1);   
        }   
    }   
    //获取要提取的网页文件名   
    private static String getFilename()   
    {   
        String file = "";   
        try  
        {   
            File f = new File("param.txt");   
            BufferedReader fis = new BufferedReader(new FileReader(f));   
            String s;   
            while((s = fis.readLine()) != null)    
            if(!s.equalsIgnoreCase(""))   
            {   
                 file = s;   
                 break;   
            }   
        }   
        catch(IOException e)   
        {   
            System.out.println(e);   
            System.exit(1);   
        }   
        return file;   
    }   
}

分享到：

判断网页的编码（转） | java获取网页主信息之四:抽取信息块（转）

2010-12-04 21:09
浏览 929
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java获取网页主信息之五:测试（转）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java获取网页主信息之五:测试（转）

评论

发表评论

相关推荐

真正属于主题爬虫的圈子

判断网页的编码（转）

java获取网页主信息之四:抽取信息块（转）

java获取网页主信息之三:html to tree（转）

java获取网页主信息之二:辅助操作（转）

java获取网页主信息之一:html树操作[转]

主题爬虫

数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律

数学之美系列二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

数学之美系列二十一 － 布隆过滤器（Bloom Filter）

数学之美 系列二十 －自然语言处理的教父 马库斯

数学之美 系列十九 － 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

数学之美 系列十八 － 矩阵运算和文本处理中的分类问题

数学之美 系列十七 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 （下）

数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作-弊问题(Search Engine Anti-SPAM)

数学之美 系列十六 （下）－ 不要把所有的鸡蛋放在一个篮子里 最大熵模型

数学之美 系列十五 繁与简 自然语言处理的几位精英

数学之美 十四 谈谈数学模型的重要性

数学之美 系列十三 信息指纹及其应用

数学之美 系列 12 - 余弦定理和新闻的分类

最近访客更多访客>>

数学之美系列二十三输入一个汉字需要敲多少个键 — 谈谈香农第一定律

数学之美系列二十二由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

数学之美系列二十一－布隆过滤器（Bloom Filter）

数学之美系列二十－自然语言处理的教父马库斯

数学之美系列十九－马尔可夫链的扩展贝叶斯网络 (Bayesian Networks)

数学之美系列十八－矩阵运算和文本处理中的分类问题

数学之美系列十七不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型（下）

数学之美系列十七闪光的不一定是金子谈谈搜索引擎作-弊问题(Search Engine Anti-SPAM)

数学之美系列十六（下）－不要把所有的鸡蛋放在一个篮子里　最大熵模型

数学之美系列十五繁与简自然语言处理的几位精英

数学之美十四谈谈数学模型的重要性

数学之美系列十三信息指纹及其应用

数学之美系列 12 - 余弦定理和新闻的分类