`

分词去停用词词频统计

阅读更多
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import ICTCLAS.I3S.AC.ICTCLAS50;
/**
* 分词去停用词后词频统计(设定阈值,去掉低频值)
* @author Administrator
*
*/
public class Tongji1 {

static String[] stopWords=new String[636];//停用词个数
public static void loadStop() throws IOException {
//ArrayList stopwords=new ArrayList();//存放词语
        BufferedReader fr = new BufferedReader(new InputStreamReader(new FileInputStream(".\\Data\\stopwords_utf8.txt"),"utf-8"));
        String word=null;
        int count=0;
        word=fr.readLine();
        while(word!=null){
        //stopwords.add(word);
        stopWords[count]=word;
        count++;
        word=fr.readLine();
        }//省去每次加载停用词
}
public static String removeAll(String str){//去除停用等,同时去除词性标注
String RAll="";
String[] allWords = str.split(" ");
for(int i=0;i<allWords.length;i++){
int pos = allWords[i].lastIndexOf("/");
String temp="";
if(pos>0)
temp=allWords[i].substring(0,pos).trim();
if(temp.equals(" ")||temp.equals(" ")||temp.equals(""))
;
else
RAll=RAll+temp+" ";
}
return RAll;
}
public static String removeW(String str){//去除标点符号
String removeW="";
String[] allWords = str.split(" ");
for(int k=0;k<allWords.length;k++){
        int pos = allWords[k].lastIndexOf("/");
        if(pos>0){
            String temp2=allWords[k].substring(pos+1,pos+2);//词性标注
        if(temp2.equals("w")||temp2.equals(""))//w标点  或者为空     
        ;
        else
    removeW=removeW+allWords[k]+" ";
        }
        }
return removeW;
}
public static String removeStop(String str){//去除停用等,但是保留词性标注
String afterStop="";
boolean flag=true;
String[] allWords = str.split(" ");
for(int k=0;k<allWords.length;k++){
        int pos = allWords[k].lastIndexOf("/");
        int n;
        if(pos>0){
            String temp1=allWords[k].substring(0, pos);//中文不包括词性标注
            String temp2=allWords[k].substring(pos+1,pos+2);//词性标注
            flag=true;
        if(temp2.equals(" ")||temp2.equals("t")||temp1.equals("")||temp1.equals(" ")||temp2.equals("s")||temp2.equals("z")
        ||temp2.equals("d")||temp2.equals("p")||temp2.equals("c")||temp2.equals("u")||temp2.equals("e")||temp2.equals("y")
        ||temp2.equals("o")||temp2.equals("h")||temp2.equals("k")||temp2.equals("m")||temp2.equals("x")||temp2.equals("q")){
        //t时间词,s处所词,z状态词,d副词,p介词,c连词,u助词,e叹词,y语气词,o拟声词,h前缀,k后缀,m数词,q量词,x英语等字符串
        flag=false;
    }else
    for(n=0;n<stopWords.length;n++){        
    if(temp1.equals(stopWords[n])){//去除停用词
    flag=false;
    break;
    }
    }
    if(flag)
        afterStop=afterStop+allWords[k]+" ";
        }
        }
return afterStop;
}
public static void testICTCLAS_FileProcess(String inDirectory,String OutDirectory)
{
try
{
ICTCLAS50 testICTCLAS50 = new ICTCLAS50();
//分词所需库的路径
String argu = ".";
//初始化
if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("gb2312")) == false)
{
System.out.println("Init Fail!");
return;
}
testICTCLAS50.ICTCLAS_SetPOSmap(2);
// String OutDirectory="D:\\trian\\";
//         String inDirectory="D:\\articals\\";
//         File dirOut = new File(OutDirectory);
//         File fileOut[] = dirOut.listFiles();
//         for (int i = 0; i < fileOut.length; i++) {//先删除所有输出目录中的文件
//         if(fileOut[i].isFile())
//         fileOut[i].delete();
//         System.out.println("删除了"+fileOut[i].getName());
//         }
        String usrdir = "userdict.txt"; //用户字典路径
byte[] usrdirb = usrdir.getBytes();//将string转化为byte类型
//第一个参数为用户字典路径,第二个参数为用户字典的编码类型(0:type unknown;1:ASCII码;2:GB2312,GBK,GB10380;3:UTF-8;4:BIG5)
int nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 2);//导入用户字典,返回导入用户词语个数
System.out.println(nCount+"个自定义词…………");
        File dirIn= new File(inDirectory);
        File fileIn[] = dirIn.listFiles();
        for (int i = 0; i < fileIn.length; i++) {
        String Inputfilename=fileIn[i].getPath();
byte[] Inputfilenameb = Inputfilename.getBytes();//将文件名string类型转为byte类型
//分词处理后输出文件名
String Outputfilename =OutDirectory+fileIn[i].getName();
byte[] Outputfilenameb = Outputfilename.getBytes();//将文件名string类型转为byte类型
//文件分词(第一个参数为输入文件的名,第二个参数为文件编码类型,第三个参数为是否标记词性集1 yes,0 no,第四个参数为输出文件名)
if(testICTCLAS50.ICTCLAS_FileProcess(Inputfilenameb, 0, 1, Outputfilenameb)==false){
System.out.println(fileIn[i].getPath()+"没有分词…………");
}
else
System.out.println(fileIn[i].getPath()+"分词成功,这是第"+i+"个文档");
        }
      //保存用户字典
testICTCLAS50.ICTCLAS_SaveTheUsrDic();
//释放分词组件资源
testICTCLAS50.ICTCLAS_Exit();
}
catch (Exception ex)
{
}
}

public static HashMap<String, Integer> every(String str){
String out="";
HashMap<String, Integer> wordmap= new HashMap<String, Integer>();
String[] words=str.split(" ");
int count=words.length;
System.out.println(count);
String[] strTongji=new String[count];//词
int[] strTimes=new int[count];//词频
for(int k=0;k<count;k++){//初始化
strTimes[k]=0;
strTongji[k]="";
}
for(int i=0;i<count;i++){//

if(words[i].equals("")||words[i].equals(" ")||words[i].equals(" "))
;
else{
for(int j=0;j<count;j++){//存储着最终的统计词
if(strTongji[j].equals("")){//如果最终统计词表为空则添加进去
strTongji[j]=words[i];
//System.out.println(words[i]);
strTimes[j]++;
break;
}else {
if(words[i].equals(strTongji[j])){//终统计词表中存在这个表里就词频数加1
strTimes[j]++;
break;
}
}
}}
}
for(int n=0;n<count;n++){
if(!strTongji[n].equals("")&&strTimes[n]!=0)
wordmap.put(strTongji[n],strTimes[n]);
else
break;
}
return wordmap;
}

public static void compute(String InDirectory,String OutDirectory) throws IOException{
loadStop();
BufferedWriter bw = null;
File dirIn= new File(InDirectory);
        File fileIn[] = dirIn.listFiles();
        for(int i=0;i<fileIn.length;i++){
        bw = new BufferedWriter(new FileWriter(new File(OutDirectory+fileIn[i].getName())));//文件名称
        String str="";
        BufferedReader reader = new BufferedReader(new FileReader(InDirectory+fileIn[i].getName()));//读取页数大于1的文件内容       
        String line = null;
        line=reader.readLine();
        while (line != null) {
        line=removeW(line);
        line=removeStop(line);
        String temp=removeAll(line);
        str=str+" "+temp;
        line=reader.readLine(); 
       
        }
        reader.close();//
        List<Map.Entry<String, Integer>> sortedlist = new ArrayList<Map.Entry<String,Integer>>(every(str.trim()).entrySet());
   
    Collections.sort(sortedlist , new Comparator<Map.Entry<String, Integer>>() {  
        public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {     
        if((o2.getValue() - o1.getValue()) > 0){
        return 1;
        }
        else
        return -1;
        }
    });

    for (int j = 0; j < sortedlist.size(); j++) {
    Map.Entry entry = sortedlist.get(j);
    //根据词频取词,大于2的词
    if((Integer)entry.getValue()>2)
    bw.write(entry.getKey().toString() + "  " + entry.getValue().toString()+"\r\n");
    }
        bw.close();
        }
}

public static void main(String[] args) throws IOException {








testICTCLAS_FileProcess("E:语料库路径\\","D:\\分词后生成路径\\");//将文档分词
compute("D:\\分词后生成路径\\","D:\\词频统计路径\\");

}

}
分享到:
评论

相关推荐

    文本分类之词频统计(分词、词干提取、去停用词、计算词频,有界面

    这个工具不仅能够对文本进行基本的处理,如分词、词干提取和去除停用词,还提供了用户界面,使得操作更加直观易用。 1. **分词**:分词是将连续的汉字序列切分成有意义的词语单位,它是中文信息处理的基础。常见的...

    文本分类之词频统计(分词、词干提取、去停用词、计算词频,有界面)

    在这个项目中,我们主要探讨的是如何通过分词、词干提取、去停用词等预处理技术来有效地进行词频统计,并且提供了一个具有图形用户界面的工具,使得操作更为直观和便捷。 首先,让我们了解一下分词。分词是将连续的...

    中文分词常用停用词 文档

    4. **后处理**:对去除停用词后的结果进行进一步处理,如词频统计、情感分析等。 ### 六、示例代码(Python) 假设使用jieba分词工具对一段中文文本进行分词,并去除停用词: ```python import jieba from ...

    一、ERA5数据下载,deepseek提问全图

    一、ERA5数据下载,deepseek提问全图

    UE5 MQTT通信插件

    UE5 MQTT通信插件

    【vue】基于 Vue3 + Element Plus 实现,支持 RBAC 动态权限、数据权限、SaaS 多租户、Flowable 工作流、三方登录、支付、短信、商城、CRM 等功能_pgj.zip

    【vue】基于 Vue3 + Element Plus 实现,支持 RBAC 动态权限、数据权限、SaaS 多租户、Flowable 工作流、三方登录、支付、短信、商城、CRM 等功能_pgj

    matlab模仿吃豆人游戏.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    基于C#语言的智能诊断交付系统插件设计源码

    该项目为基于C#语言的智能诊断交付系统插件设计源码,总计包含122个文件,涉及多种类型,包括70个元数据文件、26个C#源代码文件、6个预制体文件、5个材质文件、3个着色器文件、3个Unity脚本文件、2个汇编定义文件、1个Cginc文件、1个Markdown文件、1个光照文件。该系统专注于智能诊断交付,旨在提升诊断交付的效率和准确性。

    Python算法:有序数组去重并限制元素最多出现两次

    内容概要:本文探讨了一个经典的数组操作问题——在一个已经排序的数组中去除多余的重复元素,确保每个元素最多出现两次。该问题要求算法在原地执行(不引入新的数据结构),并且仅消耗O(1)的额外存储空间。文中详细展示了问题的要求与挑战,给出具体的示例帮助理解,并明确指出了解题思路和预期效果。 适用人群:面向有一定编程经验的学习者或者初涉Python开发的语言爱好者,尤其是对算法有兴趣的人群。 使用场景及目标:适用于那些希望提升自己数据处理技巧,特别是有关列表、数组的操作技能的人。该方法可以在内存有限的情况下进行高效的去重处理,比如嵌入式系统或者大规模数据分析环境。 其他说明:该算法主要运用双指针(快慢指针)的方法,在遍历数组的同时实现对原始数据的部分覆盖来达到减少重复项目的目的,同时也提醒使用者注意'引用'特性可能引起的潜在误解。

    8x8的国际象棋棋盘Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    数据集 + 标题 深海沉积物岩心GeoB17603-2的文档记录

    深海沉积物岩心GeoB17603-2的文档记录 内容 该文献由Lucchi RG、Sabbatini A、Nicolaisen LS等人于2014年发布,主要描述了深海沉积物岩心GeoB17603-2的相关信息。具体内容涉及岩心的采集情况及其详细特征等。读者可通过访问"此链接" ()获取更多关于该数据集的信息。遗憾的是,目前尚未提供该数据集的具体大小。

    基于JavaScript、HTML、TypeScript的node.js学习资源与设计源码分享

    本项目为Node.js学习资源集,包含41个文件,涵盖26个JavaScript文件、4个HTML文件、3个JSON文件、3个文本文件、2个Markdown文件、1个Git忽略文件、1个PNG图像文件、1个TypeScript文件。内容丰富,涉及Node.js学习的各个方面,旨在帮助开发者掌握相关技能。

    VAR模型预测马来西亚_美国外汇汇率Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    基于Matlab的制作双曲线和摆线.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    基于Vue和JavaScript的图片对比效果输入范围切换设计源码

    本项目是一个基于Vue框架和JavaScript的前端样式设计源码,专注于实现图片对比效果,通过input range控件实现风格切换。该项目包含87个文件,其中SVG文件48个,JavaScript文件16个,Vue文件8个,JPG图片文件5个,JSON文件3个,开发配置文件1个,生产配置文件1个,Git忽略文件1个,Markdown文件1个,HTML文件1个。项目适用于需要展示和比较不同图片风格的场景。

    MAX30102心率血样传感器原理图.pdf

    MAX30102心率血样传感器原理图

    Python-Excel选表头列key-value-转json文件

    资源名称:Python—Excel选表头列key-value-转json文件 类型:windows—exe可执行工具 环境:Windows10或以上系统 功能: 1. 点击按钮【选择文件】:选择一个Exel文件(默认第一行为表头) 2. 点击选择key列(可多选-多个中间用“=”隔开) 3. 点击选择value列(可多选-多个中间用“=”隔开) 4. 点击按钮【选择文件】:保存路径 5. 点击按钮【转换并保存】:保存路径 优点: 1、非常快的速度! 2、已打包—双击即用!无需安装! 3、自带GUI界面方便使用!

    基于HTML、JavaScript、CSS的个人作品集设计源码

    该项目是一个个人作品集设计源码,采用HTML、JavaScript和CSS技术构建,包含50个文件,其中包括12个HTML文件、10个JavaScript文件、9个JPG图片文件、6个PNG图片文件、4个CSS样式表文件、3个SVG矢量图形文件、以及各种字体文件,如EOT、TTF、WOFF和WOFF2等。该作品集旨在展示个人设计作品,适合个人网站或在线展示使用。

    基于C语言及多语言集成的智能仓储安防控制系统设计源码

    该项目是一款基于C语言核心开发,并融合HTML、CSS、Python等多语言技术的智能仓储安防控制系统源码。项目包含360个文件,其中225个为头文件(.h),32个为C语言源文件(.c),27个为压缩文件(.gz),8个为共享库文件(.so),7个为静态库文件(.a),6个为配置文件(.1, .pc, .cmake)和3个XML文件(.xml)。该系统旨在提供智能化的仓储安防解决方案。

    .NET鱼码grant.dll v2.0.3.zip

    鱼码grant.dll是一个简单易用的标准DLL,让软件开发者快速为自己软件加上注册码,支持在线和离线授权,实现商用授权许可。鱼码可以让开发者快速为自己软件加上软件升级功能 软件托管,0成本搭建平台,在线销售自己软件,管理授权码。 dll使用说明可进入演示地址进行查看。 安装: 1、下载dll注册成开发者 2、调用dll里check_grant函数 3、会员中心管理自己授权码发放或过期、删除等操作 软件有vb、vb.net、vc、vc.net、易语言和Delphi示例,压缩包中的为vb.net的,如果需要其他版本的demo请到官网进行下载。

Global site tag (gtag.js) - Google Analytics