分词去停用词词频统计 -

forever1220

浏览: 33576 次

最近访客更多访客>>

minxiaomin

Jm8320933

wojiazaiyugang

kzmaker

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

分词去停用词词频统计

博客分类：

文本预处理

文本预处理

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import ICTCLAS.I3S.AC.ICTCLAS50;
/**
* 分词去停用词后词频统计（设定阈值，去掉低频值）
* @author Administrator
*
*/
public class Tongji1 {

static String[] stopWords=new String[636];//停用词个数
public static void loadStop() throws IOException {
//ArrayList stopwords=new ArrayList();//存放词语
        BufferedReader fr = new BufferedReader(new InputStreamReader(new FileInputStream(".\\Data\\stopwords_utf8.txt"),"utf-8"));
        String word=null;
        int count=0;
        word=fr.readLine();
        while(word!=null){
        //stopwords.add(word);
        stopWords[count]=word;
        count++;
        word=fr.readLine();
        }//省去每次加载停用词
}
public static String removeAll(String str){//去除停用等，同时去除词性标注
String RAll="";
String[] allWords = str.split(" ");
for(int i=0;i<allWords.length;i++){
int pos = allWords[i].lastIndexOf("/");
String temp="";
if(pos>0)
temp=allWords[i].substring(0,pos).trim();
if(temp.equals(" ")||temp.equals("　")||temp.equals(""))
;
else
RAll=RAll+temp+" ";
}
return RAll;
}
public static String removeW(String str){//去除标点符号
String removeW="";
String[] allWords = str.split(" ");
for(int k=0;k<allWords.length;k++){
        int pos = allWords[k].lastIndexOf("/");
        if(pos>0){
            String temp2=allWords[k].substring(pos+1,pos+2);//词性标注
        if(temp2.equals("w")||temp2.equals(""))//w标点或者为空
        ;
        else
    removeW=removeW+allWords[k]+" ";
        }
        }
return removeW;
}
public static String removeStop(String str){//去除停用等，但是保留词性标注
String afterStop="";
boolean flag=true;
String[] allWords = str.split(" ");
for(int k=0;k<allWords.length;k++){
        int pos = allWords[k].lastIndexOf("/");
        int n;
        if(pos>0){
            String temp1=allWords[k].substring(0, pos);//中文不包括词性标注
            String temp2=allWords[k].substring(pos+1,pos+2);//词性标注
            flag=true;
        if(temp2.equals("　")||temp2.equals("t")||temp1.equals("")||temp1.equals(" ")||temp2.equals("s")||temp2.equals("z")
        ||temp2.equals("d")||temp2.equals("p")||temp2.equals("c")||temp2.equals("u")||temp2.equals("e")||temp2.equals("y")
        ||temp2.equals("o")||temp2.equals("h")||temp2.equals("k")||temp2.equals("m")||temp2.equals("x")||temp2.equals("q")){
        //t时间词，s处所词，z状态词，d副词，p介词，c连词，u助词，e叹词，y语气词，o拟声词，h前缀，k后缀，m数词,q量词，x英语等字符串
        flag=false;
    }else
    for(n=0;n<stopWords.length;n++){
    if(temp1.equals(stopWords[n])){//去除停用词
    flag=false;
    break;
    }
    }
    if(flag)
        afterStop=afterStop+allWords[k]+" ";
        }
        }
return afterStop;
}
public static void testICTCLAS_FileProcess(String inDirectory,String OutDirectory)
{
try
{
ICTCLAS50 testICTCLAS50 = new ICTCLAS50();
//分词所需库的路径
String argu = ".";
//初始化
if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("gb2312")) == false)
{
System.out.println("Init Fail!");
return;
}
testICTCLAS50.ICTCLAS_SetPOSmap(2);
// String OutDirectory="D:\\trian\\";
//         String inDirectory="D:\\articals\\";
//         File dirOut = new File(OutDirectory);
//         File fileOut[] = dirOut.listFiles();
//         for (int i = 0; i < fileOut.length; i++) {//先删除所有输出目录中的文件
//         if(fileOut[i].isFile())
//         fileOut[i].delete();
//         System.out.println("删除了"+fileOut[i].getName());
//         }
        String usrdir = "userdict.txt"; //用户字典路径
byte[] usrdirb = usrdir.getBytes();//将string转化为byte类型
//第一个参数为用户字典路径，第二个参数为用户字典的编码类型(0:type unknown;1:ASCII码;2:GB2312,GBK,GB10380;3:UTF-8;4:BIG5)
int nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 2);//导入用户字典,返回导入用户词语个数
System.out.println(nCount+"个自定义词…………");
        File dirIn= new File(inDirectory);
        File fileIn[] = dirIn.listFiles();
        for (int i = 0; i < fileIn.length; i++) {
        String Inputfilename=fileIn[i].getPath();
byte[] Inputfilenameb = Inputfilename.getBytes();//将文件名string类型转为byte类型
//分词处理后输出文件名
String Outputfilename =OutDirectory+fileIn[i].getName();
byte[] Outputfilenameb = Outputfilename.getBytes();//将文件名string类型转为byte类型
//文件分词(第一个参数为输入文件的名,第二个参数为文件编码类型,第三个参数为是否标记词性集1 yes,0 no,第四个参数为输出文件名)
if(testICTCLAS50.ICTCLAS_FileProcess(Inputfilenameb, 0, 1, Outputfilenameb)==false){
System.out.println(fileIn[i].getPath()+"没有分词…………");
}
else
System.out.println(fileIn[i].getPath()+"分词成功，这是第"+i+"个文档");
        }
      //保存用户字典
testICTCLAS50.ICTCLAS_SaveTheUsrDic();
//释放分词组件资源
testICTCLAS50.ICTCLAS_Exit();
}
catch (Exception ex)
{
}
}

public static HashMap<String, Integer> every(String str){
String out="";
HashMap<String, Integer> wordmap= new HashMap<String, Integer>();
String[] words=str.split(" ");
int count=words.length;
System.out.println(count);
String[] strTongji=new String[count];//词
int[] strTimes=new int[count];//词频
for(int k=0;k<count;k++){//初始化
strTimes[k]=0;
strTongji[k]="";
}
for(int i=0;i<count;i++){//

if(words[i].equals("")||words[i].equals(" ")||words[i].equals("　"))
;
else{
for(int j=0;j<count;j++){//存储着最终的统计词
if(strTongji[j].equals("")){//如果最终统计词表为空则添加进去
strTongji[j]=words[i];
//System.out.println(words[i]);
strTimes[j]++;
break;
}else {
if(words[i].equals(strTongji[j])){//终统计词表中存在这个表里就词频数加1
strTimes[j]++;
break;
}
}
}}
}
for(int n=0;n<count;n++){
if(!strTongji[n].equals("")&&strTimes[n]!=0)
wordmap.put(strTongji[n],strTimes[n]);
else
break;
}
return wordmap;
}

public static void compute(String InDirectory,String OutDirectory) throws IOException{
loadStop();
BufferedWriter bw = null;
File dirIn= new File(InDirectory);
        File fileIn[] = dirIn.listFiles();
        for(int i=0;i<fileIn.length;i++){
        bw = new BufferedWriter(new FileWriter(new File(OutDirectory+fileIn[i].getName())));//文件名称
        String str="";
        BufferedReader reader = new BufferedReader(new FileReader(InDirectory+fileIn[i].getName()));//读取页数大于1的文件内容
        String line = null;
        line=reader.readLine();
        while (line != null) {
        line=removeW(line);
        line=removeStop(line);
        String temp=removeAll(line);
        str=str+" "+temp;
        line=reader.readLine();

        }
        reader.close();//
        List<Map.Entry<String, Integer>> sortedlist = new ArrayList<Map.Entry<String,Integer>>(every(str.trim()).entrySet());

    Collections.sort(sortedlist , new Comparator<Map.Entry<String, Integer>>() {
        public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
        if((o2.getValue() - o1.getValue()) > 0){
        return 1;
        }
        else
        return -1;
        }
    });

    for (int j = 0; j < sortedlist.size(); j++) {
    Map.Entry entry = sortedlist.get(j);
    //根据词频取词，大于2的词
    if((Integer)entry.getValue()>2)
    bw.write(entry.getKey().toString() + " " + entry.getValue().toString()+"\r\n");
    }
        bw.close();
        }
}

public static void main(String[] args) throws IOException {

testICTCLAS_FileProcess("E:语料库路径\\","D:\\分词后生成路径\\");//将文档分词
compute("D:\\分词后生成路径\\","D:\\词频统计路径\\");

}

}

分享到：

java.lang.OutOfMemoryError: Java heap sp ... | 特征提取计算——TF-IDF

2014-07-30 21:35
浏览 3048
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面: 这个工具不仅能够对文本进行基本的处理，如分词、词干提取和去除停用词，还提供了用户界面，使得操作更加直观易用。 1. **分词**：分词是将连续的汉字序列切分成有意义的词语单位，它是中文信息处理的基础。常见的...

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）: 在这个项目中，我们主要探讨的是如何通过分词、词干提取、去停用词等预处理技术来有效地进行词频统计，并且提供了一个具有图形用户界面的工具，使得操作更为直观和便捷。首先，让我们了解一下分词。分词是将连续的...

中文分词常用停用词文档: 4. **后处理**：对去除停用词后的结果进行进一步处理，如词频统计、情感分析等。 ### 六、示例代码（Python）假设使用jieba分词工具对一段中文文本进行分词，并去除停用词： ```python import jieba from ...

C++类构造与析构机制详解：掌握对象生命周期管理核心技术: 内容概要：本文详细阐述了C++类的构造与析构机制，解释了这两种特殊成员函数的工作原理和应用场景，涵盖构造函数的特点、分类与调用方式、构造函数初始化列表、以及析构函数的作用、调用时机和注意事项。文中还探讨了在C++编程中如何运用这些机制实现高效的资源管理和内存安全，特别是遵循RAII原则、避免常见错误（如资源未释放、重复析构、异常安全问题）、并在多线程环境中合理处理同步操作。适合人群：具有基础C++编程技能的程序员，尤其是希望深入了解对象生命周期管理和高级资源管理技术的人群。使用场景及目标：①理解和应用C++类的构造与析构机制来编写高效的代码；②预防和修复由于资源管理不当引发的各种错误和性能问题；③提高对面向对象编程的理解，掌握在多线程环境下的资源管理技巧。其他说明：通过实际案例深入分析C++中构造函数和析构函数的应用，强调RAII（Resource Acquisition Is Initialization）原则的重要性。同时也提及了未来学习方向如智能指针和移动语义等内容，帮助开发者更好地掌握C++编程技巧。

2025年汽车租赁业务系统应该具备的功能: 本文为抛砖引玉：简单描述，如需根据自身业务详细设计，请随时联系

百合检验表格(食品香辛料质量验收记录表)检验表格(食品香辛料质量验收记录表).docx: 百合检验表格(食品香辛料质量验收记录表)检验表格(食品香辛料质量验收记录表).docx

最新PHP盲盒商城系统源码ThinkPHP框架.zip: 最新PHP盲盒商城系统源码ThinkPHP框架

奇异值确定K_K值VMD_K._vmd_VMD奇异值_VMDK: 奇异值分解（Singular Value Decomposition，简称SVD）是线性代数中的一种重要矩阵分解方法，广泛应用于数据处理和信号分析。在本场景中，我们关注的是如何利用SVD来确定VMD（Variable Modulation Decomposition，可变调制分解）的K值。VMD是一种信号分解技术，它能够将复杂信号分解为一系列调制频率成分，对于非平稳信号的分析和处理非常有用。理解SVD的基本概念：任何m×n的实数或复数矩阵A都可以表示为三个矩阵的乘积，即A=UΣV^T，其中U是m×m的正交矩阵，Σ是一个m×n的对角矩阵，其对角线元素是奇异值，V是n×n的正交矩阵。奇异值σ_i按照非降序排列，它们反映了矩阵A的信息量和重要性。在VMD中，奇异值分解的作用在于识别信号的不同频率成分。当对信号进行VMD时，目标是找到最佳的K值，以使分解后的子带信号尽可能独立且无交叉。K值代表了分解得到的调制模式数量，每个模式对应一个特定的频率范围。为了确定K值，我们需要分析SVD的结果，即奇异值的分布。奇异值的大小反映了原始信号的结构信息。通常，信号中的主要成分对应较大的奇异值，而噪声或不重要的成分对应较小的奇异值。因此，奇异值的下降趋势可以作为判断信号成分变化的一个指标。通过绘制奇异值的累积贡献率曲线，我们可以观察到奇异值的显著下降点，这个点通常对应着信号主要成分的结束，后续的奇异值可以视为噪声或次要成分。这个显著下降点即为选择K值的依据。一般来说，选择奇异值曲线出现“转折”或者“平台”的位置作为K值，可以确保主要信号成分被保留，同时尽可能减少噪声的影响。具体实现步骤如下： 1. 对信号进行SVD，得到奇异值序列。 2. 计算奇异值的累积贡献率，即将奇异值按降序排列后，每个奇异值除以所有奇异值的和，然后累加。 3. 绘制累积贡献率曲线，并寻找曲线的转折点或者平台区。 4. 将转折点对应的奇异值个数作为VMD的K值。在实际应用中，确定K值还可以结合其他准则，如信息熵、能量集中度等，以确保分解的合理性和稳定性。此外，不同的信号和应用场景可能需要调整K值的选择策略，这需要根据具体问题进行细致的研究和实验验证。总结来说，利用SVD确定VMD的K值是通过对奇异值分布的分析，找出信号主要成分与噪声之间的界限，从而选择一个合适的分解模式数量。这种方法有助于提取信号的关键特征，提高VMD分解的效率和准确性。。内容来源于网络分享，如有侵权请联系我删除。

常用护理技术操作规程49项.docx: 常用护理技术操作规程49项.docx

局部阴影遮挡，灰狼MPPT，灰狼算法灰狼算法实现部分遮阴的MPPT跟踪，包括光照突变情况，包括灰狼算法程序和matlab simulink模型的搭建，功率，电压，电流波形图和占空比波形图入如下: 局部阴影遮挡，灰狼MPPT，灰狼算法灰狼算法实现部分遮阴的MPPT跟踪，包括光照突变情况，包括灰狼算法程序和matlab simulink模型的搭建，功率，电压，电流波形图和占空比波形图入如下。 ,局部阴影遮挡; 灰狼MPPT; 灰狼算法; 光照突变; 波形图; 程序搭建; matlab simulink模型,灰狼算法MPPT跟踪，局部遮阴及突变情况研究

XCP或者CCP标定，A2L标定文件，基于map文件自动更新A2L的地址和结构体变量的地址源码基于C＃需要开发，编译器为VS2022 ,XCP/CCP标定; A2L标定文件; 地图文件自动更新;: XCP或者CCP标定，A2L标定文件，基于map文件自动更新A2L的地址和结构体变量的地址源码基于C＃需要开发，编译器为VS2022 ,XCP/CCP标定; A2L标定文件; 地图文件自动更新; C#开发; VS2022编译器,基于C#开发的XCP/CCP标定系统，自动更新A2L文件地址与结构体变量

Win - NEOGEO 颜色转换器-修改kof用: 给那些修改kof的玩家用的工具，简单快捷方便，需要自取

s10207-024-00818-y.pdf: s10207-024-00818-y.pdf

Screenshot_20250314_152955.jpg: Screenshot_20250314_152955.jpg

Truvalue V3：环境、社会与治理(ESG)数据分析方法论详解（可复现，有问题请联系博主）: 内容概要：本文档详细介绍了 FactSet 公司推出的 Truvalue V3 平台的内容采集与处理流程及其评分方法。FactSet 利用人工智能技术和语义大数据处理能力收集并解析每日超过4000万份来自20多万信源的全球ESG相关信息。通过对这些非结构化文本数据的深度剖析，Truvalue平台能够识别关键ESG主题并量化情绪倾向度。它不仅提供单篇文章层面的情绪打分（从最消极0到最积极100），而且还综合评估公司长期发展趋势以及短期市场表现。此外，还讨论了动态重要性和重点事件检测等特征，使分析师更容易捕捉到企业活动背后的潜在机会与风险。适用人群：金融行业从业者如投资顾问、基金经理以及其他关注企业可持续发展和社会责任的专业人士。使用场景及目标：为投资者提供精准的数据支持以进行资产配置决策；辅助研究员对特定企业或行业的深度调研工作。其他说明：本方法论特别强调采用SASB标准作为评价基准之一，并解释了几种重要的得分计算公式，如脉搏分数、洞察力分数及时势动量指标等的具体运作机制。同时概述了一些质量控制措施以确保所提供数据的有效性和准确性。

毕业设计&课程设计基于STM32单片机的物联网智能家庭安防系统（软件源码+硬件资料+部署教程+设计任务书+演示视频），高分项目，开箱即用: 毕业设计&课程设计基于STM32单片机的物联网智能家庭安防系统（软件源码+硬件资料+部署教程+设计任务书+演示视频），高分项目，开箱即用随着公众安全意识的提高，人们对家庭安全防控的需求愈发迫切，如何合理应用控制、通信及监控等自动化技术手段，打造智能化家庭安防系统成为研究重点。因此提出了基于物联网的家庭安防系统,实现监测燃气泄漏并报警、监测火灾烟雾并报警、检测非法入室并报警等功能，极大保障家庭居住场所的安全性。用STM32单片机开发： 1、监测燃气泄漏(MQ-5)、监测火灾烟雾(DS18B20、MO-7)、检测非法入室(红外对管) 2、液晶显示燃气浓度、烟雾浓度、温度、是否有人闯入、布防状态 3、按键可以设置燃气、烟雾、温度的报警值，大于时候开启蜂鸣器报警以及对应的报警指示灯 4、当系统开启布防，有人闯入，开启蜂鸣器报警以及对应指示灯，撤防时，不检测非法闯入 5、数据通过wIFI上传到手机端 6、当报警时候发送报警短信，短信包含触发报警的情况：如燃气报警发送:gas leakage 温度或者烟雾报警发送:fire smoke alarm 非法入室发送:Illegal Entry

白胡椒检验表格(食品香辛料质量验收记录表)检验表格(食品香辛料质量验收记录表).docx: 白胡椒检验表格(食品香辛料质量验收记录表)检验表格(食品香辛料质量验收记录表).docx

信阳市乡镇边界，矢量边界，shp格式: 矢量边界，行政区域边界，精确到乡镇街道，可直接导入arcgis使用

c++多媒体音视频播放器: c++多媒体音视频播放器

Adobe After Effects 插件: Adobe After Effects 全套插件安装包

最近访客 更多访客>>