分词去停用词词频统计 -

forever1220

浏览: 33784 次

最近访客更多访客>>

minxiaomin

Jm8320933

wojiazaiyugang

kzmaker

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

分词去停用词词频统计

博客分类：

文本预处理

文本预处理

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import ICTCLAS.I3S.AC.ICTCLAS50;
/**
* 分词去停用词后词频统计（设定阈值，去掉低频值）
* @author Administrator
*
*/
public class Tongji1 {

static String[] stopWords=new String[636];//停用词个数
public static void loadStop() throws IOException {
//ArrayList stopwords=new ArrayList();//存放词语
        BufferedReader fr = new BufferedReader(new InputStreamReader(new FileInputStream(".\\Data\\stopwords_utf8.txt"),"utf-8"));
        String word=null;
        int count=0;
        word=fr.readLine();
        while(word!=null){
        //stopwords.add(word);
        stopWords[count]=word;
        count++;
        word=fr.readLine();
        }//省去每次加载停用词
}
public static String removeAll(String str){//去除停用等，同时去除词性标注
String RAll="";
String[] allWords = str.split(" ");
for(int i=0;i<allWords.length;i++){
int pos = allWords[i].lastIndexOf("/");
String temp="";
if(pos>0)
temp=allWords[i].substring(0,pos).trim();
if(temp.equals(" ")||temp.equals("　")||temp.equals(""))
;
else
RAll=RAll+temp+" ";
}
return RAll;
}
public static String removeW(String str){//去除标点符号
String removeW="";
String[] allWords = str.split(" ");
for(int k=0;k<allWords.length;k++){
        int pos = allWords[k].lastIndexOf("/");
        if(pos>0){
            String temp2=allWords[k].substring(pos+1,pos+2);//词性标注
        if(temp2.equals("w")||temp2.equals(""))//w标点或者为空
        ;
        else
    removeW=removeW+allWords[k]+" ";
        }
        }
return removeW;
}
public static String removeStop(String str){//去除停用等，但是保留词性标注
String afterStop="";
boolean flag=true;
String[] allWords = str.split(" ");
for(int k=0;k<allWords.length;k++){
        int pos = allWords[k].lastIndexOf("/");
        int n;
        if(pos>0){
            String temp1=allWords[k].substring(0, pos);//中文不包括词性标注
            String temp2=allWords[k].substring(pos+1,pos+2);//词性标注
            flag=true;
        if(temp2.equals("　")||temp2.equals("t")||temp1.equals("")||temp1.equals(" ")||temp2.equals("s")||temp2.equals("z")
        ||temp2.equals("d")||temp2.equals("p")||temp2.equals("c")||temp2.equals("u")||temp2.equals("e")||temp2.equals("y")
        ||temp2.equals("o")||temp2.equals("h")||temp2.equals("k")||temp2.equals("m")||temp2.equals("x")||temp2.equals("q")){
        //t时间词，s处所词，z状态词，d副词，p介词，c连词，u助词，e叹词，y语气词，o拟声词，h前缀，k后缀，m数词,q量词，x英语等字符串
        flag=false;
    }else
    for(n=0;n<stopWords.length;n++){
    if(temp1.equals(stopWords[n])){//去除停用词
    flag=false;
    break;
    }
    }
    if(flag)
        afterStop=afterStop+allWords[k]+" ";
        }
        }
return afterStop;
}
public static void testICTCLAS_FileProcess(String inDirectory,String OutDirectory)
{
try
{
ICTCLAS50 testICTCLAS50 = new ICTCLAS50();
//分词所需库的路径
String argu = ".";
//初始化
if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("gb2312")) == false)
{
System.out.println("Init Fail!");
return;
}
testICTCLAS50.ICTCLAS_SetPOSmap(2);
// String OutDirectory="D:\\trian\\";
//         String inDirectory="D:\\articals\\";
//         File dirOut = new File(OutDirectory);
//         File fileOut[] = dirOut.listFiles();
//         for (int i = 0; i < fileOut.length; i++) {//先删除所有输出目录中的文件
//         if(fileOut[i].isFile())
//         fileOut[i].delete();
//         System.out.println("删除了"+fileOut[i].getName());
//         }
        String usrdir = "userdict.txt"; //用户字典路径
byte[] usrdirb = usrdir.getBytes();//将string转化为byte类型
//第一个参数为用户字典路径，第二个参数为用户字典的编码类型(0:type unknown;1:ASCII码;2:GB2312,GBK,GB10380;3:UTF-8;4:BIG5)
int nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 2);//导入用户字典,返回导入用户词语个数
System.out.println(nCount+"个自定义词…………");
        File dirIn= new File(inDirectory);
        File fileIn[] = dirIn.listFiles();
        for (int i = 0; i < fileIn.length; i++) {
        String Inputfilename=fileIn[i].getPath();
byte[] Inputfilenameb = Inputfilename.getBytes();//将文件名string类型转为byte类型
//分词处理后输出文件名
String Outputfilename =OutDirectory+fileIn[i].getName();
byte[] Outputfilenameb = Outputfilename.getBytes();//将文件名string类型转为byte类型
//文件分词(第一个参数为输入文件的名,第二个参数为文件编码类型,第三个参数为是否标记词性集1 yes,0 no,第四个参数为输出文件名)
if(testICTCLAS50.ICTCLAS_FileProcess(Inputfilenameb, 0, 1, Outputfilenameb)==false){
System.out.println(fileIn[i].getPath()+"没有分词…………");
}
else
System.out.println(fileIn[i].getPath()+"分词成功，这是第"+i+"个文档");
        }
      //保存用户字典
testICTCLAS50.ICTCLAS_SaveTheUsrDic();
//释放分词组件资源
testICTCLAS50.ICTCLAS_Exit();
}
catch (Exception ex)
{
}
}

public static HashMap<String, Integer> every(String str){
String out="";
HashMap<String, Integer> wordmap= new HashMap<String, Integer>();
String[] words=str.split(" ");
int count=words.length;
System.out.println(count);
String[] strTongji=new String[count];//词
int[] strTimes=new int[count];//词频
for(int k=0;k<count;k++){//初始化
strTimes[k]=0;
strTongji[k]="";
}
for(int i=0;i<count;i++){//

if(words[i].equals("")||words[i].equals(" ")||words[i].equals("　"))
;
else{
for(int j=0;j<count;j++){//存储着最终的统计词
if(strTongji[j].equals("")){//如果最终统计词表为空则添加进去
strTongji[j]=words[i];
//System.out.println(words[i]);
strTimes[j]++;
break;
}else {
if(words[i].equals(strTongji[j])){//终统计词表中存在这个表里就词频数加1
strTimes[j]++;
break;
}
}
}}
}
for(int n=0;n<count;n++){
if(!strTongji[n].equals("")&&strTimes[n]!=0)
wordmap.put(strTongji[n],strTimes[n]);
else
break;
}
return wordmap;
}

public static void compute(String InDirectory,String OutDirectory) throws IOException{
loadStop();
BufferedWriter bw = null;
File dirIn= new File(InDirectory);
        File fileIn[] = dirIn.listFiles();
        for(int i=0;i<fileIn.length;i++){
        bw = new BufferedWriter(new FileWriter(new File(OutDirectory+fileIn[i].getName())));//文件名称
        String str="";
        BufferedReader reader = new BufferedReader(new FileReader(InDirectory+fileIn[i].getName()));//读取页数大于1的文件内容
        String line = null;
        line=reader.readLine();
        while (line != null) {
        line=removeW(line);
        line=removeStop(line);
        String temp=removeAll(line);
        str=str+" "+temp;
        line=reader.readLine();

        }
        reader.close();//
        List<Map.Entry<String, Integer>> sortedlist = new ArrayList<Map.Entry<String,Integer>>(every(str.trim()).entrySet());

    Collections.sort(sortedlist , new Comparator<Map.Entry<String, Integer>>() {
        public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
        if((o2.getValue() - o1.getValue()) > 0){
        return 1;
        }
        else
        return -1;
        }
    });

    for (int j = 0; j < sortedlist.size(); j++) {
    Map.Entry entry = sortedlist.get(j);
    //根据词频取词，大于2的词
    if((Integer)entry.getValue()>2)
    bw.write(entry.getKey().toString() + " " + entry.getValue().toString()+"\r\n");
    }
        bw.close();
        }
}

public static void main(String[] args) throws IOException {

testICTCLAS_FileProcess("E:语料库路径\\","D:\\分词后生成路径\\");//将文档分词
compute("D:\\分词后生成路径\\","D:\\词频统计路径\\");

}

}

分享到：

java.lang.OutOfMemoryError: Java heap sp ... | 特征提取计算——TF-IDF

2014-07-30 21:35
浏览 3052
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面: 这个工具不仅能够对文本进行基本的处理，如分词、词干提取和去除停用词，还提供了用户界面，使得操作更加直观易用。 1. **分词**：分词是将连续的汉字序列切分成有意义的词语单位，它是中文信息处理的基础。常见的...

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）: 在这个项目中，我们主要探讨的是如何通过分词、词干提取、去停用词等预处理技术来有效地进行词频统计，并且提供了一个具有图形用户界面的工具，使得操作更为直观和便捷。首先，让我们了解一下分词。分词是将连续的...

中文分词常用停用词文档: 4. **后处理**：对去除停用词后的结果进行进一步处理，如词频统计、情感分析等。 ### 六、示例代码（Python）假设使用jieba分词工具对一段中文文本进行分词，并去除停用词： ```python import jieba from ...

分布式电源接入配电网的技术挑战与解决方案：风光互补无功补偿及PSO优化: 内容概要：本文探讨了分布式电源（DG）接入配电网所带来的技术挑战及其解决方案。首先介绍了DG接入对配电网潮流分布和电压稳定性的影响，随后详细讨论了风光互补无功补偿技术的应用，旨在稳定电压和提高电能质量。接着，文章阐述了粒子群算法（PSO）在电气互联和故障点位定位中的应用，展示了其在优化电网拓扑结构和快速准确定位故障方面的优势。最后，通过Simulink建模和仿真实验，验证了所提出的方法和技术的有效性。适合人群：从事电力系统研究、分布式电源集成、智能电网优化的专业人士，以及对相关技术感兴趣的工程技术人员。使用场景及目标：适用于分布式电源接入配电网的设计与优化，特别是在解决电压波动、无功补偿不足和故障定位不准等问题时。目标是提升配电网的稳定性和效率，确保电力系统的可靠运行。其他说明：文中提供了多个Matlab和Python代码示例，用于具体实现风光互补无功补偿、粒子群优化算法以及Simulink仿真模型，便于读者理解和实践。

基于博途V15的1500系列PLC六层电梯SCL编程与梯形图实现: 内容概要：本文详细介绍了使用博途V15软件和1500系列PLC实现单部六层电梯控制系统的SCL编程方法及其梯形图实现。主要内容涵盖电梯的基本控制逻辑，如楼层升降、平层停靠、呼叫响应等。文中通过具体代码示例展示了如何定义关键变量、处理楼层呼叫信号、实现电梯运行和平层停靠逻辑。此外，还讨论了状态机的设计、方向决策算法以及开关门控制等重要环节。文章强调了SCL语言在处理复杂逻辑方面的优势，并对比了梯形图在故障诊断时的直观性。适合人群：对工业自动化控制感兴趣的技术人员，尤其是熟悉西门子PLC编程的工程师。使用场景及目标：适用于需要深入了解电梯控制系统编程原理和技术实现的人群。目标是帮助读者掌握SCL语言和梯形图在电梯控制中的应用，提高编程技能。其他说明：文章提供了完整的代码片段和详细的解释，有助于读者理解和实践。同时提醒读者关注实际应用中的细节问题，如安全保护机制、信号防抖处理等。

电力电子领域LLC谐振变换器的MATLAB/Simulink仿真及软开关实现: 内容概要：本文详细介绍了如何使用MATLAB/Simulink对全桥和半桥LLC谐振变换器进行仿真，涵盖驱动配置、谐振参数计算、软开关验证以及闭环控制等方面。首先，文章讲解了半桥LLC的基本配置，包括PWM生成、死区时间和谐振参数的设定。接着，讨论了全桥LLC的扩展及其相对于半桥的优势，如更宽的增益范围和更好的输入电压适应性。然后，深入探讨了软开关的验证方法，强调了ZVS（零电压开关）的重要性和实现方式。最后，介绍了闭环控制的设计思路，包括PID控制器的应用和参数调整技巧。适合人群：从事电力电子设计的研究人员和技术工程师，尤其是那些希望深入了解LLC谐振变换器仿真和优化的人群。使用场景及目标：适用于需要进行LLC谐振变换器仿真的项目，旨在帮助工程师掌握从基本配置到高级控制的完整流程，确保高效稳定的电源转换系统设计。其他说明：文中提供了大量MATLAB代码片段，便于读者理解和实践。此外，还给出了许多实用的调试建议和注意事项，有助于避免常见错误并提高仿真成功率。

居民健康监测系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

宿舍管理系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

电力系统中同步发电机短路与电弧仿真的关键技术及其实现: 内容概要：本文详细介绍了同步发电机短路仿真和电弧仿真的重要性及其具体实现方法。首先讨论了同步发电机短路仿真的核心基础——派克变换，展示了如何利用Python进行派克变换的代码实现，并解释了短路电流的计算方法，包括次暂态电流、暂态电流和稳态电流。接着，文章探讨了电弧仿真的物理特性和数学模型，特别是经典的Mayr电弧模型，并给出了Matlab代码示例。此外，还提到了电弧在不同环境条件下的特性研究，如气压、湿度等因素对电弧的影响。最后，文章强调了这两种仿真在电力系统动态分析中的应用场景，特别是在评估短路故障对发电机及周边设备的影响方面的作用。适合人群：从事电力系统研究的专业人士、电气工程师、高校师生及相关领域的研究人员。使用场景及目标：适用于需要深入了解同步发电机短路和电弧仿真原理的研究人员和技术人员，旨在提高电力系统的安全性、可靠性，优化保护措施的设计。其他说明：文中不仅提供了理论知识，还附带了具体的代码实现，便于读者理解和实践。同时，文章指出了仿真过程中可能出现的问题及解决方案，如数值稳定性问题和接口时序处理等。

学生选课系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明: 基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明，个人经导师指导并认可通过的高分设计项目，评审分99分，代码完整确保可以运行，小白也可以亲自搞定，主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者，可作为毕业设计、课程设计、期末大作业。基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模

医笙小程序系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

工业自动化中高速追剪飞锯系统的维伦通触摸屏与台达PLC程序解析: 内容概要：本文深入探讨了高速追剪飞锯系统的实现细节，特别是维伦通触摸屏和台达PLC之间的协同工作。触摸屏作为人机交互界面，允许操作员设置如切割长度、运行速度等参数，并通过与PLC寄存器的关联实现数据传输。台达PLC则负责执行复杂的电子凸轮追剪算法，确保切割过程的高精度和稳定性。文中还介绍了关键的PLC指令，如MC_GearIn和CAM_GEN，以及它们在速度同步和位置控制中的应用。此外，文章揭示了一些调试技巧和潜在问题，如数据类型对齐、补偿算法和参数调整方法。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些对PLC编程和人机界面设计感兴趣的人。使用场景及目标：适用于需要理解和优化高速追剪飞锯系统的场合，旨在提高生产效率和产品质量。通过学习本文，读者可以掌握如何设置和调试此类系统，从而减少故障率并提升性能。其他说明：文章不仅提供了理论知识，还包括了许多实用的操作建议和经验分享，有助于读者更好地应对实际工作中遇到的技术挑战。

高速永磁同步电机Maxwell仿真：50000-100000rpm转速区间的电磁与机械设计挑战: 内容概要：本文详细探讨了高速永磁同步电机（HSPMSM）在50000-100000rpm转速范围内的设计与仿真挑战。首先介绍了高速电机的应用背景及其面临的离心力和电磁损耗等问题。接着，通过具体实例展示了如何利用Maxwell软件进行电机的几何建模、材料设置、边界条件与激励设置，并进行了详细的模拟结果分析。文中特别强调了在极端转速条件下，如10万转时，电机内部的物理现象以及相应的优化措施，如采用碳纤维护套增强机械强度、调整损耗计算模型以提高精度等。适合人群：从事电机设计与仿真的工程师和技术研究人员，尤其是对高速永磁同步电机感兴趣的从业者。使用场景及目标：适用于希望深入了解高速永磁同步电机设计原理及仿真技巧的人群，旨在帮助他们掌握Maxwell软件的具体应用方法，解决实际工程中遇到的技术难题，如高转速下的电磁兼容性和机械可靠性问题。其他说明：文章不仅提供了理论指导，还包括大量实用的操作步骤和代码示例，有助于读者快速上手并应用于实际工作中。此外，文中提到的一些特殊处理方式（如碳纤维护套的应用），为解决特定工况下的技术瓶颈提供了新思路。

浪潮英信服务器 SA5212M5 用户手册: 浪潮英信服务器 SA5212M5 用户手册

COMSOL仿真中放电电极击穿空气的电场分布与击穿电压计算: 内容概要：本文详细介绍了如何使用COMSOL进行放电电极击穿空气的仿真。首先构建了一个针尖电极和球头圆柱电极组成的模型，设置了静电和电流耦合的物理场，并进行了网格优化。通过参数化扫描和MATLAB脚本，计算不同间隙距离下的击穿电压，并利用Paschen曲线进行验证。同时探讨了电场强度在尖端的集中现象及其对击穿的影响，提出了改进网格质量和求解器设置的方法。最后，通过电场矢量图和电势分布图展示了仿真的结果。适合人群：从事电磁场仿真、电气工程、等离子体物理等相关领域的研究人员和技术人员。使用场景及目标：适用于需要精确计算电极间击穿电压和电场分布的研究项目，帮助设计高压设备和评估电极结构的安全性和可靠性。其他说明：文中提供了详细的建模步骤和代码片段，便于读者复现实验结果。同时强调了网格质量、边界条件和求解器设置对仿真准确性的重要影响。