`
qindongliang1922
  • 浏览: 2184036 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117536
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125922
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59912
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71301
社区版块
存档分类
最新评论

JAV程序解析搜狗词库scel文件格式

    博客分类:
  • JAVA
阅读更多
在做一个电商的网站的初期时,我们常常面临词库的问题,因为我们并没有比较好的词库,这时候呢,我们就可以从网上下一些,别人有的词库,这些词库有淘宝的,有搜狗的,搜狗的分类比较细, 我们可以根据下载与我们行业比较相关的词库,但这些词库一般都是scel格式的,直接使用JAVA解析,是没法解析的,如果遇到这种情况可用散仙下面的这个类,来解析,经测试无乱码现象,解析完整度还不错。

源码如下:

package com.qin.parse.scel;



import java.io.ByteArrayOutputStream;
import java.io.DataInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.LinkedHashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import java.util.Set;

public class SougouScelReader {

    public SougouScelMdel read(File file) throws IOException {
        return read(new FileInputStream(file));
    }

    public SougouScelMdel read(URL url) throws IOException {
        return read(url.openStream());
    }

    protected ByteArrayOutputStream output=new ByteArrayOutputStream();

    protected String readString(DataInputStream input,int pos,int[] reads) throws IOException {
        int read=reads[0];
        input.skip(pos-read);
        read=pos;
        output.reset();
        while(true) {
            int c1 = input.read();
            int c2 = input.read();
            read+=2;
            if(c1==0 && c2==0) {
                break;
            } else {
                output.write(c1);
                output.write(c2);
            }
        }
        reads[0]=read;
        return new String(output.toByteArray(),encoding);
    }

    protected static String encoding = "UTF-16LE";

    public SougouScelMdel read(InputStream in) throws IOException {
        SougouScelMdel model = new SougouScelMdel();
        DataInputStream input = new DataInputStream(in);
        int read;
        try {
            byte[] bytes = new byte[4];
            input.readFully(bytes);
            assert (bytes[0] == 0x40 && bytes[1] == 0x15 && bytes[2] == 0 && bytes[3] == 0);
            input.readFully(bytes);
            int flag1 = bytes[0];
            assert (bytes[1] == 0x43 && bytes[2] == 0x53 && bytes[3] == 0x01);
            int[] reads=new int[]{8};
            model.setName(readString(input,0x130,reads));
            model.setType(readString(input,0x338,reads));
            model.setDescription(readString(input,0x540,reads));
            model.setSample(readString(input,0xd40,reads));
            read = reads[0];
            input.skip(0x1540 - read);
            read=0x1540;
            input.readFully(bytes);
            read += 4;
            assert (bytes[0] == (byte) 0x9D && bytes[1] == 0x01 && bytes[2] == 0 && bytes[3] == 0);
            bytes = new byte[128];
            Map<Integer, String> pyMap = new LinkedHashMap<Integer, String>();
            while (true) {
                int mark = readUnsignedShort(input);
                int size = input.readUnsignedByte();
                input.skip(1);
                read += 4;
                assert (size > 0 && (size % 2) == 0);
                input.readFully(bytes, 0, size);
                read += size;
                String py = new String(bytes, 0, size, encoding);
                //System.out.println(py);
                pyMap.put(mark, py);
                if ("zuo".equals(py)) {
                    break;
                }
            }
            if (flag1 == 0x44) {
                input.skip(0x2628 - read);
            } else if (flag1 == 0x45) {
                input.skip(0x26C4 - read);
            } else {
                throw new RuntimeException("出现意外,联系作者");
            }
            StringBuffer buffer = new StringBuffer();
            Map<String, List<String>> wordMap = new LinkedHashMap<String, List<String>>();
            while (true) {
                int size = readUnsignedShort(input);
                if (size < 0) {
                    break;
                }
                int count = readUnsignedShort(input);
                int len = count / 2;
                assert (len * 2 == count);
                buffer.setLength(0);
                for (int i = 0; i < len; i++) {
                    int key = readUnsignedShort(input);
                    buffer.append(pyMap.get(key)).append("'");
                }
                buffer.setLength(buffer.length() - 1);
                String py = buffer.toString();
                List<String> list = wordMap.get(py);
                if (list == null) {
                    list = new ArrayList<String>();
                    wordMap.put(py, list);
                }
                for (int i = 0; i < size; i++) {
                    count = readUnsignedShort(input);
                    if (count > bytes.length) {
                        bytes = new byte[count];
                    }
                    input.readFully(bytes, 0, count);
                    String word = new String(bytes, 0, count, encoding);
                    //接下来12个字节可能是词频或者类似信息
                    input.skip(12);
                    list.add(word);
                }
            }
            //System.out.println(wordMap.size());
            model.setWordMap(wordMap);
            return model;
        } finally {
            in.close();
        }
    }

    protected final int readUnsignedShort(InputStream in) throws IOException {
        int ch1 = in.read();
        int ch2 = in.read();
        if ((ch1 | ch2) < 0) {
            return Integer.MIN_VALUE;
        }
        return (ch2 << 8) + (ch1 << 0);
    }

}

//自行将此类提出来为public class
class SougouScelMdel {

    private Map<String, List<String>> wordMap;

    private String name;
    private String type;
    private String description;
    private String sample;

    public Map<String, List<String>> getWordMap() {
        return wordMap;
    }

    void setWordMap(Map<String, List<String>> wordMap) {
        this.wordMap = wordMap;
    }

    public String getType() {
        return type;
    }

    public void setType(String type) {
        this.type = type;
    }

    public String getDescription() {
        return description;
    }

    public void setDescription(String description) {
        this.description = description;
    }

    public String getSample() {
        return sample;
    }

    public void setSample(String sample) {
        this.sample = sample;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    
    
    
    
}




package com.qin.parse.scel;

import java.io.File;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.nio.file.Files;
import java.nio.file.LinkOption;
import java.nio.file.Paths;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.Map.Entry;

/**
 * 解析sogo词库工具类
 * 
 * 
 * **/
public class ParseSogo {
	
	public static void main(String[] args)throws Exception {
		
   	 sogou("D:\\词库\\dianshang.scel","D:\\词库\\goods1.txt",false);
	}
   
	/**
	 * 读取scel的词库文件
	 * 生成txt格式的文件
	 * @param inputPath 输入路径
	 * @param outputPath 输出路径
	 * @param isAppend  是否拼接追加词库内容 
	 * true 代表追加,false代表重建
	 * 
	 * **/
   private static void sogou(String inputPath,String outputPath,boolean isAppend) throws IOException{  
       File file=new File(inputPath);  
       if(!isAppend){
       if(Files.exists(Paths.get(outputPath),LinkOption.values())){
    	   System.out.println("存储此文件已经删除");
    	   Files.deleteIfExists(Paths.get(outputPath));
    	   
       }
       }
       RandomAccessFile raf=new RandomAccessFile(outputPath, "rw");
      
       int count=0;
       SougouScelMdel model = new SougouScelReader().read(file);  
       Map<String,List<String>> words = model.getWordMap(); //词<拼音,词>  
       Set<Entry<String,List<String>>> set = words.entrySet();  
       Iterator<Entry<String,List<String>>> iter = set.iterator();  
       while(iter.hasNext()){  
           Entry<String,List<String>> entry = iter.next();  
           List<String> list = entry.getValue();  
           int size = list.size();  
           for(int i = 0; i < size; i++){  
               String word = list.get(i);  
               
               //System.out.println(word); 
               raf.seek(raf.getFilePointer());
               raf.write((word+"\n").getBytes());//写入txt文件
               count++;
               
               
           }  
       }  
       raf.close();
       System.out.println("生成txt成功!,总计写入: "+count+" 条数据!");
   }  

}
分享到:
评论
1 楼 x0070704 2014-12-03  
这个工具好强大,大部分的文件都被解析出来了,但我发现有些解析不了,会在input.readFully(bytes, 0, count);那行报IndexOutOfBoundsException错。虽然我也在研究怎样解决这问题,但鉴于自己也是刚接触,暂时未完全了解其原理,希望作者也一起解决一下

暂时发现不能解析的文件如下:
农林渔畜/渔业/船名前缀.scel
农林渔畜/渔业/海洋工程与海洋环境专有名词.scel
社会科学/教育教学/教育局股室.scel
社会科学/广告传媒/悠活网词汇.scel
工程应用/环境能源/核能词汇.scel

相关推荐

    jav经典小程序,五子棋,聊天程序,扫雷程序

    【标题】中的“jav经典小程序,五子棋,聊天程序,扫雷程序”指的是使用Java编程语言编写的一些经典的小型应用程序。这些程序包括了大家熟知的娱乐游戏——五子棋,一个实现基本通信功能的聊天程序,以及模拟经典...

    JAV程序FTP下载指定文件夹所有内容

    保证能用,完美的下载指定FTP文件夹下的内容,(只测试了文件,文件夹未测),JAVA程序的

    原版JAV独立升级程序

    JAV独立升级程序,用于给系统的JDK JAV、jre进行安装和升级。本程序从JAV6.0原版而来。

    jav.rar_JAV301_JAV388_JAV第8页_jav674_javclass.com

    “jav674”可能是一个具体的练习题目或者案例,这通常用于巩固所学知识,比如设计并实现一个简单的应用程序或者解决一个特定的编程问题。这种实践性的环节对于理解Java编程至关重要,因为编程语言的学习不只是理论...

    jav 读取本地文件列表 FileBrowser_demo

    jav 读取本地文件列表 FileBrowser_demojav 读取本地文件列表 FileBrowser_demo

    JAV平台 安装程序

    JAV的安装程序, 点一下安装就可以了。

    sre.rar_jav .land_jav id_jav.land怎么用_jav·land_www.javlibs

    【标题】"sre.rar_jav.land_jav id_jav.land怎么用_jav·land_www.javlibs" 提示我们这个压缩包可能包含了与Java编程相关的资源,特别是针对Android平台的开发。`jav.land`、`jav.id`、`jav.land怎么用`以及`jav·...

    解析txt类型的试题文档

    首先,txt文件是一种常见的纯文本文件格式,通常用于存储简单的文本信息,如文档、笔记或数据。由于txt文件不包含任何格式信息,解析这类文件通常涉及到读取每一行并理解其内容结构。在试题文档的场景下,这可能意味...

    DHS.rar_DVD18JAV_JAV505_jav137_jav2018dvd_jav649

    标题"DHS.rar_DVD18JAV_JAV505_jav137_jav2018dvd_jav649"暗示这可能是一个关于Java编程的学习资源集合,其中包含了不同项目的代号或者版本号。描述提到是“练习作品DVD定制系统”,这可能是一个基于Java开发的用于...

    敏感词库JAV、Phton等语言

    在提供的"支持任何开发工具的敏感词过滤"压缩包中,可能包含了多种格式的敏感词库,如文本文件、数据库文件或特定格式的数据结构。开发者需要根据自己的需求选择合适的格式进行导入和使用。同时,这个资源可能还提供...

    jav程序监控并记录jvm运行时内存、线程、垃圾收集和堆空间

    1. jav程序监控并记录jvm运行时内存、线程、垃圾收集和堆空间 2. 定时记录到本地文件中; 3. 可以设置记录的时间间隔和循环记录次数; 4. 在监控不完善的情况下,可以记录java进程异常退出之前的jvm状态信息; 5. ...

    java操作csv文件(读、写)

    在做项目的时候,发现使用POI无法解析以csv文件结尾的文件,虽然csv文件能用Excel打开,但是csv文件没有像Excel一样有规定的电子表格形式,故使用POI无法解析csv文件,在网上找了一下,发现java有提供java csv文件来...

    JAVBus 老司机爬虫.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    JAVBus.ipa

    JAVBus.ipa

    JAV.rar_site:www.pudn.com_www.118jav_www.jav 118.com_www.jav123_

    总结,"JAV.rar"中包含的"倪博JAVA课题设计源代码"可能是一个实际的图书管理系统项目,涉及了Java编程、数据库设计、前端开发等多个方面。通过深入学习和实践,我们可以掌握构建此类系统的全过程,提升在IT领域的...

    JAV 网络机顶盒.7z

    【标题】"JAV网络机顶盒.7z"是一个包含有关JAV(Java-based Application for Video)网络机顶盒的压缩文件。该文件可能是针对特定型号或品牌的JAV网络机顶盒提供的固件更新、刷机教程或者相关配置文件的集合。 ...

    jav qq2006

    .jar文件类似于Windows上的.exe可执行文件,但它是Java平台的可执行格式。用户可以通过Java虚拟机(JVM)来运行这个文件,实现QQ的启动和功能使用。 “说明.txt”文件很可能是提供给用户关于如何安装和运行这个Java...

    JAV.zip_jaV.H0D_jav.com_jav513_javjobvideo日韩_vjav

    yrtos_ MULTITASKING RTOS,.

    jav-8-openjdk-amd64.tar.gz

    这个压缩包"jav-8-openjdk-amd64.tar.gz"包含了一整套用于在Linux环境下开发、运行Java应用程序和Android应用所需的工具和库。解压后,你将获得OpenJDK 8的安装文件,包括JRE(Java Runtime Environment)和JDK工具...

    JAV的简易计算机

    根据给定的信息,本文将对“JAV的简易计算机”这一项目进行详细的解析与知识点的阐述。本项目基于Java语言实现了一个简易计算器的功能,能够处理基本的数学运算,并且具备一定的用户界面。接下来,我们将围绕该项目...

Global site tag (gtag.js) - Google Analytics