`
wyzxzws
  • 浏览: 392579 次
  • 性别: Icon_minigender_1
  • 来自: dazhou
社区版块
存档分类
最新评论

汉字转拼音处理

 
阅读更多

汉字转拼音处理:

pym: {
            // 汉字拼音首字母列表 本列表包含了20902个汉字,用于配合 ToChineseSpell
            //函数使用,本表收录的字符的Unicode编码范围为19968至40869, XDesigner 整理
            strChineseFirstPY: "",
            //此处收录了375个多音字,数据来自于http://www.51window.net/page/pinyin
            oMultiDiff: {
                "19969": "DZ",
                "19975": "WM",
                "19988": "QJ",
                "20048": "YL",
                "20056": "SC",
                "20060": "NM",
                "20094": "QG",
                "20127": "QJ",
                "20167": "QC",
                "20193": "YG",
                "20250": "KH",
                "20256": "ZC",
                "20282": "SC",
                "20285": "QJG",
                "20291": "TD",
                "20314": "YD",
                "20315": "FB",//佛
                "20340": "NE",
                "20375": "TD",
                "20389": "YJ",
                "20391": "CZ",
                "20415": "PB",
                "20446": "YS",
                "20447": "SQ",
                "20504": "TC",
                "20608": "KG",
                "20854": "QJ",
                "20857": "ZC",
                "20911": "PF",
                "20504": "TC",
                "20608": "KG",
                "20854": "QJ",
                "20857": "ZC",
                "20911": "PF",
                "20985": "AW",
                "21032": "PB",
                "21048": "XQ",
                "21049": "SC",
                "21089": "YS",
                "21119": "JC",
                "21242": "SB",
                "21273": "SC",
                "21305": "YP",
                "21306": "QO",
                "21330": "ZC",
                "21333": "SDC",
                "21345": "QK",
                "21378": "CA",
                "21397": "SC",
                "21414": "XS",
                "21442": "SC",
                "21477": "JG",
                "21480": "TD",
                "21484": "ZS",
                "21494": "YX",
                "21505": "YX",
                "21512": "HG",
                "21523": "XH",
                "21537": "PB",
                "21542": "PF",
                "21549": "KH",
                "21571": "E",
                "21574": "DA",
                "21588": "TD",
                "21589": "O",
                "21618": "ZC",
                "21621": "KHA",
                "21632": "ZJ",
                "21654": "KG",
                "21679": "LKG",
                "21683": "KH",
                "21710": "A",
                "21719": "YH",
                "21734": "WOE",
                "21769": "A",
                "21780": "WN",
                "21804": "XH",
                "21834": "A",
                "21899": "ZD",
                "21903": "RN",
                "21908": "WO",
                "21939": "ZC",
                "21956": "SA",
                "21964": "YA",
                "21970": "TD",
                "22003": "A",
                "22031": "JG",
                "22040": "XS",
                "22060": "ZC",
                "22066": "ZC",
                "22079": "MH",
                "22129": "XJ",
                "22179": "XA",
                "22237": "NJ",
                "22244": "TD",
                "22280": "JQ",
                "22300": "YH",
                "22313": "XW",
                "22331": "YQ",
                "22343": "YJ",
                "22351": "PH",
                "22395": "DC",
                "22412": "TD",
                "22484": "PB",
                "22500": "PB",
                "22534": "ZD",
                "22549": "DH",
                "22561": "PB",
                "22612": "TD",
                "22771": "KQ",
                "22831": "HB",
                "22841": "JG",
                "22855": "QJ",
                "22865": "XQ",
                "23013": "ML",
                "23081": "WM",
                "23487": "SX",
                "23558": "QJ",
                "23561": "YW",
                "23586": "YW",
                "23614": "YW",
                "23615": "SN",
                "23631": "PB",
                "23646": "ZS",
                "23663": "ZT",
                "23673": "YG",
                "23762": "TD",
                "23769": "ZS",
                "23780": "QJ",
                "23884": "QK",
                "24055": "XH",
                "24113": "DC",
                "24162": "ZC",
                "24191": "GA",
                "24273": "QJ",
                "24324": "NL",
                "24377": "TD",
                "24378": "QJ",
                "24439": "PF",
                "24554": "ZS",
                "24683": "TD",
                "24694": "WE",
                "24733": "LK",
                "24925": "TN",
                "25094": "ZG",
                "25100": "XQ",
                "25103": "XH",
                "25153": "PB",
                "25170": "PB",
                "25179": "KG",
                "25203": "PB",
                "25240": "ZS",
                "25282": "FB",
                "25303": "NA",
                "25324": "KG",
                "25341": "ZY",
                "25373": "WZ",
                "25375": "XJ",
                "25384": "A",
                "25457": "A",
                "25528": "SD",
                "25530": "SC",
                "25552": "TD",
                "25774": "ZC",
                "25874": "ZC",
                "26044": "YW",
                "26080": "WM",
                "26292": "PB",
                "26333": "PB",
                "26355": "ZY",
                "26366": "CZ",
                "26397": "ZC",
                "26399": "QJ",
                "26415": "ZS",
                "26451": "SB",
                "26526": "ZC",
                "26552": "JG",
                "26561": "TD",
                "26588": "JG",
                "26597": "CZ",
                "26629": "ZS",
                "26638": "YL",
                "26646": "XQ",
                "26653": "KG",
                "26657": "XJ",
                "26727": "HG",
                "26894": "ZC",
                "26937": "ZS",
                "26946": "ZC",
                "26999": "KJ",
                "27099": "KJ",
                "27449": "YQ",
                "27481": "XS",
                "27542": "ZS",
                "27663": "ZS",
                "27748": "TS",
                "27784": "SC",
                "27788": "ZD",
                "27795": "TD",
                "27812": "O",
                "27850": "PB",
                "27852": "MB",
                "27895": "SL",
                "27898": "PL",
                "27973": "QJ",
                "27981": "KH",
                "27986": "HX",
                "27994": "XJ",
                "28044": "YC",
                "28065": "WG",
                "28177": "SM",
                "28267": "QJ",
                "28291": "KH",
                "28337": "ZQ",
                "28463": "TL",
                "28548": "DC",
                "28601": "TD",
                "28689": "PB",
                "28805": "JG",
                "28820": "QG",
                "28846": "PB",
                "28952": "TD",
                "28975": "ZC",
                "29100": "A",
                "29325": "QJ",
                "29575": "SL",
                "29602": "FB",
                "30010": "TD",
                "30044": "CX",
                "30058": "PF",
                "30091": "YSP",
                "30111": "YN",
                "30229": "XJ",
                "30427": "SC",
                "30465": "SX",
                "30631": "YQ",
                "30655": "QJ",
                "30684": "QJG",
                "30707": "SD",
                "30729": "XH",
                "30796": "LG",
                "30917": "PB",
                "31074": "NM",
                "31085": "JZ",
                "31109": "SC",
                "31181": "ZC",
                "31192": "MLB",
                "31293": "JQ",
                "31400": "YX",
                "31584": "YJ",
                "31896": "ZN",
                "31909": "ZY",
                "31995": "XJ",
                "32321": "PF",
                "32327": "ZY",
                "32418": "HG",
                "32420": "XQ",
                "32421": "HG",
                "32438": "LG",
                "32473": "GJ",
                "32488": "TD",
                "32521": "QJ",
                "32527": "PB",
                "32562": "ZSQ",
                "32564": "JZ",
                "32735": "ZD",
                "32793": "PB",
                "33071": "PF",
                "33098": "XL",
                "33100": "YA",
                "33152": "PB",
                "33261": "CX",
                "33324": "BP",
                "33333": "TD",
                "33406": "YA",
                "33426": "WM",
                "33432": "PB",
                "33445": "JG",
                "33486": "ZN",
                "33493": "TS",
                "33507": "QJ",
                "33540": "QJ",
                "33544": "ZC",
                "33564": "XQ",
                "33617": "YT",
                "33632": "QJ",
                "33636": "XH",
                "33637": "YX",
                "33694": "WG",
                "33705": "PF",
                "33728": "YW",
                "33882": "SR",
                "34067": "WM",
                "34074": "YW",
                "34121": "QJ",
                "34255": "ZC",
                "34259": "XL",
                "34425": "JH",
                "34430": "XH",
                "34485": "KH",
                "34503": "YS",
                "34532": "HG",
                "34552": "XS",
                "34558": "YE",
                "34593": "ZL",
                "34660": "YQ",
                "34892": "XH",
                "34928": "SC",
                "34999": "QJ",
                "35048": "PB",
                "35059": "SC",
                "35098": "ZC",
                "35203": "TQ",
                "35265": "JX",
                "35299": "JX",
                "35782": "SZ",
                "35828": "YS",
                "35830": "E",
                "35843": "TD",
                "35895": "YG",
                "35977": "MH",
                "36158": "JG",
                "36228": "QJ",
                "36426": "XQ",
                "36466": "DC",
                "36710": "JC",
                "36711": "ZYG",
                "36767": "PB",
                "36866": "SK",
                "36951": "YW",
                "37034": "YX",
                "37063": "XH",
                "37218": "ZC",
                "37325": "ZC",
                "38063": "PB",
                "38079": "TD",
                "38085": "QY",
                "38107": "DC",
                "38116": "TD",
                "38123": "YD",
                "38224": "HG",
                "38241": "XTC",
                "38271": "ZC",
                "38415": "YE",
                "38426": "KH",
                "38461": "YD",
                "38463": "AE",
                "38466": "PB",
                "38477": "XJ",
                "38518": "YT",
                "38551": "WK",
                "38585": "ZC",
                "38704": "XS",
                "38739": "LJ",
                "38761": "GJ",
                "38808": "SQ",
                "39048": "JG",
                "39049": "XJ",
                "39052": "HG",
                "39076": "CZ",
                "39271": "XT",
                "39534": "TD",
                "39552": "TD",
                "39584": "PB",
                "39647": "SB",
                "39730": "LG",
                "39748": "TPB",
                "40109": "ZQ",
                "40479": "ND",
                "40516": "HG",
                "40536": "HG",
                "40583": "QJ",
                "40765": "YQ",
                "40784": "QJ",
                "40840": "YK",
                "40863": "QJG"
            },
            itemCount: 6,// 每个导航字母个数
            // 解析json数据返回对应的首字母
            parseCity: function (map) {
                var that = this;
                map = map || {};
                var preps = [];
                for (var it in map) {
                    preps.push({
                        key: that.makePy(it.substr(0, 1)).length > 1 ? that.getRightKey(it) : that.makePy(it.substr(0, 1))[0],
                        val: it,
                        id: map[it]
                    });
                }
                // chrome Array.sort bug 自定义排序
                preps = that.qsort(preps);
                var res = [], temp = {key: null, list: []}, tempArr = [], count = 0, tempKey = [], item = {};
                for (var i = 0, len = preps.length; i < len; i++) {
                    item = preps[i];
                    if (temp.key != item.key) {
                        if (temp.key != null) {
                            tempArr.push(temp);
                            if (count % that.itemCount == 0) {
                                res.push({
                                    groupKey: tempKey.join(""),
                                    groupList: tempArr.splice(0, that.itemCount)
                                });
                                tempKey.splice(0, that.itemCount);
                            }
                        }
                        temp = {key: item.key, list: []};
                        tempKey.push(item.key);
                        count++;
                    }
                    temp.list.push({
                        val: item.val,
                        id: item.id
                    });
                }
                if (tempKey.length >= 0) {
                    tempArr.push(temp);
                    res.push({
                        groupKey: tempKey.join(""),
                        groupList: tempArr.splice(0, that.itemCount)
                    });
                }
                return res;
            },
            // 快速排序 arr待排序的数组
            qsort: function (arr) {
                if (arr.length <= 1) {
                    return arr;
                }
                var pivotIndex = Math.floor(arr.length / 2);
                var pivot = arr.splice(pivotIndex, 1)[0];
                var left = [];
                var right = [];
                for (var i = 0; i < arr.length; i++) {
                    if (arr[i].key < pivot.key) {
                        left.push(arr[i]);
                    } else {
                        right.push(arr[i]);
                    }
                }
                return this.qsort(left).concat([pivot], this.qsort(right));
            },
            //获取正确的key值(多音字特殊处理)
            getRightKey: function (val) {
                var prep = {
                    "广州": "G",
                    "重庆": "C",
                    "长沙": "C",
                    "沈阳": "S",
                    "厦门": "X",
                    "合肥": "H",
                    "石家庄": "S",
                    "无锡": "W",
                    "长春": "C",
                    "宿迁": "S",
                    "漯河": "L",
                    "长治": "C",
                    "乐山": "L",
                    "佛山": "F"
                };
                return prep[val || ""];
            },
            //参数,中文字符串
            //返回值:拼音首字母串数组
            makePy: function (str) {
                var that = this;
                if (typeof(str) != "string")
                    throw new Error(-1, "函数makePy需要字符串类型参数!");
                var arrResult = new Array(); //保存中间结果的数组
                for (var i = 0, len = str.length; i < len; i++) {
                    //获得unicode码
                    var ch = str.charAt(i);
                    //检查该unicode码是否在处理范围之内,在则返回该码对映汉字的拼音首字母,不在则调用其它函数处理
                    arrResult.push(that.checkCh(ch));
                }
                //处理arrResult,返回所有可能的拼音首字母串数组
                return that.mkRslt(arrResult);
            },
            checkCh: function (ch) {
                var that = this;
                var uni = ch.charCodeAt(0);
                //如果不在汉字处理范围之内,返回原字符,也可以调用自己的处理函数
                if (uni > 40869 || uni < 19968)
                    return ch; //dealWithOthers(ch);
                //检查是否是多音字,是按多音字处理,不是就直接在strChineseFirstPY字符串中找对应的首字母
                return (that.oMultiDiff[uni] ? that.oMultiDiff[uni] : (that.strChineseFirstPY.charAt(uni - 19968)));
            },
            mkRslt: function (arr) {
                var arrRslt = [""];
                for (var i = 0, len = arr.length; i < len; i++) {
                    var str = arr[i];
                    var strlen = str.length;
                    if (strlen == 1) {
                        for (var k = 0; k < arrRslt.length; k++) {
                            arrRslt[k] += str;
                        }
                    } else {
                        var tmpArr = arrRslt.slice(0);
                        arrRslt = [];
                        for (k = 0; k < strlen; k++) {
                            //复制一个相同的arrRslt
                            var tmp = tmpArr.slice(0);
                            //把当前字符str[k]添加到每个元素末尾
                            for (var j = 0; j < tmp.length; j++) {
                                tmp[j] += str.charAt(k);
                            }
                            //把复制并修改后的数组连接到arrRslt上
                            arrRslt = arrRslt.concat(tmp);
                        }
                    }
                }
                return arrRslt;
            }
        }

 注:1、整个思路借鉴网上某位大神写的,

        2、Array.sort方法进行排序有点问题,自己用快排方法搞定了

分享到:
评论

相关推荐

    C++中文汉字转拼音

    总的来说,"C++中文汉字转拼音"项目结合了C++编程、数据结构(如STL map)、文本处理和字典查找算法,是自然语言处理技术在C++中的一个实例应用。通过优化和扩展,它可以成为处理中文文本任务的强大工具。

    Java汉字转拼音(支持多音字)

    在Java编程语言中,将汉字转换为拼音是一项常见的任务,特别是在处理中文文本、搜索引擎优化、语音合成或自然语言处理等领域。这个"Java汉字转拼音(支持多音字)"的主题涉及了如何在Java环境中实现这一功能,特别是...

    C#汉字转拼音(npinyin)将中文转换成拼音全文或首字母

    在IT领域,尤其是在...总的来说,"C#汉字转拼音(npinyin)"库为C#开发者提供了一种强大的工具,使他们能够方便地处理中文字符,将汉字与英文环境下的操作更好地结合在一起,极大地扩展了C#在中文处理领域的应用范围。

    汉字转拼音_汉字转拼音Excel_

    在IT领域,尤其是在数据分析和编程工作...总结来说,汉字转拼音在数据分析和编程中是一项实用的技术,尤其是在处理包含汉字的数据时。通过VBA和Excel,我们可以方便地实现这一转换,为在Stata等工具中的操作铺平道路。

    postgreSQL 拼音字库 汉字转拼音 8.4

    网上传的postgreSQL汉字转拼音的方法,是针对9.3的版本(相信你要是8.4的也搜到了但不能直接用,才来看我的),尝试了8.4的版本来做拼音处理。发现网上的《postgreSQL汉字转拼音》里面坑比较多,尝试纠正了一下,发...

    中文汉字转拼音 大写(默认) 小写 首字母大写

    在IT领域,中文汉字转拼音是一项常见的处理任务,特别是在自然语言处理、文本分析以及编程中。这个任务的主要目的是将汉字转换成对应的汉语拼音,以便计算机能够更好地理解和处理中文信息。以下将详细介绍汉字转拼音...

    UTF8中文转拼音处理类

    PHP的UTF-8中文转拼音处理类,性能已经优化到极致,.优化了传统的拼音转换处理类的算法,专门针对UTF-8字符集进行处理,中文转换到拼音(每次处理一个字符)。如果你使用GBK或GB2312字符集,只需要去掉iconv函数,直接...

    表格汉字转拼音_汉字转拼音_

    在IT行业中,汉字转拼音是一项常见的任务,尤其在编程、数据处理和自然语言处理领域。这个压缩包文件“表格汉字转拼音”显然提供了一个工具或方法来实现这一功能,配合CAD程序加载码,使得在CAD(计算机辅助设计)...

    java汉字转拼音,android汉字转拼音,汉字转拼音首字母,汉字转ASCII

    在IT行业中,尤其是在Java和Android开发中,有时候我们需要将汉字转换为拼音或ASCII码,以便进行文本处理、搜索优化、编码转换等工作。本篇将详细探讨如何在Java和Android环境中实现汉字转拼音以及汉字转ASCII的功能...

    Mysql中文汉字转拼音的实现(每个汉字转换全拼)

    在MySQL中实现中文汉字转拼音的功能,主要是为了方便在数据库查询和数据分析时处理中文文本,尤其是在没有全文索引或者需要进行复杂模糊匹配时。以下是一个简单的实现方法,它利用自定义函数来完成这一任务。 首先...

    UTF8中文转拼音处理类.zip

    PHP的UTF-8中文转拼音处理类,性能已经优化到极致,.优化了传统的拼音转换处理类的算法,专门针对UTF-8字符集进行处理,中文转换到拼音(每次处理一个字符)。如果你使用GBK或GB2312字符集,只需要去掉iconv函数,直接...

    JavaScript中文转拼音,JS中文转拼音插件,中文转拼音(JavaScript)

    标题提到的“JavaScript中文转拼音”就是一种这样的技术,它允许开发者将中文字符串转化为拼音形式,以便于程序处理。 描述中提到,这个压缩包内包含了一个已经开发和测试完成的JS中文转拼音插件,文件包括"pyClass...

    delphi 汉字转拼音组件

    在处理中文字符时,尤其是在需要进行汉字与拼音转换的场景下,Delphi 汉字转拼音组件显得尤为重要。本文将深入探讨这款组件的功能、应用及其在Delphi7环境下的使用方法。 首先,我们要明确这款组件的核心功能——将...

    中文汉字转拼音

    在IT领域,中文汉字转拼音是一项重要的技术,特别是在处理中文数据、搜索引擎优化(SEO)、语音合成、自动文本处理等方面有着广泛的应用。PHP作为一款流行的服务器端脚本语言,提供了多种方法来实现这一功能。本文将...

    汉字转拼音C++源代码

    5. **异常处理**:在处理汉字转拼音时,可能会遇到未知的汉字或编码错误,需要有良好的异常处理机制,以确保程序的稳定运行。 6. **编译环境**:虽然C++代码可以在多种环境下编译,但本项目指定使用VC6.0,这是一个...

    汉字转换拼音 java

    在IT行业中,尤其是在文本处理和自然语言处理领域,汉字转换拼音是一个常见的需求。Java作为一种广泛使用的编程语言,提供了丰富的库和工具来实现这一功能。本文将深入探讨如何使用Java进行汉字转换拼音,以及如何...

    汉字转拼音Delphi代码, 在Delphi2010下也可以实现

    本主题聚焦于在Delphi环境下实现汉字转拼音的功能,这是一个常见的需求,尤其是在处理中文字符、语音合成或者搜索引擎优化时。对于Delphi 7 和 Delphi 2010 这两个不同版本,由于它们之间的编码差异,代码可能需要...

    delphi12 汉字转拼音全拼及简拼 XE

    汉字转拼音是计算机处理中文文本的重要一环。全拼是指将汉字转换为完整的汉语拼音,而简拼则是用简化的形式表示汉字,通常只包含声母和韵母,不包括声调。在Delphi 12 XE中,我们可以利用内置的TCharServices组件...

    oracle汉字转拼音package包-支持UTF8

    总的来说,这个"oracle汉字转拼音package包-支持UTF8"是一个非常实用的工具,可以帮助我们在Oracle数据库环境中有效地处理汉字到拼音的转换问题,尤其适用于处理UTF8编码的多语言数据。正确理解和使用这个Package,...

    中文汉字转拼音的最简便方法

    在IT行业中,中文汉字转拼音是一项常见的需求,特别是在文本处理、搜索引擎优化(SEO)、语音合成等领域。本篇文章将深入探讨中文汉字转拼音的最简便方法,以及如何在实际开发中应用。 首先,我们需要理解什么是...

Global site tag (gtag.js) - Google Analytics