package com.anxin.ssk.common; import java.io.UnsupportedEncodingException; import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * 取得给定汉字串的首字母串,即声母串 Title: ChineseCharToEn(含常用汉字,不常见汉字及多音字) * * @author: (le.qiao) * @e-mail: qiaolevip@gmail.com * @myblog: <a href="http://qiaolevip.iteye.com">http://qiaolevip.iteye.com</a> * @date: 2014-1-15 注:只支持GB2312字符集中的汉字 * */ public class LetterUtil { private final static int[] li_SecPosValue = { 1601, 1637, 1833, 2078, 2274, 2302, 2433, 2594, 2787, 3106, 3212, 3472, 3635, 3722, 3730, 3858, 4027, 4086, 4390, 4558, 4684, 4925, 5249, 5590 }; private final static String[] lc_FirstLetter = { "a", "b", "c", "d", "e", "f", "g", "h", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "w", "x", "y", "z" }; private static Map<String, String> exceptWords = new HashMap<String, String>(); static { exceptWords.put("a", "庵鳌"); exceptWords.put("b", "璧亳並侼別匂"); exceptWords.put("c", "茌丞丒丳刅"); exceptWords.put("d", "渎砀棣儋丟"); exceptWords.put("e", ""); exceptWords.put("f", "邡冹兝"); exceptWords.put("g", "崮藁莞丐丱乢亁仠冮匃匄"); exceptWords.put("h", "骅珲潢湟丆冴匢"); exceptWords.put("j", "泾蛟暨缙旌莒鄄丌丩丮丯丼亅伋冏匊匛匞"); exceptWords.put("k", "丂匟"); exceptWords.put("l", "崂涞栾溧漯浏耒醴泸阆崃両刢劽啰"); exceptWords.put("m", "渑汨丏冐冺兞冇"); exceptWords.put("n", ""); exceptWords.put("o", "瓯"); exceptWords.put("p", "邳濮郫丕伂冸"); exceptWords.put("q", "喬綦衢岐朐邛丠丬亝冾兛匤"); exceptWords.put("r", "榕刄"); exceptWords.put("s", "泗睢沭嵊歙莘嵩鄯丄丗侺兙"); exceptWords.put("t", "潼滕郯亣侹侻"); exceptWords.put("w", "婺涠汶亾仼卍卐"); exceptWords.put("x", "鑫盱浔荥淅浠亵丅伈兇"); exceptWords.put("y", "懿眙黟颍兖郓偃鄢晏丣亜伇偐円匜"); exceptWords.put("z", "梓涿诏柘秭圳伀冑刣"); } private final static String polyphoneTxt = "重庆|cq,音乐|yy"; /** * 取得给定汉字串的首字母串,即声母串 * * @param str 给定汉字串 * @return 声母串 */ public static String getAllFirstLetter(String str) { if (str == null || str.trim().length() == 0) { return ""; } // 多音字判定 for (String polyphone : polyphoneTxt.split(",")) { String[] chinese = polyphone.split("[|]"); if (str.indexOf(chinese[0]) != -1) { str = str.replace(chinese[0], chinese[1]); } } String _str = ""; for (int i = 0; i < str.length(); i++) { _str = _str + getFirstLetter(str.substring(i, i + 1)); } return _str; } /** * 取得给定汉字的首字母,即声母 * * @param chinese 给定的汉字 * @return 给定汉字的声母 */ public static String getFirstLetter(String chinese) { if (chinese == null || chinese.trim().length() == 0) { return ""; } String chineseTemp = chinese; chinese = conversionStr(chinese, "GB2312", "ISO8859-1"); if (chinese.length() > 1) { // 判断是不是汉字 int li_SectorCode = (int) chinese.charAt(0); // 汉字区码 int li_PositionCode = (int) chinese.charAt(1); // 汉字位码 li_SectorCode = li_SectorCode - 160; li_PositionCode = li_PositionCode - 160; int li_SecPosCode = li_SectorCode * 100 + li_PositionCode; // 汉字区位码 if (li_SecPosCode > 1600 && li_SecPosCode < 5590) { for (int i = 0; i < 23; i++) { if (li_SecPosCode >= li_SecPosValue[i] && li_SecPosCode < li_SecPosValue[i + 1]) { chinese = lc_FirstLetter[i]; break; } } } else { // 非汉字字符,如图形符号或ASCII码 chinese = matchPinYin(chinese); } } // 如还是无法匹配,再次进行拼音匹配 if (chinese.equals("?")) { chinese = matchPinYin(chineseTemp, false); } return chinese; } /** * 汉字匹配拼音对照 * * @param chinese * @return */ private static String matchPinYin(String chinese, boolean needConvert) { String chineseTemp = chinese; if (needConvert) { chinese = conversionStr(chinese, "ISO8859-1", "GB2312"); } chinese = chinese.substring(0, 1); // findRepeatWord(exceptWords); for (Entry<String, String> letterSet : exceptWords.entrySet()) { if (letterSet.getValue().indexOf(chinese) != -1) { chinese = letterSet.getKey(); break; } } chinese = chineseTemp.equals(chinese) ? "?" : chinese; return chinese; } private static String matchPinYin(String chinese) { return matchPinYin(chinese, true); } /** * 字符串编码转换 * * @param str 要转换编码的字符串 * @param charsetName 原来的编码 * @param toCharsetName 转换后的编码 * @return 经过编码转换后的字符串 */ private static String conversionStr(String str, String charsetName, String toCharsetName) { try { str = new String(str.getBytes(charsetName), toCharsetName); } catch (UnsupportedEncodingException ex) { System.out.println("字符串编码转换异常:" + ex.getMessage()); } return str; } public static void main(String[] args) { String content = "丬"; String pinyin = ""; String contentAll = ""; String pinyinAll = ""; for (int i = 21000; i <= 22000; i++) { content = ((char) i) + ""; pinyin = LetterUtil.getFirstLetter(content); if (pinyin.equals("?")) { contentAll += content; pinyinAll += pinyin; } } System.out.println("获取拼音首字母:" + contentAll + ":" + pinyinAll); // String address = "(金浜小区)栖山路1689弄"; // address = address.substring(address.indexOf(")") + 1); // System.out.println("获取拼音首字母:" + LetterUtil.getFirstLetter(address)); } @SuppressWarnings("unused") private static void findRepeatWord(Map<String, String> wordsMap) { String words = wordsMap.values().toString().replaceAll("[, ]", ""); words = words.substring(1, words.length() - 1); for (char word : words.toCharArray()) { int count = findStr2(words, String.valueOf(word)); if (count > 1) { System.out.println("汉字:【" + word + "】出现了" + count + "次!"); } } } private static int findStr2(String srcText, String keyword) { int count = 0; Pattern p = Pattern.compile(keyword); Matcher m = p.matcher(srcText); while (m.find()) { count++; } return count; } }
相关推荐
在Java编程语言中,处理汉字转换为拼音、获取汉字首字母以及处理多音字的问题是一项常见的任务,尤其在中文信息处理、搜索引擎优化(SEO)或者中文输入法开发等领域。这里我们将详细探讨这些知识点。 首先,我们要...
java提取汉字拼音首字母的代码,简体中文的编码范围从B0A1(45217)一直到F7FE(63486),不支持多音字处理
这个“java汉字转拼音代码+多音字词汇表”资源提供了一个工具类,用于高效地完成这个任务。下面将详细讨论相关知识点。 1. **汉字转拼音**: 汉字转拼音是将汉字转化为对应的汉语拼音的过程。在Java中,可以使用...
对于汉字转拼音首字母,可以稍微简化上述过程,只取每个汉字拼音的第一个字母。在Java和Android中,这通常通过遍历`Pinyin4j`返回的拼音数组并提取首字母来实现。 接下来,我们讨论汉字转ASCII。由于汉字不是ASCII...
3. **处理多音字**:许多汉字有多个读音,根据上下文选择合适的拼音,或者提供所有可能的读音。 4. **提取首字母**:从拼音中提取首字母,用于快速索引或搜索。 5. **处理批量转换**:"支持多个汉字一起转"意味着...
汉语拼音是用拉丁字母表示汉字发音的一种方式,全拼是每个汉字对应的完整拼音,而首字母则是每个汉字拼音的首个字母,通常用于制作简化的关键词索引。在Java中,我们可以利用开源库或者自定义算法来实现这个功能。 ...
在给定的"取汉字拼音首字母的Demo"中,开发者可能遇到了这样的需求:用户界面显示一个ListView,其中的数据需要按照每个条目标题的汉字拼音首字母进行排序。这种功能常见于电话簿应用或者任何需要快速查找的列表。 ...
AutoCompleteTextView具有输入提示的功能,但是它的这种提示不适合对股票...还有个问题,汉字具有多音字,如何实现多音字的匹配,比如“长江证券”,无论你输入“cjzq”或者“zjzq”都会匹配到它,此DEMO都可以解决。
3. **多音字处理**:许多汉字有不同的读音,这取决于它们在句子中的上下文。好的工具包会考虑这种情况,提供多种可能的拼音结果。 4. **性能优化**:为了在前端高效运行,这个工具包可能进行了优化,确保在大量汉字...
"安卓获取汉字拼音首字母工具类封装"就是一个这样的解决方案,它提供了一种便捷的方式来处理汉字与拼音之间的转换,以适配与IndexBar-master这种通讯录开源控件的配合使用。 首先,我们要理解工具类在编程中的作用...
对于多音字,可能需要额外处理,选择最常见的读音作为首字母。 7. **实际应用示例** 在实际的应用中,我们可能需要处理包含多个汉字的字符串。这时,可以编写一个函数,遍历字符串中的每个字符,分别获取它们的...
java 写的把汉字转换成拼音首字母,提供最全的字库。增加了多音字的处理。
在Java编程中,提取汉字首字母是一项常见的任务,特别是在处理汉字数据、建立索引或进行拼音搜索时。这个任务涉及到字符编码、Unicode和中文字符处理。以下是对这一知识点的详细阐述: 1. **字符编码**:汉字在...
此外,`pkg_A_UniApp_B`包可能包含类似但更复杂或优化的实现,例如处理全拼、多音字或特殊字符的情况。在实际应用中,可能需要根据需求进行相应的调整,例如增加错误处理、缓存处理或优化性能。 总的来说,通过PL/...
### Oracle 获取汉字拼音首字母 在Oracle数据库中实现获取汉字拼音首字母的需求,通常涉及到对中文字符的处理以及拼音转换的技术。这样的功能可以应用于多种场景,例如数据排序、索引建立或是快速检索等。本文将...
总的来说,这个"java获取汉字首字母+jar"的资源为Java开发者提供了一种便捷的方式来处理汉字到拼音首字母的转换,特别是对于多音字的识别,使得在处理汉字文本时能更加灵活和准确。在使用时,开发者需要了解库的API...
在Java编程语言中,处理汉字并获取其首字母是一项常见的任务,特别是在中文信息处理、搜索引擎优化(SEO)或拼音输入法等场景下。这个过程通常涉及到汉字与Unicode编码的转换,因为Java内部使用Unicode来表示字符。...
汉字拼音首字母转换是一种常见的中文处理技术,尤其在计算机编程和信息检索中有着广泛的应用。这一技术基于中文字符集和拼音编码规则,可以将汉字转化为其对应的拼音首字母,便于快速搜索、信息分类或者实现其他自动...
- 多音字问题:有些汉字有多个读音,程序可能需要选择最常见或合适的读音。 - 精确度:现成的库可能无法处理所有汉字,尤其是生僻字,可能会导致转换错误。 通过这个VC++小程序,开发者可以获得处理汉字到拼音首...