`
JoeDanny
  • 浏览: 64503 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

汉字拼音对照表

    博客分类:
  • java
阅读更多
首先利用系统自带软件生成汉字和拼音的对照表
然后 切割文本内容 , 匹配正则表达式这个类里增加下面2个方法
public void testFileRW() {
		String inFilepath = "拼音文件原位置";
		String outFilepath = "输出位置";
		TestFileOperate tfo = new TestFileOperate();
		try {
			String fileContent = tfo.fileReader(inFilepath, "Unicode", "\n");

			String[] charactPy = tfo.splitString(fileContent, "\n");
			// 匹配器
			Pattern p = Pattern.compile("^[\u4e00-\u9fa5]{1}[\\p{ASCII}]+$");
			Matcher m;
			StringBuffer sbtemp = new StringBuffer();
			for (int i = 0; i < charactPy.length; i++) {
				m = p.matcher(charactPy[i]);
				if (m.matches()) {
//					System.out.println("[匹配的字符:]" + m.group() + "[被匹配的字符串:]"
//							+ charactPy[i] + "[被匹配的长度:]"
//							+ charactPy[i].length());
					sbtemp.append(charactPy[i]).append("\n");
				}
			}
			tfo.fileWriter(outFilepath, "Unicode", sbtemp.toString(),
							1 * 1024 * 1024);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	/**
	 * 测试汉字拼音对照的正则匹配
	 * 
	 */
	public void vtestStrsplit() {
		// String inFilepath = "拼音文件原位置";
		TestFileOperate tfo = new TestFileOperate();
		try {
			// String fileContent = tfo.fileReader(inFilepath, "Unicode", "\n");
			String fileContent = "\nce3=p10+p20+p30\n[Text]\n啊a\n"
					+ "錒a\n阿爸aba\n阿昌achang";
			String[] charactPy = tfo.splitString(fileContent, "\n");

			Pattern p = Pattern.compile("^[\u4e00-\u9fa5]{2,}[\\p{ASCII}]+$");
			// Matcher m = p.matcher(fileContent);
			Matcher m;
			m = p.matcher("阿昌achang");
			if (m.matches()) {
				System.out.println("1");
			}
			for (int i = 0; i < charactPy.length; i++) {
				m = p.matcher(charactPy[i]);
				if (m.lookingAt()) {
					System.out.println("匹配的字符:" + m.group() + "\n被匹配的字符串:"
							+ charactPy[i] + "[被匹配的长度:]"
							+ charactPy[i].length());
				}
			}
			// while (m.find()){
			// MatchResult result = m.toMatchResult();
			// String strgp = result.group();
			// System.out.println(strgp);
			// }
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

    按照规则最后只留下符合 一个汉字后面跟着其拼音 的内容.匹配前的汉字拼音对照表共有56662条,匹配后的汉字拼音对照表共有27901条.
    匹配前的文件为附件里面的 WINPY 字符集为Unicode.TXT 文件, 匹配后的文件为附件里面的 WINPYTemp 字符集为Unicode.TXT 文件.

 

分享到:
评论

相关推荐

    gbk汉字拼音对照表(支持多音字)

    ### gbk汉字拼音对照表(支持多音字) #### 知识点概览 本文将对一份详尽的汉字拼音对照表进行解析,该表覆盖了大量的汉字及其对应的拼音,特别针对多音字提供了全面的支持。这是一份在CSDN上首发的资源,对于学习...

    汉字拼音对照表20777字,excel格式

    序号 汉字 所有读音 第一读音 第二读音 第三读音 1 ○ líng2 ling 2 一 yī1 yi 3 丁 dīng1,zhēng1 ding zheng 4 丂 kǎo3,qiǎo3,yú2 kao qiao yu 5 七 qī1 qi 6 丄 shàng4 shang 7 丅 ...

    【汉字拼音对照表】汉字,全拼

    【汉字拼音对照表】,列分别是:汉字,全拼,单字,一共两万多个汉字,没有多音字的对照,如有错误请评论反馈,以便进行更正,谢谢

    汉字拼音对照表含声调.doc

    文档“汉字拼音对照表含声调.doc”是一个用于学习和参考汉字拼音的重要工具,它包含了汉字与它们对应的拼音,以及声调的表示。拼音是汉语中用来标注读音的系统,对于非母语者或者初学者来说,是理解和掌握汉语发音的...

    UTF8汉字拼音对照表(21966字).xls

    最全UTF8所有汉字、简繁字、生僻字、UTF8字库拼音对照表(21966字)。所有缺字从汉典网补全。

    中文汉字拼音对照表收录27900条记录

    #### 一、汉字拼音对照表概览 本文件提供了一份包含27,900条汉字及其对应的拼音记录。这些记录不仅涵盖了常见的汉字发音,还包括了多音字的不同读法,为语言研究者、教育工作者以及对中国语言文化感兴趣的个人提供...

    GBK汉字拼音对照表(完美版)

    共20777字,包括多音信息,从unihan里提取出来的,仅供研究参考使用。 GBK共21003个汉字,以上不包含的汉字几乎都是日韩汉字。

    GB2312汉字拼音对照表(加声调、不要声调|文本、数据库)

    1. GB2312汉字拼音对照表7809字.txt (附加声调) 2. GB2312汉字拼音对照表.txt 3. py.sql (为直接的SQL可以直接入数据库) 其中py.sql格式如下:汉字 拼音 字母 insert into pinyin (hz, py, zm) values ('啊', 'a'...

    汉字拼音对照表,共7808个简体繁体汉字

    汉字拼音对照表,共7808个简体繁体汉字

    sqlite汉字拼音对照表

    sqlite汉字拼音对照表,有 常用汉字表6986个 和 gbk汉字库21000个 两张表,带汉字的gbk编码

    gb2312汉字拼音对照表

    《GB2312汉字拼音对照表》是一个重要的IT资源,尤其对于中文处理和数据库管理领域具有极高价值。GB2312是中国国家标准的一种字符编码,全称为“信息交换用汉字编码字符集基本集”,是早期广泛使用的中文编码标准,为...

    汉字拼音对照表收录24000条记录

    ### 汉字拼音对照表知识点详解 #### 标题:汉字拼音对照表收录24000条记录 此标题表明该文档是一份关于汉字与拼音对应关系的表格资料,共收录了24,000条记录。这意味着这份资料涵盖了大量常用汉字及其对应的拼音...

    汉字拼音对照表,用access存储

    标题中的“汉字拼音对照表,用access存储”表明这是一个关于汉字与拼音对应关系的数据存储项目,使用了Microsoft Access这一数据库管理系统。Access是一个流行的桌面数据库工具,常用于组织、存储和管理各种类型的...

    汉字拼音对照表-前台通过拼音搜索

    ### 汉字拼音对照表解析与应用:前端拼音搜索技术 #### 核心知识点概览 1. **汉字拼音对照表的意义与作用** 2. **拼音编码规则及其在计算机科学中的应用** 3. **前端拼音搜索算法原理** 4. **优化拼音搜索效率的...

    GBK汉字拼音对照表

    ### GBK汉字拼音对照表知识点概述 #### 一、引言 GBK编码标准是中国大陆地区常用的汉字编码之一,它在GB2312的基础上进行了扩展,支持更多的汉字及符号。本文将详细介绍“GBK汉字拼音对照表”中的部分知识点,帮助...

    SqlServer汉字拼音对照表

    在SQL Server环境中,汉字拼音对照表是一个非常实用的工具,特别是在进行数据处理、搜索或排序时,如果需要将汉字转换为拼音,这样的对照表就能派上大用场。标题提到的"SqlServer汉字拼音对照表"就是一个专为此目的...

Global site tag (gtag.js) - Google Analytics