汉字拼音对照表

JoeDanny

浏览: 65270 次
性别:
来自: 杭州

最近访客更多访客>>

jinyucangfeng

toucHero

G_sirius

dosun

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

正则表达式软件测试

首先利用系统自带软件生成汉字和拼音的对照表
然后切割文本内容 , 匹配正则表达式在这个类里增加下面2个方法

public void testFileRW() {
		String inFilepath = "拼音文件原位置";
		String outFilepath = "输出位置";
		TestFileOperate tfo = new TestFileOperate();
		try {
			String fileContent = tfo.fileReader(inFilepath, "Unicode", "\n");

			String[] charactPy = tfo.splitString(fileContent, "\n");
			// 匹配器
			Pattern p = Pattern.compile("^[\u4e00-\u9fa5]{1}[\\p{ASCII}]+$");
			Matcher m;
			StringBuffer sbtemp = new StringBuffer();
			for (int i = 0; i < charactPy.length; i++) {
				m = p.matcher(charactPy[i]);
				if (m.matches()) {
//					System.out.println("[匹配的字符:]" + m.group() + "[被匹配的字符串:]"
//							+ charactPy[i] + "[被匹配的长度:]"
//							+ charactPy[i].length());
					sbtemp.append(charactPy[i]).append("\n");
				}
			}
			tfo.fileWriter(outFilepath, "Unicode", sbtemp.toString(),
							1 * 1024 * 1024);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	/**
	 * 测试汉字拼音对照的正则匹配
	 * 
	 */
	public void vtestStrsplit() {
		// String inFilepath = "拼音文件原位置";
		TestFileOperate tfo = new TestFileOperate();
		try {
			// String fileContent = tfo.fileReader(inFilepath, "Unicode", "\n");
			String fileContent = "\nce3=p10+p20+p30\n[Text]\n啊a\n"
					+ "錒a\n阿爸aba\n阿昌achang";
			String[] charactPy = tfo.splitString(fileContent, "\n");

			Pattern p = Pattern.compile("^[\u4e00-\u9fa5]{2,}[\\p{ASCII}]+$");
			// Matcher m = p.matcher(fileContent);
			Matcher m;
			m = p.matcher("阿昌achang");
			if (m.matches()) {
				System.out.println("1");
			}
			for (int i = 0; i < charactPy.length; i++) {
				m = p.matcher(charactPy[i]);
				if (m.lookingAt()) {
					System.out.println("匹配的字符:" + m.group() + "\n被匹配的字符串:"
							+ charactPy[i] + "[被匹配的长度:]"
							+ charactPy[i].length());
				}
			}
			// while (m.find()){
			// MatchResult result = m.toMatchResult();
			// String strgp = result.group();
			// System.out.println(strgp);
			// }
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

按照规则最后只留下符合一个汉字后面跟着其拼音的内容.匹配前的汉字拼音对照表共有56662条,匹配后的汉字拼音对照表共有27901条.
匹配前的文件为附件里面的 WINPY 字符集为Unicode.TXT 文件, 匹配后的文件为附件里面的 WINPYTemp 字符集为Unicode.TXT 文件.

汉语拼音对照表.zip (411.1 KB)
描述: 汉语拼音对照表, 字符集编码都为Unicode
下载次数: 481

分享到：

ImageMagick Jmagick jvm crash | java切割文本内容

2008-01-17 16:13
浏览 6849
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

汉字拼音对照表

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

汉字拼音对照表

评论

发表评论

相关推荐

获取工程路径(jar和普通文件结构通用) -- java

答复: 奇怪的Servlet中文乱码问题

Java 2D API 程序员指南

ImageMagick Jmagick jvm crash

java切割文本内容

答复: outofMemoryError:java heap space异常

答复: c3p0数据库连接池问题

object

测试 验证手机号码

TestNull

TestSQLDate

TestURLConnection

UploadTestFileServlet

最近访客更多访客>>

测试验证手机号码