首先
利用系统自带软件生成汉字和拼音的对照表 然后
切割文本内容 ,
匹配正则表达式在
这个类里增加下面2个方法
public void testFileRW() {
String inFilepath = "拼音文件原位置";
String outFilepath = "输出位置";
TestFileOperate tfo = new TestFileOperate();
try {
String fileContent = tfo.fileReader(inFilepath, "Unicode", "\n");
String[] charactPy = tfo.splitString(fileContent, "\n");
// 匹配器
Pattern p = Pattern.compile("^[\u4e00-\u9fa5]{1}[\\p{ASCII}]+$");
Matcher m;
StringBuffer sbtemp = new StringBuffer();
for (int i = 0; i < charactPy.length; i++) {
m = p.matcher(charactPy[i]);
if (m.matches()) {
// System.out.println("[匹配的字符:]" + m.group() + "[被匹配的字符串:]"
// + charactPy[i] + "[被匹配的长度:]"
// + charactPy[i].length());
sbtemp.append(charactPy[i]).append("\n");
}
}
tfo.fileWriter(outFilepath, "Unicode", sbtemp.toString(),
1 * 1024 * 1024);
} catch (IOException e) {
e.printStackTrace();
}
}
/**
* 测试汉字拼音对照的正则匹配
*
*/
public void vtestStrsplit() {
// String inFilepath = "拼音文件原位置";
TestFileOperate tfo = new TestFileOperate();
try {
// String fileContent = tfo.fileReader(inFilepath, "Unicode", "\n");
String fileContent = "\nce3=p10+p20+p30\n[Text]\n啊a\n"
+ "錒a\n阿爸aba\n阿昌achang";
String[] charactPy = tfo.splitString(fileContent, "\n");
Pattern p = Pattern.compile("^[\u4e00-\u9fa5]{2,}[\\p{ASCII}]+$");
// Matcher m = p.matcher(fileContent);
Matcher m;
m = p.matcher("阿昌achang");
if (m.matches()) {
System.out.println("1");
}
for (int i = 0; i < charactPy.length; i++) {
m = p.matcher(charactPy[i]);
if (m.lookingAt()) {
System.out.println("匹配的字符:" + m.group() + "\n被匹配的字符串:"
+ charactPy[i] + "[被匹配的长度:]"
+ charactPy[i].length());
}
}
// while (m.find()){
// MatchResult result = m.toMatchResult();
// String strgp = result.group();
// System.out.println(strgp);
// }
} catch (Exception e) {
e.printStackTrace();
}
}
按照规则最后只留下符合 一个汉字后面跟着其拼音 的内容.匹配前的汉字拼音对照表共有56662条,匹配后的汉字拼音对照表共有27901条.
匹配前的文件为附件里面的
WINPY 字符集为Unicode.TXT 文件, 匹配后的文件为附件里面的
WINPYTemp 字符集为Unicode.TXT 文件.
- 汉语拼音对照表.zip (411.1 KB)
- 描述: 汉语拼音对照表, 字符集编码都为Unicode
- 下载次数: 481
分享到:
相关推荐
### gbk汉字拼音对照表(支持多音字) #### 知识点概览 本文将对一份详尽的汉字拼音对照表进行解析,该表覆盖了大量的汉字及其对应的拼音,特别针对多音字提供了全面的支持。这是一份在CSDN上首发的资源,对于学习...
序号 汉字 所有读音 第一读音 第二读音 第三读音 1 ○ líng2 ling 2 一 yī1 yi 3 丁 dīng1,zhēng1 ding zheng 4 丂 kǎo3,qiǎo3,yú2 kao qiao yu 5 七 qī1 qi 6 丄 shàng4 shang 7 丅 ...
【汉字拼音对照表】,列分别是:汉字,全拼,单字,一共两万多个汉字,没有多音字的对照,如有错误请评论反馈,以便进行更正,谢谢
文档“汉字拼音对照表含声调.doc”是一个用于学习和参考汉字拼音的重要工具,它包含了汉字与它们对应的拼音,以及声调的表示。拼音是汉语中用来标注读音的系统,对于非母语者或者初学者来说,是理解和掌握汉语发音的...
最全UTF8所有汉字、简繁字、生僻字、UTF8字库拼音对照表(21966字)。所有缺字从汉典网补全。
#### 一、汉字拼音对照表概览 本文件提供了一份包含27,900条汉字及其对应的拼音记录。这些记录不仅涵盖了常见的汉字发音,还包括了多音字的不同读法,为语言研究者、教育工作者以及对中国语言文化感兴趣的个人提供...
共20777字,包括多音信息,从unihan里提取出来的,仅供研究参考使用。 GBK共21003个汉字,以上不包含的汉字几乎都是日韩汉字。
1. GB2312汉字拼音对照表7809字.txt (附加声调) 2. GB2312汉字拼音对照表.txt 3. py.sql (为直接的SQL可以直接入数据库) 其中py.sql格式如下:汉字 拼音 字母 insert into pinyin (hz, py, zm) values ('啊', 'a'...
汉字拼音对照表,共7808个简体繁体汉字
《GB2312汉字拼音对照表》是一个重要的IT资源,尤其对于中文处理和数据库管理领域具有极高价值。GB2312是中国国家标准的一种字符编码,全称为“信息交换用汉字编码字符集基本集”,是早期广泛使用的中文编码标准,为...
### 汉字拼音对照表知识点详解 #### 标题:汉字拼音对照表收录24000条记录 此标题表明该文档是一份关于汉字与拼音对应关系的表格资料,共收录了24,000条记录。这意味着这份资料涵盖了大量常用汉字及其对应的拼音...
标题中的“汉字拼音对照表,用access存储”表明这是一个关于汉字与拼音对应关系的数据存储项目,使用了Microsoft Access这一数据库管理系统。Access是一个流行的桌面数据库工具,常用于组织、存储和管理各种类型的...
### 汉字拼音对照表解析与应用:前端拼音搜索技术 #### 核心知识点概览 1. **汉字拼音对照表的意义与作用** 2. **拼音编码规则及其在计算机科学中的应用** 3. **前端拼音搜索算法原理** 4. **优化拼音搜索效率的...
### GBK汉字拼音对照表知识点概述 #### 一、引言 GBK编码标准是中国大陆地区常用的汉字编码之一,它在GB2312的基础上进行了扩展,支持更多的汉字及符号。本文将详细介绍“GBK汉字拼音对照表”中的部分知识点,帮助...
在SQL Server环境中,汉字拼音对照表是一个非常实用的工具,特别是在进行数据处理、搜索或排序时,如果需要将汉字转换为拼音,这样的对照表就能派上大用场。标题提到的"SqlServer汉字拼音对照表"就是一个专为此目的...