- 浏览: 39314 次
- 性别:
- 来自: 武汉
最新评论
-
yangfan57319:
先参考参考吧。
Yard中文分词系统V0.2.0版发布附全部源代码 -
lvshuding:
Alex2008 写道楼主有没有文档行之类的东西,刚开始学习这 ...
Yard中文分词系统V0.2.0版发布附全部源代码 -
折翼天彬:
还有待加强啊·这个网站··页面兼容优化等方面都有很大进步空间 ...
分享生活,给您精彩!! -
JonyUabka:
闻风而来,前来学习。
Yard中文分词系统V0.2.0版发布附全部源代码 -
zjw_inrain:
我想知道怎么建立自己的词典....
可否给点建议?
Yard中文分词系统V0.2.0版发布附全部源代码
相关推荐
现代汉语词汇表(共38285个).xls
现代汉语动词表(共2K条)
- **“己”**:古代汉语中的第一人称代词,现代汉语中不常用,对现代文本分析无实际意义。 - **“规定”**:尽管在某些上下文中很重要,但在大量文本中出现时,它通常不携带特定的主题信息。 - **“一直”**:表示...
搜狗的停词表经过精心挑选,适应了现代汉语的特性,可以广泛应用于各种NLP场景,如文本摘要、情感分析、机器翻译等。对于初学者和专业人士来说,这份停词表是一个可靠的参考,可以帮助他们优化自己的NLP系统。 总的...
这个列表通常是基于《现代汉语常用词表》等标准编制的,涵盖了日常生活、学习和工作的基本词汇。 【标签】:“鼠标手写输入 VB” “鼠标手写输入”标签表明了程序的主要功能,即通过鼠标实现汉字输入;“VB”标签...
现代汉语语料库是语言学研究中的重要资源,主要用于深入理解和分析现代汉语的语言现象。它是由3500个常用汉字构成的大量文本数据集合,经过精心清洗和去重处理,确保了数据的质量和准确性。这个语料库包含了554,026...
1. **收集基础词表**:首先,根据语言学原理和统计方法,收集基础的停用词集合,如汉语中常用的“的”、“了”、“是”等。 2. **领域适应性调整**:根据不同领域文本的特点,调整停用词列表,确保其适用于特定的...
中文电子词表是中文信息处理领域的一项基础工作,它的应用覆盖了中文文本自动分词、文本检索、文本校对、语音输出、语音识别、机器翻译和汉语机器理解等多个领域。中国的研究者从20世纪80年代中后期开始研制中文电子...
特别推荐使用「现代汉语常用词表」,让你摆脱 Rime 自带词表规模过大查找不便 / 港台词汇过多的问题。 Snapshot Linux Snapshot: macOS Snapshot: apathy scheme: homepage scheme: Emoji Snapshot: Kaomoji ...
汉语外来词的翻译采取的两种主要方法是音译与意译。由于汉语构词时却往往带有一种抗拒音译的倾向,因此汉语中外来词的翻译经历了由音译到意译的过程,但近几年来,音译外来词的数量却与日俱增。文章试图分析抗拒音译的...
而到了1959年和1987年,郑林曦先生编撰的《普通话三千常用词表》成为了我国首部汉语语法分词类排列的常用词表。该词表不仅为普通话教学提供参考,还经过了常用性检验,证明了其科学性和实用性。 1980年代,娄警予、...
1. **中文停用词表**:这是最基础的中文停用词表,包含了常见的汉语助词、介词、连词等。这些词在文本中非常常见,但在分析主题或情感时往往不提供太多有用信息。 2. **哈工大停用词表**:哈尔滨工业大学发布的停用...
jieba还引入了TF-IDF等统计方法来提升分词效果,确保在大量文本数据中找到最常用的词汇。 除了基础的分词功能,jieba还支持用户自定义词典,这意味着用户可以根据自己的需求添加专业术语或者特定词汇,进一步提高...
这份"characters-master"可能包含了经过精心筛选的常用停用词列表,覆盖了现代汉语的各种常见场景,可能包括但不限于新闻、社交媒体、网络论坛等不同来源的文本。 在实际应用中,这些停用词可以用于多种任务,比如...
新HSK1词汇表中包含的词汇和知识点涉及基础汉语词汇的学习,这些词汇是汉语作为第二语言学习者在入门阶段需要掌握的基本表达。词汇内容覆盖了日常生活中常用的名词、动词、形容词、副词、数词等词类。 1. 名词类...
**维吾尔文Unicode编码表**是针对现代维吾尔文中使用的字母、标点符号等字符制定的一种标准化编码方案。该编码表遵循Unicode国际标准,确保了维吾尔文在数字设备上的统一表示与兼容性。 #### 描述:标准的Unicode...
7. “电脑”和“电视”是现代生活中常见的电器,代表了技术在日常生活中的应用。 8. “的”、“和”、“了”是汉语中的虚词,它们在句子中起到连接和表示时态的作用。 9. “工作”和“学习”是描述人们活动和职责的...
在这个词库中,每个词语后面都附带了其对应的词性,如名词(n)、动词(v)、形容词(a)等,这些词性标签按照《现代汉语词典》等权威参考书目进行标注,使得词语的用法更为清晰。例如,“中国”通常被标记为名词(n...
例如,《信息处理用现代汉语分词规范》1992对分词的标准化起到了推动作用。不同的应用场景对词汇的要求不同,如校对系统更关注含易错字的词组,而键盘输入系统则倾向于以高频率连接的字作为输入单位。 分词过程中,...