`

常用语料库语言学相关软件下载

阅读更多

1.concapp04 (concapp03的修订版,可支持超大字符集) 软件
下载地址

http://chinese.hust.edu.cn/Concapp04.exe
         http://chinese.hust.edu.cn/concapp03.exe   (concapp03版)
2.Wconcord----语料库分析软件
软 件介绍:A slow but very stable concordancer that can create concordances, collocation tables, and frequency lists. Unfortunately, the output is limited to 16,000 lines.
下载地址   http://www.corpus4u.com/down_view.asp?id=1

3.WordSmith Tools 4----语料库分析软件
介绍 Michael Scott's brilliant software.
下载地址 http://www.corpus4u.com/down_view.asp?id=2
4. 中科院计算所汉语词法分析系统ICTCLAS
软 件介绍: 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年 研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召 回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注 集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。
下载地址   http://www.ict.ac.cn/freeware/003_ictclas/ictclas.zip

5. 中科院计算所汉语句法分析系统
软 件介绍: 本系统是一个概率型的自然语言句法分析器。系统的分析算法是综合了多种优化策略的改进型chart分析算法。分析结果是概率最大的一棵分析树。在概率模型 方面,本系统也在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,是的分析结果正确率有了明显提高。本系统运行在windows环境 下。
使用说明:系统运行包括两个环节,即build语法环节和parse句子环节。用户首先要调入语法。方式有两种,一是在底部命令行键入 build [grammar file name], 二是点击语法按钮交互式地选择语法文件。之后,只要点击execute按钮即可。分析句子的启动过程类似。分析命令是 parse [sentence file name].
对于句子文件的格式要求是,每行一句,分好词,标记好一级词性。
如:我/r 是/v 学生/n 。/w
用户可以查看到分析树(treeWindow)和分析过程信息(outputWindow)。
下载地址:(1 http://www.ict.ac.cn/freeware/002_prop/propexec.zip
          (2 http://www.ict.ac.cn/freeware/002_prop/propsource.zip
6.海量智能分词研究版FAQ
海 量智能分词技术很好的解决了分词领域中的两大技术难题,即:歧义切分和新词的识别。其中组合歧义的处理一直是分词领域的难点中的难点,海量经过不懈努力, 在解决组合歧义的问题上取得突破,能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用了不同识别算法,其中包括对人名、音译词、机 构团体名称、数量词等新词的识别,其准确率同样达到了同行业的领先水平。正是在这些分词难点上的突破,才造就了如今海量智能分词在实际应用中所表现出的优 秀品质。
下载地址:
   http://www.hylanda.com/cgi-bin/download/count.asp?id=8&url=1
7.文本文件合并器2.0
下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
8.CastExe  
由上海交通大学开发的类似Wordsmith的检索工具,备注: 此软件有很多不完善的地方,但对于初入门的同学来说也是有一定的帮助的。
下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
9.TextPro文本处理程序
这是来自中华佛典 http://www2.fodian.net/tools/index.html )。集成了各种文字处理功能,支持各种文字显示,具有文件合并功能,连在文本中加空格的功能也具备了。有了该软件,似乎很多单一功能的软件要下课了。呵呵!
下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
10.词频分析器
下载地址 http://www.corpus4u.com/down_view.asp?id=9
11.功能强大的文本分析和索引软件Concordance3.2(极力推荐支持超大字符集)
Concordance是文本分析和索引软件,适用于任何需要深入研究文章和分析语言的人士。使用Concordance,你可以建立索引和单词列表,计算单词使用率,比较一个单词的不同用法,分析关键字,查找短语,发布到网站。
下载地址 http://www.concordancesoftware.co.uk/
12.C_Corpus_Res_Final语料库教程 (美国洛杉矶加州大学陶红印教授提供)
下载地址:
   http://chinese.hust.edu.cn/Chinese_Corpus_Resource_Guide.pdf
13.四大古典小说语料库下载:
(下载后请用access软件打开,然后搜索相关的内容即可)
红楼梦: http://ling.ccnu.edu.cn/ylk/hlm.mdb
水浒转: http://ling.ccnu.edu.cn/ylk/shz.mdb
西游记: http://ling.ccnu.edu.cn/ylk/xyj.mdb
三国演义: http://ling.ccnu.edu.cn/ylk/sgyy.mdb
14.现代著名小说家作品标注语料库下载
(下载后请用access软件打开,然后搜索相关的内容即可)
下载地址: http://ling.ccnu.edu.cn/ylk/xiandai.htm
15.国内语料库建设一览表
下载地址 http://www.corpus4u.com/down_view.asp?id=8
16.语料库下载,内容如下:
汉英对照古体诗词一百四十五首
计算所机器翻译句法树库
篇章级对齐英汉双语法律语料
双语句对齐语料库(1500句对
北大《人民日报》语料库标注语料举例
北大《人民日报》语料库校对记录
英汉对照例句集(400句
一个小规模汉语树库(1434句
汉英对照例句集(400句
1998年863汉英机器翻译评测试题
《圣经》双语语料库
实验用的数字语音语料库
下载地址: http://www.nlp.org.cn/categories/default.php?cat_id=9


3.XML与关系数据库转换系统 v1.0
  随着XML的迅速发展,XML正在逐步成为Internet中描述数据的标准。由于企业电子商务是以Internet为基础的,因此,在将来XML文档势 必成为电子商务中数据传输的主要载体。而目前,大多数企业的数据都不是以XML文档来保存的,在很大程度上,大多数企业是采用传统的关系数据库的形式来存 储。于是,如何将现关系数据库数据数据转换为XML文档,以便在Internet上进行传输,是一个非常热门的研究课题。同时,企业为了保持现有的业务处 理系统,不希望立即、完全更改现有的数据存储形式。于是,如何将从Internet上获取到的XML文档的内容保存到已有的关系数据库中,也是企业急需解 决的一个问题。根据这种需求,研究实现XML与关系库转换系统,实现XML文档与关系数据之间的转换,是一个应用方向十分重要,应用领域十分广阔的系统。 XTrans系统起到的是一种中间转换处理单元的作用,也就是说,它负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转 换。系统XTrans提供的功能分布于两个功能模块:映射关系定义模块(XTransStudio)和数据转换处理引擎模块 (XTransEngine)。
  映射定义功能模块(XTransStudio)能够帮助用户方便地定义XML文档和关系数据库中关系表的映射 关系,在这一图形界面的映射关系定义中,用户能的获取XML文档的结构,同时获取关系数据库中的关系表定义,这样就可以方便的定义XML文档和关系数据表 之间的映射关系,并可以讲这些定义的映射关系保存在表示映射关系的特定格式的XML映射关系定义文件中。转换处理引擎功能模块 (XTransEngine)能根据XTransStudio定义的映射文件处理相应XML文档和关系数据的转换。也就是说,它可以根据这一映射定义文件 定义的映射关系控制执行相应XML文档和关系数据库的双向转换。同时,系统能根据所给出的XML文档的DTD定义,采用固定的算法自动生成一系列关系表, 并能进一步生成相应的XML文档与这些关系表的映射关系;此外,本模块还能实现简单的XML文档存储功能,用户只需给定XML文档和相应的DTD,系统就 能通过转换将XML文档的内容以关系数据的形式存储到关系数据库中;在获取XML文档时,同样通过转换的形式,从关系数据库中获取相关内容,重新构造 XML文档。XML与关系数据库转换系统XTrans起到的是一种中间转换处理单元的作用,它负责桥接内部关系数据和外部的XML通信数据。也就是说,它 负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转换。
下载地址: http://www.ios.ac.cn/Welcome.html
分享到:
评论

相关推荐

    常用语料库软件的应用.ppt

    语料库在语言学研究和翻译领域中扮演着至关重要的角色。它们是计算机可读的文本集合,具有一致性,能够方便地进行分析和检索。语料库的基本特征包括其计算机可读性,如常见的txt、xml、html、doc、pdf等格式。一致性...

    多模态语音情感语料库的 语言符号学“全文本”解读.pdf

    【Praat软件】是语音学研究中常用的专业工具,由保罗·博尔斯马和大卫·威宁克开发,用于分析、操作和可视化语音数据,对于标注和分析多模态语音情感语料库十分有用。 综上所述,多模态语音情感语料库的语言符号学...

    LJCorpus语料分析软件

    《LJCorpus语料分析软件:深度解析与应用指南》 在当今信息化时代,语言数据的处理和分析成为了一项重要...无论是学术研究还是企业应用,都能从中受益,提升数据处理的效率和准确性,推动语言学和相关领域的科技进步。

    音视频-编解码-用ELAN自建汉语方言多媒体语料库及其应用研究.pdf

    【音视频编解码与ELAN自建汉语方言多媒体语料库】 音视频技术是现代信息技术中的重要组成部分,尤其在语言学研究、教育、娱乐等领域发挥着关键作用。编解码是音视频处理的核心,涉及将音频和视频信号转换成数字格式...

    《计算语言学》讲义-中科院 刘群教授

    通过本课程的学习,使同学掌握计算语言学的基本理论,了解自然语言处理的常用模型和算法,初步具备从事相关领域研究工作的能力。 内容提要: 第一章 概论 介绍计算语言学的研究对象,研究手段,学科特点,历史...

    大模型文本语料库之CnOpenData谣言数据样本数据

    【标题】:“大模型文本语料库之CnOpenData谣言数据样本数据”是指一个包含大量与谣言相关的文本数据集,这些数据可能被用于训练和评估人工智能,特别是自然语言处理(NLP)的大模型,帮助它们识别、分析和辟谣。...

    词频统计软件,本能英语

    除了词频统计功能,该软件可能还包含了各种语料库,这些语料库可能包含了不同类型的英文文本,如新闻、小说、学术论文等,确保学习者接触到的词汇广泛且实用。语料库的使用能让学习更加贴近实际,有助于培养学习者的...

    SetupTropesVF820法语词频分析软件

    此外,对于语言学家而言,这款软件可以作为一个强大的工具,用于大规模的语料库研究,探究语言演变趋势或者对比不同语言的词汇使用差异。 总而言之,"SetupTropesVF820法语词频分析软件"是一个实用的语言学习和研究...

    英语单词统计软件

    通过分析大量文本数据,它能为用户提供每个单词在特定语料库中的出现次数,从而揭示哪些单词是最常用的,哪些单词可能在特定语境中更为重要。这对于英语学习者来说,可以有针对性地进行单词记忆和巩固,避免无效的...

    computational linguistics

    ### 计算机语言学:模型、资源与应用 #### 引言 计算机语言学(Computational Linguistics)是一门交叉学科,它结合了计算机科学、语言学以及人工智能等多个领域的知识,旨在研究如何通过计算机来处理自然语言。...

    PYTHON自然语言处理(中文版)笔记1

    NLTK提供了多种内置语料库,如布朗语料库、古腾堡语料库、网络文本集和即时聊天会话语料库。例如,`gutenberg.fileids()`可以列出古腾堡语料库中的所有文件,`gutenberg.words('austen-emma.txt')`则返回《爱玛》的...

    大学非英语专业学生英语写作中的主题词研究.docx

    语料库语言学的应用在英语写作教学与研究中日益受到重视。通过对比学习者写作语料库,可以发现中国大学生在书面英语中表现出的口语化倾向,如常用动词使用不足,虚化动词搭配过多等。本研究进一步关注主题词的研究,...

    语法助手,自动纠正,可嵌入办公软件

    在语法助手这类应用中,深度学习可能被用于训练模型来理解和识别语言模式,学习大量语料库中的正确语法结构,以便在实际使用中对用户的输入进行精准分析和纠正。 压缩包内的文件名提供了更多关于该工具的信息: 1. ...

    汉语词频统计软件

    软件的核心功能在于对汉语词汇出现的频率进行科学、准确的统计,这对于语言学研究、教学、文本分析以及机器学习中的自然语言处理等领域都具有极高的实用价值。 首先,我们要理解“词频统计”的概念。词频统计是指在...

    文字转换语音软件

    1. **语料库**:软件的发音质量和自然度很大程度上取决于其背后的语音库,一个丰富多样的语料库能提供更真实的发音。 2. **自定义设置**:用户可以根据需求调整语速、音高、节奏等,以适应不同的场景和听众。 3. **...

    Powerword2008

    通过深度学习和大量语料库的支持,它能更准确地理解和转化词汇、短语乃至整段文本的含义,极大地提高了翻译的准确性和流畅度,是学习外语和进行跨文化交流的得力助手。 其次,Powerword2008的界面设计简洁友好,...

    book1-class1.rar_教学软件

    【描述】提到的"900句英语教学软件"意味着这个软件包含了900个不同的英文句子,旨在提供丰富的语料库,以供学习者听、说、模仿和理解。它可以作为教师的教学辅助工具,帮助学生提升听力和口语技能。"可以单句反复...

    金山快译2007软件

    为了保证翻译的准确性和地道性,金山快译2007内置了庞大的词汇库和语料库,涵盖各个领域的专业术语。这些数据库不断更新,确保了翻译结果的时效性和专业性。同时,软件还支持用户自定义词典,用户可以添加个人常用...

    A Comparative Evaluation

    然而,现有错误检测方法的比较评估受到缺乏大型且常用评价语料库的限制。为克服这一挑战,研究者们创建了一个包含四种常见语法错误的大规模错误语料库,并基于此语料库进行了评估实验。 #### 深度处理方法 深度...

    cocca词频表1千1组0到1万共10组

    标签“cocca”指的是这个词汇表基于的是Coca(Corpus of Contemporary American English)语料库,这是一个庞大的、真实的现代美式英语语料库,涵盖了口语、书面语等多种语言形式,是语言研究和教学的重要资源。...

Global site tag (gtag.js) - Google Analytics