- 浏览: 230742 次
- 性别:
- 来自: 天朝帝都
文章分类
最新评论
-
hanmiao:
CSDN 博客地址是这個?http://blog.csdn.n ...
将博客搬至CSDN -
chenwq:
下载了,谢谢分享!
R语言学习入门 -
bbsunchen:
今天跟英姐聊天,她verbal考了151,不够啊,数学也不高。 ...
跟我一起考GRE(三) -
bbsunchen:
qinger说得对我今年只做三件事情:考好GRE,考好TOEF ...
IT行业成功必备的素质 -
bbsunchen:
还有8天就考试了,哥还在过单词啊
跟我一起考GRE(三)
最近扫到生物信息学软件的paper,发现有很多bioinformatics的toolkit,这里介绍一个bow,剩下有些我也打不开,但是关于svm等等的toolkit还是很多的
比如 SVM light http://svmlight.joachims.org/
PASBio http://research.nii.ac.jp/~collier/projects/PASBio/
POSTLAB http://rostlab.org/cms/index.php?id=94
http://nlp.stanford.edu/downloads/lex-parser.shtml
Bow: A Toolkit for Statistical Language Modeling, Text Retrieval, Classification and Clustering
Bow (or libbow) is a library of C code useful for writing statistical text analysis, language modeling and information retrieval programs. The current distribution includes the library, as well as front-ends for document classification (rainbow), document retrieval (arrow) and document clustering (crossbow).
The library and its front-ends were designed and written by Andrew McCallum, with some contributions from several graduate and undergraduate students.
The name of the library rhymes with `low', not `cow'.
About the library
The library provides facilities for:
- Recursively descending directories, finding text files.
- Finding `document' boundaries when there are multiple documents per file.
- Tokenizing a text file, according to several different methods.
- Including N-grams among the tokens.
- Mapping strings to integers and back again, very efficiently.
- Building a sparse matrix of document/token counts.
- Pruning vocabulary by word counts or by information gain.
- Building and manipulating word vectors.
- Setting word vector weights according to Naive Bayes, TFIDF, and several other methods.
- Smoothing word probabilities according to Laplace (Dirichlet uniform), M-estimates, Witten-Bell, and Good-Turning.
- Scoring queries for retrieval or classification.
- Writing all data structures to disk in a compact format.
- Reading the document/token matrix from disk in an efficient, sparse fashion.
- Performing test/train splits, and automatic classification tests.
- Operating in server mode, receiving and answering queries over a socket.
The library does not:
- Have English parsing or part-of-speech tagging facilities.
- Do smoothing across N-gram models.
- Claim to be finished.
- Have good documentation.
- Claim to be bug-free.
It is known to compile on most UNIX systems, including Linux, Solaris, SUNOS, Irix and HPUX. Over a year ago, it compiled on WindowsNT (with a GNU build environment); it doesn't do this any more, but probably could with small fixes. Patches to the code are most welcome. It is developed on a Linux system.
The code conforms to the GNU coding standards. It is released under the Library GNU Public License (LGPL).
Citation
You are welcome to use the code under the terms of the licence for research or commercial purposes, however please acknowledge its use with a citation:
McCallum, Andrew Kachites. "Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering." http://www.cs.cmu.edu/~mccallum/bow. 1996.
Here is a BiBTeX entry:
@unpublished{McCallumLibbow, author = "Andrew Kachites McCallum", title = "Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering", note = "http://www.cs.cmu.edu/~mccallum/bow", year = 1996}
Obtaining the Source
Source code for the library can be downloaded from this directory. Different versions are indicated by eight digit sequences that indicate year, month and day. Thus, the most recent version is the one with the largest version number.
Unfortunately I do not have time to help rainbow's many users with all their compilation and usage problems. Feel free to send me mail asking for help, but please do not necessarily expect me to have time to help. Most appreciated are bug reports accompanied by fixes.
Bow Library Front-Ends
Provided in the library source distribution, there are currently three executable programs based on the library.
- Rainbow is an executable program that does document classification. While mostly designed for classification by naive Bayes, it also provides TFIDF/Rocchio, Probabilistic Indexing and K-nearest neighbor.
- Arrow is an executable program that does document retrieval. It currently only performs simple TFIDF-based retrieval.
- Crossbow is a an executable program that does document clustering (and also classification).
发表评论
-
pan-genome analysis sample code
2012-12-25 12:50 1065This is a C++ demo for pan-geno ... -
绦虫基因组研究方法
2012-12-21 21:21 962今天跟一个同学讨论了绦虫基因组研究方法,同时我也看到一些同学在 ... -
PyDev,在Eclipse中运行python
2012-04-20 10:38 2387最近学python做高精度运算。 虽然网上有很多高精度运算的 ... -
并行计算的强大
2012-04-17 10:36 1542最近在处理一批数据,10的8次方,处理完毕大概要一个月,并且这 ... -
生物信息学工具使用的经验之谈
2012-01-16 18:08 1548荣耀归于上帝, ... -
如何保持开放的头脑
2012-01-07 15:14 1213世界向我打开一扇大门,我却选择转过身,背对这个世界。 ... -
ortholog/inparalog/coortholog
2012-01-04 16:52 1812Homologs which originat ... -
非root权限用户安装perl模块
2012-01-04 09:36 3091网上有很多说非root权限怎么安装perl模块的帖子,我觉 ... -
非root权限安装perl
2012-01-03 21:18 1659在使用Linux或是unix ... -
运行interproscan/iprscan会遇到的问题
2012-01-01 21:28 16351. 运行iprscan的时候,一般需要根据机器的能力和安装i ... -
Interproscan性能测试
2011-12-28 20:50 1628interproscan的安装和运行,很多网站都有介绍,这里主 ... -
华大的生物信息培训教材
2011-12-19 15:45 1259LOL... -
PAML中文文档/计算分子进化
2011-12-12 16:14 2781先说PAML中文文档,PA ... -
Qt程序在windows下的发布
2011-12-02 14:21 1564这个问题,其实 Qt 的 manual 中解释的已经比较 ... -
【原创】用C++(QT)写跨平台GUI详解
2011-12-02 10:53 2396你还不知道什么是Qt?... ...什么?你还不知道C++能快 ... -
数据可视化之美
2011-12-01 20:08 2295最近越来越对数据可视化感兴趣了,正因为此我学习了R,excel ... -
Perl也可以读写excel哦
2011-12-01 15:32 1686perl 里面用Spreadsheet::WriteExcel ... -
R语言学习入门
2011-12-01 15:28 2885R语言是很多统计学和数据可视化的常用工具。 R语言也是生物信 ... -
R语言绘制heatmap热图
2011-11-22 10:40 16088介绍如何使用 R 绘制 heatmap 的文章。 今天无意间 ... -
使用Vienna RNA进行RNA二级结构预测
2011-11-07 15:50 3188现在比较准确,比较流行的RNA二级结构预测软件就是Vi ...
相关推荐
该项目已过时/孤立。 Samuel Lunenfeld Research Institute (SLRI) Bioinformatics Toolkit 是一个主要基于 C 的跨平台工具包,用于处理生物信息,尤其是蛋白质结构/功能。 基于 NCBI 工具包
我个人推荐一个网站,上面有很多的工具说明: 1、质量控制Quality Control FastQC( 备注:FastQC用法: Fastx-toolkit( PrinSeq( FastUniq( 不能读取 fastq gzip 压缩文件,需解压。) 其他去除duplicates(不...
Fqutils provides a basic set of bioinformatics commandline tools for working with sequence data in FASTQ format. It complements Greg Hannon's fine Fastx Toolkit suite. One characteristic of Fqutils is...
常见的有DCMTK(DICOM Toolkit),这是一个开源项目,提供了丰富的API,可以用于解析、创建和修改DICOM数据。使用DCMTK,开发者可以编写代码来读取DICOM文件中的元数据,并提取图像数据。基本步骤包括打开文件,使用...
Topics to cover •Introduction to BioPerl •Using Sequence & Feature modules •Using the modules for BLAST parser •Accessing sequence databases ...doing bioinformatics data manipulation
5. **python-toolkit** - 表明pypiper是一个全面的工具集,为Python开发人员提供了构建复杂工作流程的便利。 **文件名称列表解析:** 提供的文件名称“pypiper-master”可能是项目源代码的主分支或者最新版本的...
bio-APRICOT(Bioinformatics Analysis with Protein, RNA and Interaction COmponents Toolkit)是专门为生物信息学领域设计的Python库。它集合了多种功能,帮助研究人员处理、分析蛋白质、RNA和相互作用组件的数据...
有关更多信息,请参考和。 安装 GCAT适用于Windows(7、8、10),MacOS和Linux。 请从下载最新版本。 它要求在您的计算机上安装 。...GCAT将打开一个图形用户界面,使其能够以交互方式使用它。 命令行批处理机 除了
生物信息学是一个交叉学科,研究生物体内的信息存储、传输和处理,涉及生物学、计算机科学、数学和信息科学等多个领域。生物信息学的研究方法包括序列比对、系统发育分析和结构预测等,应用工具包括BLAST、PSI-BLAST...
SRA是INSDC的一个重要组成部分,它存储了大量的高通量测序数据,如RNA-seq、ChIP-seq、WGS等实验产生的原始序列读取。 开源软件的标签意味着这些工具遵循开放源代码的原则,允许用户自由地查看、使用、修改以及分发...
Python库如Bioinformatics和Genome Rearrangement Analysis Toolkit (GRAT) 可能被用来检测和可视化这些事件,以理解基因组结构的演变历史。 在处理多倍体数据时,还需要解决一个挑战:基因剂量效应。由于多倍体...
BioPerl 是一个强大的开源生物信息学工具包,它由一系列 Perl 模块组成,用于处理生物学数据,如序列比对、基因组分析、蛋白质结构等。"bioperl-live" 特别指的是 Core BioPerl 1.x 的代码库,这个版本是 BioPerl 的...
系统发育学是进化生物学的一个分支,致力于重建和分析生命树。 此分布提供了有助于处理和分析系统发育数据的对象和方法。 兼容性 Bio :: Phylo在Perl版本> = 5.8.0上的最流行的当前平台(Win32,OSX,Linux,Solaris...
- **产品描述**:一个全面的平台,支持从模型训练到部署的全流程深度学习任务。它包括了优化过的深度学习框架(如 TensorFlow、PyTorch),以及用于高性能计算的 NVIDIA CUDA 和 cuDNN 库。 - **支持特性**:支持...
ngs-toolkit 这是我的NGS分析工具包: ngs_toolkit 。 转至以了解如何安装和使用该工具包,并查看可用功能的目录。 安装方式: pip install ngs-toolkit 您可能需要在上述命令中添加--user标志。
北欧鼠 褐变种家鼠变种GATK4 递归计算 Ubuntu 20 ...[sratoolkit.current-win64.zip]( ) 的Ubuntu CentOS的 Mac OS X Projeto e Amostras Utilizadas(SRA) 褐家鼠(Rattus norvegicus)品系
介绍 FASTA和FASTQ是用于存储核苷酸和蛋白质序列的基本且普遍存在的格式。 FASTA / Q文件的常见操作包括转换,搜索,过滤,重复数据删除,拆分,混排和采样。 现有工具仅实现了其中一些操作,而没有特别有效地实现,...
Genome工具 GenomeTools基因组分析系统是一个免费的生物信息学工具集合(在基因组信息学领域),组合成一个名为gt二进制文件。 它基于一个名为libgenometools的C库,该库包含用于高效,便捷地实现序列和注释处理软件...
源代码: : 最新版本:介绍与生物信息学领域的FASTA / Q格式相似,CSV / TSV格式是生物信息学和数据科学中的基本文件格式。 人们通常使用电子表格软件(例如MS Excel)来处理表格数据。 但是,这都是通过单击和键入...
用于从SRA / ENA检索元数据和下载数据集的Python软件包文献资料CLI用法pysradb支持命令行用法。 请参阅说明或。 $ pysradb usage: pysradb [-h] [--version] [--citation] {metadata,download,search,gse-to-gsm,gse...