统计fasta格式数据数量 - 请留言 - ITeye博客

`

bbsunchen

浏览: 234904 次
性别:
来自: 天朝帝都

最近访客更多访客>>

huangfeng2000

haidi2019

xfs_

houjj1853

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hanmiao： CSDN 博客地址是这個？http://blog.csdn.n ...
将博客搬至CSDN
chenwq：下载了，谢谢分享！
R语言学习入门
bbsunchen：今天跟英姐聊天，她verbal考了151，不够啊，数学也不高。 ...
跟我一起考GRE（三）
bbsunchen： qinger说得对我今年只做三件事情：考好GRE，考好TOEF ...
IT行业成功必备的素质
bbsunchen：还有8天就考试了，哥还在过单词啊
跟我一起考GRE（三）

统计fasta格式数据数量

博客分类：

bioinformatics

Perl Gmail F#C C++

阅读更多

今天很2b地用perl自己写了个统计fasta格式数据量的script

#!/usr/bin/perl -w
# Program name: detectDataNum.pl
# Author      : SunChen
# Contact     : bbsunchen@gmail.com
# Date        : 04/21/2011
# Last Update : 04/21/2011
# Reference   : Please cite our following papers when you are using this script.
#				None
#
# Description : connect 2 meta-pair files to 1 file for the PE assembler.

#===========================================================================
use warnings;
use strict;
use Getopt::Long;

my %opts;
GetOptions(\%opts,"f:s");
my $usage= <<"USAGE";
	Program	: $0
	INPUT:
	-f	blabla...
USAGE
die $usage unless $opts{f};

open DATA, "< $opts{f}" or die "Can't open file ".$!;
my $lines = 0;
while(<DATA>)
{
	my $data = $_;

	chomp($data);#deal with \n
	$data=~s/\r//g;#deal with \r
	next unless($data=~/\S+/); #deal with blank line here.
	if($data =~ m/^>/)
	{
		$lines++;	
	}
}
close DATA;

print "data num is $lines /n";

实际上只要用一句话就行...

grep -c "^>" s1.fa

grep -c "^>" s1.fa s2.fa 命令得到，比如分别为100和200

分享到：

perl 字符串反转 | 国立中正大学bioinformatics wiki

2011-04-21 13:27
浏览 1383
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

FASTX.jl：解析和处理生物序列的FASTA和FASTQ格式的文件: 5. **统计分析**：提供序列数量、平均长度、最长/最短序列等统计信息。 6. **转换**：可能支持将FASTA文件转换为FASTQ，反之亦然，或者将不同质量编码标准之间进行转换。使用FASTX.jl，用户可以轻松地在Julia环境...

seqtk-Introduction.zip_fastq: 在生物信息学领域，序列数据的处理是至关重要的，而seqtk作为一款强大的命令行工具，广泛应用于对FASTA和FASTQ格式的序列数据进行操作和分析。FASTA是一种用于存储核酸或蛋白质序列的文本格式，而FASTQ则是包含了...

生物信息学在大数据分析中的挑战.pptx: - **数据格式与元数据**：为了保证数据的互操作性，需要建立统一的数据格式和元数据标准，比如采用通用格式如FASTA、FASTQ以及标准化的元数据记录规则。 - **数据管理平台**：开发支持结构化和非结构化数据管理的...

readfq-master_readfq_测序base_: 4. **转换格式**：虽然主要设计为处理FastQ，`readfq`有时也可以用于将数据转换为其他格式，如FASTA。在描述中提到的任务——“计算测序数据的reads数和base数”——可以通过`readfq`轻松完成。运行命令时，用户只...

454 manual: 本部分详细介绍了454测序系统软件使用的各种数据文件格式，包括但不限于目录命名规则、输入文件格式（FASTA 和 FASTQ 文件）以及标准文件格式。 ##### 1. 目录命名规则 - 指定了用于组织数据文件的目录命名惯例，以...

ProgBiology_BioPerl(1): 下面是一个简单的脚本，用于读取一个FASTA文件，并统计其中的序列数量以及总碱基数。此外，该脚本还会排除掉所有的终止密码子（在本例中用星号`*`表示），并再次计算总碱基数。 ```perl #!/usr/bin/perl-w use ...

Python库 | pyfastx-0.6.8-cp35-cp35m-manylinux2010_x86_64.whl: 4. **统计分析**：可以统计文件中的序列数量、总碱基数、GC含量等信息。 5. **批量处理**：支持一次性处理多个文件，方便进行大规模数据操作。 **应用场景** 1. **生物信息学分析**：在基因组学、转录组学和蛋白质...

生信技能树编程实战题-题目整理版1: 1. **生信编程很简单**：这部分涉及了基本的序列处理，如从FASTQ到FASTA的转换，统计碱基数量和GC含量，以及对FASTA序列的操作，如取互补序列、反向序列和DNA-RNA转换。更高级的任务包括根据坐标取序列、多文件合并...

细菌2号模板: 在文件名称列表中提到的“templates”，可能包含了一系列的文件，如FASTA格式的DNA序列文件，这些文件记录了细菌2号的完整或部分基因组序列。还有可能是GenBank或EMBL格式的文件，这些数据库格式存储了更丰富的元...

MSTgold:通过统计引导程序估计最小生成树-开源: 最小生成树（MST）算法可以生成多... MSTgold软件包包括MSTgold程序的Mac OS X，Linux和Windows可执行文件，详细的手册，示例数据和结果以及Fasta2MSTG程序的可执行文件，该程序将Fasta序列文件转换为MSTgold输入格式。

TCS1.21 network relationship: 1. **数据处理**：支持读取和解析单倍型数据，可能包括不同的格式，如FASTA、PHYLIP等。 2. **进化网络构建**：利用Median-Joining算法构建单倍型的进化网络，揭示群体遗传结构。 3. **结果可视化**：提供图形化的...

InFASTA-开源: 5. **统计分析**：软件能提供关于FASTA文件的统计信息，如序列数量、总长度、平均长度等，帮助用户了解数据概况。三、开源优势作为开源软件，InFASTA具有以下优点： 1. **透明度**：源代码公开，用户可以查看并...

genedoc(多重序列比对编辑器).rar: 用户可以轻松导入多种格式的核酸或蛋白质序列数据，如FASTA、GenBank等，进行比对操作。软件支持多种比对算法，如ClustalW、MUSCLE、T-Coffee等，这些算法各有特点，可以根据不同的比对需求选择最合适的。比对结果...

Rosalind网站答案生物信息学: 这里定义了一个函数`readfasta()`来处理FASTA格式的文件，然后`countGC()`函数计算每条序列的GC比例，并找到最高比例的序列。 6. **DNA序列Hamming距离**：Hamming距离是指两个等长字符串之间的差异程度，即对应...

WRC-genome-paper:西部红杉基因组论文的相关脚本和数据文件: 2. **数据文件**：这些可能包括原始测序读段（.fastq或.bam格式）、基因组组装结果（如.contig或.fasta文件）、变异呼叫文件（.vcf格式）、注释文件（如.gff或.gtf格式）等。这些数据文件为后续的分析提供了基础。 ...

biojava使用指南及部分程序开发: BioJava的高级功能包括计数和分布分析，这涉及到统计序列中不同残基的数量，将这些计数转化为概率分布，生成随机序列，以及计算分布信息量和熵等。这些统计工具对于理解序列特征及其变异非常有用。权重矩阵和动态...

jellyfish帮助文档: - `jellyfish stats`：提供哈希表的统计信息，如k-mer总数、不同k-mer的数量等。 - `jellyfish histo`：生成k-mer频率直方图。 - `jellyfish query`：查询特定k-mer的出现次数。 - `jellyfish cite`：列出相关的...

BuscoPhylo: 6. **结果解析与可视化**：最后，BuscoPhylo会生成各种统计报告，包括基因家族数量、缺失/冗余基因统计、系统发育树等，这些结果可以进一步分析物种间的进化关系。在实际应用中，BuscoPhylo不仅适用于基因组级别的...

samtools and bwa: samtools是一套用于处理SAM/BAM格式比对结果文件的工具集合，它提供了一系列强大的命令行工具，用于对这些文件进行各种操作，如排序、索引、统计、过滤等，极大地提高了比对数据的后期处理效率。与bwa结合使用，可...

外显子: 4. **基因组数据格式**：了解FASTA, FASTQ, BAM, VCF等生物信息学数据格式至关重要，因为它们是处理基因组数据的基础。 5. **Jupyter Notebook和R Markdown**：这两个工具用于交互式地编写和运行代码，同时生成可...

Global site tag (gtag.js) - Google Analytics