`
bbsunchen
  • 浏览: 233318 次
  • 性别: Icon_minigender_1
  • 来自: 天朝帝都
社区版块
存档分类
最新评论

统计fasta格式数据数量

阅读更多

今天很2b地用perl自己写了个统计fasta格式数据量的script

#!/usr/bin/perl -w
# Program name: detectDataNum.pl
# Author      : SunChen
# Contact     : bbsunchen@gmail.com
# Date        : 04/21/2011
# Last Update : 04/21/2011
# Reference   : Please cite our following papers when you are using this script.
#				None
#
# Description : connect 2 meta-pair files to 1 file for the PE assembler.

#===========================================================================
use warnings;
use strict;
use Getopt::Long;

my %opts;
GetOptions(\%opts,"f:s");
my $usage= <<"USAGE";
	Program	: $0
	INPUT:
	-f	blabla...
USAGE
die $usage unless $opts{f};

open DATA, "< $opts{f}" or die "Can't open file ".$!;
my $lines = 0;
while(<DATA>)
{
	my $data = $_;

	chomp($data);#deal with \n
	$data=~s/\r//g;#deal with \r
	next unless($data=~/\S+/); #deal with blank line here.
	if($data =~ m/^>/)
	{
		$lines++;	
	}
}
close DATA;

print "data num is $lines /n";

 实际上只要用一句话就行...

grep -c "^>" s1.fa
 grep -c "^>" s1.fa s2.fa 命令得到,比如分别为100和200
分享到:
评论

相关推荐

    FASTX.jl:解析和处理生物序列的FASTA和FASTQ格式的文件

    5. **统计分析**:提供序列数量、平均长度、最长/最短序列等统计信息。 6. **转换**:可能支持将FASTA文件转换为FASTQ,反之亦然,或者将不同质量编码标准之间进行转换。 使用FASTX.jl,用户可以轻松地在Julia环境...

    seqtk-Introduction.zip_fastq

    在生物信息学领域,序列数据的处理是至关重要的,而seqtk作为一款强大的命令行工具,广泛应用于对FASTA和FASTQ格式的序列数据进行操作和分析。FASTA是一种用于存储核酸或蛋白质序列的文本格式,而FASTQ则是包含了...

    生物信息学在大数据分析中的挑战.pptx

    - **数据格式与元数据**:为了保证数据的互操作性,需要建立统一的数据格式和元数据标准,比如采用通用格式如FASTA、FASTQ以及标准化的元数据记录规则。 - **数据管理平台**:开发支持结构化和非结构化数据管理的...

    readfq-master_readfq_测序base_

    4. **转换格式**:虽然主要设计为处理FastQ,`readfq`有时也可以用于将数据转换为其他格式,如FASTA。 在描述中提到的任务——“计算测序数据的reads数和base数”——可以通过`readfq`轻松完成。运行命令时,用户只...

    454 manual

    本部分详细介绍了454测序系统软件使用的各种数据文件格式,包括但不限于目录命名规则、输入文件格式(FASTA 和 FASTQ 文件)以及标准文件格式。 ##### 1. 目录命名规则 - 指定了用于组织数据文件的目录命名惯例,以...

    ProgBiology_BioPerl(1)

    下面是一个简单的脚本,用于读取一个FASTA文件,并统计其中的序列数量以及总碱基数。此外,该脚本还会排除掉所有的终止密码子(在本例中用星号`*`表示),并再次计算总碱基数。 ```perl #!/usr/bin/perl-w use ...

    Python库 | pyfastx-0.6.8-cp35-cp35m-manylinux2010_x86_64.whl

    4. **统计分析**:可以统计文件中的序列数量、总碱基数、GC含量等信息。 5. **批量处理**:支持一次性处理多个文件,方便进行大规模数据操作。 **应用场景** 1. **生物信息学分析**:在基因组学、转录组学和蛋白质...

    生信技能树编程实战题-题目整理版1

    1. **生信编程很简单**:这部分涉及了基本的序列处理,如从FASTQ到FASTA的转换,统计碱基数量和GC含量,以及对FASTA序列的操作,如取互补序列、反向序列和DNA-RNA转换。更高级的任务包括根据坐标取序列、多文件合并...

    细菌2号模板

    在文件名称列表中提到的“templates”,可能包含了一系列的文件,如FASTA格式的DNA序列文件,这些文件记录了细菌2号的完整或部分基因组序列。还有可能是GenBank或EMBL格式的文件,这些数据库格式存储了更丰富的元...

    MSTgold:通过统计引导程序估计最小生成树-开源

    最小生成树(MST)算法可以生成多... MSTgold软件包包括MSTgold程序的Mac OS X,Linux和Windows可执行文件,详细的手册,示例数据和结果以及Fasta2MSTG程序的可执行文件,该程序将Fasta序列文件转换为MSTgold输入格式。

    TCS1.21 network relationship

    1. **数据处理**:支持读取和解析单倍型数据,可能包括不同的格式,如FASTA、PHYLIP等。 2. **进化网络构建**:利用Median-Joining算法构建单倍型的进化网络,揭示群体遗传结构。 3. **结果可视化**:提供图形化的...

    InFASTA-开源

    5. **统计分析**:软件能提供关于FASTA文件的统计信息,如序列数量、总长度、平均长度等,帮助用户了解数据概况。 三、开源优势 作为开源软件,InFASTA具有以下优点: 1. **透明度**:源代码公开,用户可以查看并...

    genedoc(多重序列比对编辑器).rar

    用户可以轻松导入多种格式的核酸或蛋白质序列数据,如FASTA、GenBank等,进行比对操作。软件支持多种比对算法,如ClustalW、MUSCLE、T-Coffee等,这些算法各有特点,可以根据不同的比对需求选择最合适的。 比对结果...

    Rosalind网站答案生物信息学

    这里定义了一个函数`readfasta()`来处理FASTA格式的文件,然后`countGC()`函数计算每条序列的GC比例,并找到最高比例的序列。 6. **DNA序列Hamming距离**:Hamming距离是指两个等长字符串之间的差异程度,即对应...

    WRC-genome-paper:西部红杉基因组论文的相关脚本和数据文件

    2. **数据文件**:这些可能包括原始测序读段(.fastq或.bam格式)、基因组组装结果(如.contig或.fasta文件)、变异呼叫文件(.vcf格式)、注释文件(如.gff或.gtf格式)等。这些数据文件为后续的分析提供了基础。 ...

    biojava使用指南及部分程序开发

    BioJava的高级功能包括计数和分布分析,这涉及到统计序列中不同残基的数量,将这些计数转化为概率分布,生成随机序列,以及计算分布信息量和熵等。这些统计工具对于理解序列特征及其变异非常有用。 权重矩阵和动态...

    jellyfish帮助文档

    - `jellyfish stats`:提供哈希表的统计信息,如k-mer总数、不同k-mer的数量等。 - `jellyfish histo`:生成k-mer频率直方图。 - `jellyfish query`:查询特定k-mer的出现次数。 - `jellyfish cite`:列出相关的...

    BuscoPhylo

    6. **结果解析与可视化**:最后,BuscoPhylo会生成各种统计报告,包括基因家族数量、缺失/冗余基因统计、系统发育树等,这些结果可以进一步分析物种间的进化关系。 在实际应用中,BuscoPhylo不仅适用于基因组级别的...

    samtools and bwa

    samtools是一套用于处理SAM/BAM格式比对结果文件的工具集合,它提供了一系列强大的命令行工具,用于对这些文件进行各种操作,如排序、索引、统计、过滤等,极大地提高了比对数据的后期处理效率。与bwa结合使用,可...

    外显子

    4. **基因组数据格式**:了解FASTA, FASTQ, BAM, VCF等生物信息学数据格式至关重要,因为它们是处理基因组数据的基础。 5. **Jupyter Notebook和R Markdown**:这两个工具用于交互式地编写和运行代码,同时生成可...

Global site tag (gtag.js) - Google Analytics