想要备份下在基因组所能用到的shell命令,包括日常科研和数据分析中应用到的工具,都会在这个系列中列出,不会涉及到机密性问题吧。。
同时真心希望Javaeye能够建立一个生物信息专栏,毕竟很多生物信息方面的从业者都是从计算机过来的,很多生物信息方向的学生都是Javaeye的忠实观众,很多bioinformatics的问题都是用Java和Python或者Perl解决的,这和Javaeye的关注是相同的。希望生物信息人能够在Javaeye找到属于自己的天地。I love Javaeye!
一:1:mkdirm
mkdir chromat_dir
mkdir edit_dir
2:phred –id chromat_dir –pd phd_dir -trim_cutoff 0.05 -trim_phd -trim_alt ""
3:phd2fasta –id phd_dir –os edit_dir/1609.seq –oq edit_dir/1609.seq.qual
4:phrap 1227.seq –view –new_ace >1609.out
5:formatdb -p F -o T -i Artemia_franciscana.txt -n Arte.db
blastall -p blastn -d Arte.db -i 1610.seq.contigs -o 1610.blast
perl EblastN.pl -i 1610.blast –o 1610.xls -e 0.001 -l 100
phred -id ../chromat_dir/ -pd phd_dir/ -trim_cutoff 0.05 -trim_phd -trim_alt ""
二:finishing
phred -id chromat_dir -pd phd_dir -trim_alt "" -trim_phd
phd2fasta -id phd_dir -os edit_dir/1609.seq -oq edit_dir/1609.seq.qual
cross_match mouse.seq pGMT.seq -screen >mouse.screen.out
phrap 1609.seq.screen –view –new_ace –revise_greedy >1609.out
三:恢复与E.coli同源的序列
mv wheat2.seq.qual wheat2.seq.screen.qual
phrap wheat2.seq.screen -new_ace > phrap.out
perl determine---.pl
四:预测ORF命令ls
long-orfs Contig70.fasta > longorf_out
打开文件longorf_out,去掉开头几行
extract Contig70.fasta longorf_out >train.seq
build-icm <train.seq >train.model
glimmer2 Contig70.fasta train.model > orf_list
打开文件orf_list,去掉putative gene 之前的东西
extract Contig70.fasta orf_list >orf_seq
perl ../../../perl/process_glimmer.pl -i orf_seq -n nuc70.seq -p pro70.seq
将orf.seq转换成fasta格式
五:formatdb -p F -o T -i wheat3.seq.screen.contigs -n wheat3contig.db
blastall -p blastn -d wheat3contig.db -i wprobesequences -o out3.blast
perl ../../perl/EblastN.pl -i out4.blast -o out4.xls -e 0.001 -l 100(overlap)
六:RepeatMasker –species human –no_is seq.fa(需要除重复的序列)
分享到:
相关推荐
序列比对是生物信息学中的核心任务之一,全局比对如Clustalw能够比较两个或多个序列之间的相似性,而局部比对如Blast则专注于序列中的局部相似区域。进化分析专题中会介绍用于构建进化树的软件如Phylip和Paml,这些...
测序技术是生物信息学中非常重要的一个部分,它涉及到将生物分子序列转化为可读的数字信息。 #### 2.2 峰图转化Phred Phred软件可以将测序峰图转化为质量分数信息,这对后续的序列分析非常重要。 #### 2.5 序列...
- **Ensembl**:欧洲生物信息研究所维护的一个生物信息学资源,用于存储和分析基因组数据。 通过以上总结,可以看出该教材覆盖了生物信息学领域的多个核心主题,从基本的Linux操作到高级的基因组分析和蛋白质结构...
1. Unix/Linux操作系统:生物信息学数据分析往往需要在具有强大网络功能和稳定操作系统的环境中进行。Unix/Linux操作系统以其稳定的性能、开放的源代码和多用户多任务的特点成为生物信息学的重要平台。该系统提供了...
文件复制、删除、移动,目录的创建和删除,文本查看和处理,文件权限的更改,备份与压缩命令,磁盘及系统管理,软件安装及远程登录方法(如Telnet、SSH和X-Win)是生物信息学工作者必须掌握的技能。 2. 数据的基本...
### 生物信息学的培训教材知识点总结 #### 一、Unix/Linux操作系统介绍 **1.1 远程登录** - **重要性**: 远程登录是进行生物信息学数据分析的基础,尤其是在集中式计算环境中,研究人员通常需要通过远程访问来操作...
1. **Web管理界面**:将SSH与Web接口结合,开发一个图形化的管理工具,使得管理员可以通过浏览器远程管理服务器,而无需直接使用命令行。 2. **自动化运维**:利用SSH和自动化工具(如Ansible或Puppet)集成,实现...
SSH通过加密所有传输的数据,包括命令、文件传输等,防止了数据在传输过程中被窃取或篡改。它使用公钥/私钥对进行身份验证,增强了安全性。此外,SSH还支持多因素认证,如密码、密钥和生物识别等,以增强系统保护。 ...
总的来说,Python-SeKey是一个结合了现代生物识别技术和加密硬件的解决方案,旨在简化和强化SSH身份验证流程。它展示了Python在安全领域的强大应用,并鼓励开发者寻找创新方法来提升用户体验和安全性。
自述文件sshdo-控制哪些命令可以通过传入的ssh执行描述sshdo提供了一种易于配置的方式来控制可以通过传入的ssh连接执行哪些命令。 在一个ssh公钥~/.ssh/authorized_keys文件可以具有一个command=""选项,它的力,当...
《常用生物数据分析软件 V2.0》一书是生物信息学领域的实用技术指南,由北京华大基因研究中心编著。本书旨在帮助读者理解和掌握在生物信息学研究中常用的数据分析工具和方法,尤其是基于Unix/Linux操作系统环境下的...
例如,通过SSH协议可以安全地远程连接到服务器进行操作,而通过像tar、gzip等命令可以进行文件的打包和压缩。 在生物信息学的数据处理环节,包括测序原理的介绍、峰图转化、序列聚类拼接等步骤,常用的工具如Phred...
SSH Agent则是一个在后台运行的服务,它能存储用户的SSH密钥,使得用户在多条命令或多个会话中无需重复输入私钥的密码。SSH Agent与PAM结合,可以简化身份验证过程,尤其是对于那些需要频繁使用SSH但又不希望每次都...
在文件【cygwin命令.pdf】中,包含了一系列关于Cygwin环境下使用的命令,这是一个在Windows平台上提供类Unix环境的软件包。Cygwin能够使Windows用户使用类Unix命令和工具,下面详细解释文档中提到的各个命令的知识点...
用于生物信息学的 Linux 命令配方 使用 Linux:到达那里的方法不止一种。 买个mac,安装homebrew。 $$$$ 购买一台旧机器并在其上安装 linux。 $ 虚拟机。 自由 ! 有时迟钝 3.1 VirtualBox 在全屏模式下使用它。...
其中,PuTTY是一个广泛使用的免费终端模拟器、Telnet、SSH和rlogin客户端,支持各种网络协议;Cygwin是一个在Windows环境下运行类Unix系统的软件集合,为用户提供了一个广泛的Linux工具集。 Linux系统中的家目录...
1. **Shell**: Shell是Linux和Unix系统中的一种命令行接口,用于执行系统命令。 2. **R**: R语言是统计分析和图形绘制的重要工具,RStudio提供了一个集成开发环境。 3. **IDE**: GitForWindows在Windows上提供了Git...