`
bbsunchen
  • 浏览: 232079 次
  • 性别: Icon_minigender_1
  • 来自: 天朝帝都
社区版块
存档分类
最新评论

生物信息学工具使用的经验之谈

阅读更多

 

 

荣耀归于上帝,版权归于bbsunchen。本文部分翻译自Bioinformatics.For.Dummies的第14章,加入作者经验,改动较大,不喜误入。

 

本文讨论的主要问题:

1.确保你不会泄漏保密的数据

2.保证你自己可以重复你的工作

3.选择合适的数据

4.确保保存了重要的文件

 

我从未给别人世界末日的感觉,我告诉他们真相,他们认为那就是世界末日。--Harry S.Truman(1884-1972)

 

有时候,我们在Internet上运行生物信息学程序时,会幻想这种情景:我们可以随意运行我们想要运行的程序,不需要更新或者维护数据库,如果服务器崩溃了,只要换一台服务器就行了。在网页上,事情简单到我们都不需要知道我们正在干什么,只要一路狂点鼠标,然后我们需要的结果就会出现在屏幕上。而在做这些事情的时候,我们还可以一边听歌一边看电影。

 

如果真的是这样,那就太好了。可是当我们真的开始使用生物信息学工具时,我们可要特别小心,不然世界末日可就真的来临了。要知道,在科学领域,最好的情景是:出现好的并且正确的结果。

 

接下来的一些建议,可以让你的工作更舒服一些。如果你真的很想产生可以信赖的结果。

 

一、记住,你的数据提交到网络上就永远是不安全的。

当你向服务器提交一条序列信息是,你就不再拥有这条序列了。在offline的时候,你可能会获得一些出错信息,但是在Internet上,你永远也别想,你的submission会是安全的。

我们也许回想,谁会闲的没事干扰我提交的数据,或者谁会吃饱了撑的拦截我的数据,不过还真是有那么一帮吃饱了没事干的人,就是想捣乱。所以,为了你的结果考虑,能在本地跑的程序,就别提交到别人的服务器上跑。

 

二、把服务器,数据库和你运行的程序的版本号都记录下来。

如果你在两个不同的服务器上,运行你的程序(比如ClustalW),并不意味着你把同样的事情干了两次。服务器的硬件配置,或者程序的版本号,都可能不同。所以,如果你在论文里面写“我在本地运行了ClustalW”,就太不专业了。别的研究人员可重复不了你的工作。

 

为了表现得专业一点,你最好随时记录你的服务器名称(这里指网络上的服务器),还有你程序的版本号。比如,ClustalW1.77和ClustalW1.81的运行结果就很可能不一样。你要是不知道ClustalW是啥...唉

 

如果你的程序(比如BLAST)用了一个数据库(比如Swiss-Prot),你要把数据库的名字和版本号都记录下来。

服务器一般都会变,更新升级是常有的事儿。据统计,平均6个月就会发生这种事情。

 

三、把数据的Identification Numbers或者ID,AC号都记录下来。

 

一般AC(Accession)号都不会变,但是ID(Identification)号在不同的数据库中会发生变化。

 

四、记录下来程序运行的参数

 

简单点说,就是你要把默认参数和你改动的参数都记录下来。上面都说了,版本号变化了,默认参数也可能变啊。

 

简单的记录方式就是截屏,如果不会请看下面一条。

 

五、要是在网络上运行出来的结果,马上就要保存。

 

这一条基本是废话,不过重点是你要考虑好你的结果是保存成文本文件,还是截个屏保存就完事儿。

不过我很诧异的是,原书仔细地说明了各种保存数据的方法,我这里把截屏步骤翻译过来,看来学生物的还真有计算机白痴。

1.按键盘上的PrntScrn键,或者“印屏幕”键。

2.把微软的画图工具打开,具体步骤是:开始->程序->附件->画图工具

3.按Ctrl+V,如果出现对话框就按“是”。

4.保存或者打印。

如果保存成jpg图像,那你的图像质量就被压缩了。

 

最后强调一下,结果最好保存成文本文件。

 

六、使用E-value

你做一次实验得到一个数据结果Result以及一个E-value(expectation values),那个E-value告诉你产生这个Result多大程度上是因为随机性造成的。原话是:

E-value tell you how many times a result as good as the one you're looking at could have been reached by chance alone.这句话之所以打出来,是因为以后出国面试也许用得到。 by chance alone是亮点。

 

E-value本身没有什么生物学意义,但是他一旦和生物学数据联系起来了,就有了生物学意义。

E-value越小越好。专业一点说就是,E值越小,结果越显著。

 

七、使用生物信息学工具之前,好好读一下说明文档。

最起码你自己弄出来的结果你自己要相信,可以和周围的人交流一下使用经验,一般同实验室的师兄师姐是最好的询问对象。个人觉得进一个实验室,要多问师兄师姐问题。

 

八、重要的结论性数据,要用不同的程序验证。

打个比方说,ClustalW的结果,用Phylip验证一下。

 

九、没发表的方法不要用。

不是说不让你尝试新的方法,但是如果一个方法没有发表,最好还是别用。如果方法的原理你不理解,也别用。

 

十、数据库不像红酒

额,这句话的意思就是,数据库放时间长了,就不好了。每次运行程序最好自己上网下载新的数据,而不要用别人下好的数据。可能别人下的数据版本已经很老了。

 

最后,要注意哪些免费的资源,如果你是为公司做事情。那些免费的资源有可能不免费。所以你要关注资源发布的协议。比如GPL协议神马的。如果不了解就google一下吧。

 

0
0
分享到:
评论

相关推荐

    学JAVA的经验之谈

    ### 学习JAVA的经验之谈 #### 一、学习Java的大方向:面向对象编程 学习Java不仅是学习一门语言,更是了解一种编程思想——面向对象编程(OOP)。面向对象编程是一种编程范式,它将数据和操作数据的方法绑定在一起...

    学习Excel函数公式经验之谈.docx

    学习Excel函数公式经验之谈.docx

    VC++学习经验之谈

    例如,MSDN(Microsoft Developer Network)是获取微软开发工具和技术信息的重要平台。因此,提升英文阅读水平并经常访问Codeguru.com等网站,下载源代码进行学习,可以加速你的进步。 另外,不要忽视基础概念的...

    学习C、C++的经验之谈

    - 掌握工具:熟悉C++标准库(如STL)的使用方法,提高开发效率。 - 实践经验:通过实际项目来巩固所学知识,积累实践经验。 #### 学习资源推荐 - **《C++ Primer》**:适合初学者入门,详细介绍了C++的基础语法及...

    HPLC使用注意事项及HPLC柱子使用经验之谈.pdf

    高效液相色谱(HPLC)是一种广泛应用的分析技术,尤其在化学、生物学以及药物分析等领域。使用HPLC时,正确操作和维护是保证实验结果准确性和重复性的关键。以下是一些关于HPLC使用的重要注意事项和HPLC柱子的使用经验...

    ARM开发学习规划--过来人经验之谈

    学习过ARM的人经验之谈,对正在学习ARM的人有个正确的规划

    ANSYS&有限元法\学ansys的经验之谈

    在当今工程设计与研究领域,ANSYS软件作为一种功能强大的有限元分析工具,已经成为工程技术人员不可或缺的辅助工具。随着工业设计对精度和可靠性的要求不断提高,学习并熟练掌握ANSYS软件的操作和应用,对于工程师来...

    学霸经验之谈:学好初中语文有方法.pdf

    学霸经验之谈:学好初中语文有方法.pdf

    学霸经验之谈:学好初中语文有方法.doc

    学霸经验之谈:学好初中语文有方法.doc

    Wireshark抓包工具使用分享

    Wireshark抓包工具使用分享 经验之谈 绝对受用

    FlashPaper经验之谈

    这篇“FlashPaper经验之谈”涵盖了我在使用该工具时积累的一些关键知识、注意事项以及问题解决策略。 首先,我们来详细了解FlashPaper的主要功能。它能够将Microsoft Office文档(如Word、Excel或PowerPoint)以及...

    pcb 设计经验之谈

    PADS是一款广泛使用的PCB设计软件,以其强大的功能和易用性深受工程师喜爱。本篇文章将详细探讨在PADS中进行PCB设计的经验与技巧。 1. **元器件布局**:PCB设计的第一步是元器件布局。在PADS中,应遵循“先大后小,...

    C# 合理使用ToolTip(经验之谈).doc

    ToolTip是C#中的一個非常有用的小工具,可以在控件上顯示簡短的說明信息,幫助使用者更好地理解控件的用途。下面 tôi將詳細介紹ToolTip的使用方法和設置。 首先,讓我們先了解什麼是ToolTip。ToolTip是一個小矩形...

    lotus应用经验,经验之谈

    "lotus应用经验,经验之谈"这个标题表明了我们将探讨的是作者在使用Lotus Notes过程中的实战经验和技巧分享,这对于初次接触这款软件的用户来说是非常宝贵的资源。 描述中提到,内容会是一次详尽的Lotus Notes使用...

    关于下载全自动下载ImageNet等大型数据集的经验之谈,以及代码.zip

    关于下载全自动下载ImageNet等大型数据集的经验之谈,以及代码 关于下载全自动下载ImageNet等大型数据集的经验之谈,以及代码 关于下载全自动下载ImageNet等大型数据集的经验之谈,以及代码 关于下载全自动下载...

Global site tag (gtag.js) - Google Analytics