荣耀归于上帝,版权归于bbsunchen。本文部分翻译自Bioinformatics.For.Dummies的第14章,加入作者经验,改动较大,不喜误入。
本文讨论的主要问题:
1.确保你不会泄漏保密的数据
2.保证你自己可以重复你的工作
3.选择合适的数据
4.确保保存了重要的文件
我从未给别人世界末日的感觉,我告诉他们真相,他们认为那就是世界末日。--Harry S.Truman(1884-1972)
有时候,我们在Internet上运行生物信息学程序时,会幻想这种情景:我们可以随意运行我们想要运行的程序,不需要更新或者维护数据库,如果服务器崩溃了,只要换一台服务器就行了。在网页上,事情简单到我们都不需要知道我们正在干什么,只要一路狂点鼠标,然后我们需要的结果就会出现在屏幕上。而在做这些事情的时候,我们还可以一边听歌一边看电影。
如果真的是这样,那就太好了。可是当我们真的开始使用生物信息学工具时,我们可要特别小心,不然世界末日可就真的来临了。要知道,在科学领域,最好的情景是:出现好的并且正确的结果。
接下来的一些建议,可以让你的工作更舒服一些。如果你真的很想产生可以信赖的结果。
一、记住,你的数据提交到网络上就永远是不安全的。
当你向服务器提交一条序列信息是,你就不再拥有这条序列了。在offline的时候,你可能会获得一些出错信息,但是在Internet上,你永远也别想,你的submission会是安全的。
我们也许回想,谁会闲的没事干扰我提交的数据,或者谁会吃饱了撑的拦截我的数据,不过还真是有那么一帮吃饱了没事干的人,就是想捣乱。所以,为了你的结果考虑,能在本地跑的程序,就别提交到别人的服务器上跑。
二、把服务器,数据库和你运行的程序的版本号都记录下来。
如果你在两个不同的服务器上,运行你的程序(比如ClustalW),并不意味着你把同样的事情干了两次。服务器的硬件配置,或者程序的版本号,都可能不同。所以,如果你在论文里面写“我在本地运行了ClustalW”,就太不专业了。别的研究人员可重复不了你的工作。
为了表现得专业一点,你最好随时记录你的服务器名称(这里指网络上的服务器),还有你程序的版本号。比如,ClustalW1.77和ClustalW1.81的运行结果就很可能不一样。你要是不知道ClustalW是啥...唉
如果你的程序(比如BLAST)用了一个数据库(比如Swiss-Prot),你要把数据库的名字和版本号都记录下来。
服务器一般都会变,更新升级是常有的事儿。据统计,平均6个月就会发生这种事情。
三、把数据的Identification Numbers或者ID,AC号都记录下来。
一般AC(Accession)号都不会变,但是ID(Identification)号在不同的数据库中会发生变化。
四、记录下来程序运行的参数
简单点说,就是你要把默认参数和你改动的参数都记录下来。上面都说了,版本号变化了,默认参数也可能变啊。
简单的记录方式就是截屏,如果不会请看下面一条。
五、要是在网络上运行出来的结果,马上就要保存。
这一条基本是废话,不过重点是你要考虑好你的结果是保存成文本文件,还是截个屏保存就完事儿。
不过我很诧异的是,原书仔细地说明了各种保存数据的方法,我这里把截屏步骤翻译过来,看来学生物的还真有计算机白痴。
1.按键盘上的PrntScrn键,或者“印屏幕”键。
2.把微软的画图工具打开,具体步骤是:开始->程序->附件->画图工具
3.按Ctrl+V,如果出现对话框就按“是”。
4.保存或者打印。
如果保存成jpg图像,那你的图像质量就被压缩了。
最后强调一下,结果最好保存成文本文件。
六、使用E-value
你做一次实验得到一个数据结果Result以及一个E-value(expectation values),那个E-value告诉你产生这个Result多大程度上是因为随机性造成的。原话是:
E-value tell you how many times a result as good as the one you're looking at could have been reached by chance alone.这句话之所以打出来,是因为以后出国面试也许用得到。 by chance alone是亮点。
E-value本身没有什么生物学意义,但是他一旦和生物学数据联系起来了,就有了生物学意义。
E-value越小越好。专业一点说就是,E值越小,结果越显著。
七、使用生物信息学工具之前,好好读一下说明文档。
最起码你自己弄出来的结果你自己要相信,可以和周围的人交流一下使用经验,一般同实验室的师兄师姐是最好的询问对象。个人觉得进一个实验室,要多问师兄师姐问题。
八、重要的结论性数据,要用不同的程序验证。
打个比方说,ClustalW的结果,用Phylip验证一下。
九、没发表的方法不要用。
不是说不让你尝试新的方法,但是如果一个方法没有发表,最好还是别用。如果方法的原理你不理解,也别用。
十、数据库不像红酒
额,这句话的意思就是,数据库放时间长了,就不好了。每次运行程序最好自己上网下载新的数据,而不要用别人下好的数据。可能别人下的数据版本已经很老了。
最后,要注意哪些免费的资源,如果你是为公司做事情。那些免费的资源有可能不免费。所以你要关注资源发布的协议。比如GPL协议神马的。如果不了解就google一下吧。
分享到:
相关推荐
### 学习JAVA的经验之谈 #### 一、学习Java的大方向:面向对象编程 学习Java不仅是学习一门语言,更是了解一种编程思想——面向对象编程(OOP)。面向对象编程是一种编程范式,它将数据和操作数据的方法绑定在一起...
学习Excel函数公式经验之谈.docx
例如,MSDN(Microsoft Developer Network)是获取微软开发工具和技术信息的重要平台。因此,提升英文阅读水平并经常访问Codeguru.com等网站,下载源代码进行学习,可以加速你的进步。 另外,不要忽视基础概念的...
- 掌握工具:熟悉C++标准库(如STL)的使用方法,提高开发效率。 - 实践经验:通过实际项目来巩固所学知识,积累实践经验。 #### 学习资源推荐 - **《C++ Primer》**:适合初学者入门,详细介绍了C++的基础语法及...
高效液相色谱(HPLC)是一种广泛应用的分析技术,尤其在化学、生物学以及药物分析等领域。使用HPLC时,正确操作和维护是保证实验结果准确性和重复性的关键。以下是一些关于HPLC使用的重要注意事项和HPLC柱子的使用经验...
学习过ARM的人经验之谈,对正在学习ARM的人有个正确的规划
学霸经验之谈:学好初中语文有方法.pdf
学霸经验之谈:学好初中语文有方法.doc
Wireshark抓包工具使用分享 经验之谈 绝对受用
这篇“FlashPaper经验之谈”涵盖了我在使用该工具时积累的一些关键知识、注意事项以及问题解决策略。 首先,我们来详细了解FlashPaper的主要功能。它能够将Microsoft Office文档(如Word、Excel或PowerPoint)以及...
ANSYS不仅是一款应用软件,更是提升解决问题能力的全面锻炼工具。要掌握ANSYS,扎实的力学理论基础至关重要,包括《材料力学》、《弹性力学》、《塑性力学》以及《计算方法》和《计算固体力学》的知识。这些理论课程...
PADS是一款广泛使用的PCB设计软件,以其强大的功能和易用性深受工程师喜爱。本篇文章将详细探讨在PADS中进行PCB设计的经验与技巧。 1. **元器件布局**:PCB设计的第一步是元器件布局。在PADS中,应遵循“先大后小,...
ToolTip是C#中的一個非常有用的小工具,可以在控件上顯示簡短的說明信息,幫助使用者更好地理解控件的用途。下面 tôi將詳細介紹ToolTip的使用方法和設置。 首先,讓我們先了解什麼是ToolTip。ToolTip是一個小矩形...
"lotus应用经验,经验之谈"这个标题表明了我们将探讨的是作者在使用Lotus Notes过程中的实战经验和技巧分享,这对于初次接触这款软件的用户来说是非常宝贵的资源。 描述中提到,内容会是一次详尽的Lotus Notes使用...
Photoshop操作经验之谈,学习和利用Photoshop操作的好东西,都是精华,绝对有意义
"一位学过编译原理的学生的经验之谈" 本文主要讨论了编译原理的学习经验谈,也讨论了编译原理的重要性和学习编译原理的必要性,并推荐了三本好的编译原理的教材。 编译原理是大学本科的必修课程,同时也是研究生...