小编之前发的文章《GEO数据库挖掘出科研基金项目》中讲到如何利用GEO数据库挖掘出研究的方向和思路,今天小编一起手把手教大家一步一步来实战操作。
一.GEO数据库简介
GEO(GENE EXPRESSION OMNIBUS)数据库是由美国国立生物技术信息中心(NCBI)2000年创建的基因表达数据库,收录了世界各国研究机构提交的基因表达数据,主要包括基因芯片,高通量测序数据。目前已发表的论文中涉及到基因表达检测的数据都可以通过GEO数据库找到,并且是免费使用。
二.GEO数据格式
数据库存放四种数据类型:GSE,GDS,GSM和GPL。
一个GSE ID是指整个研究项目的系列数据,会涉及一到多个实验平台(GPL)
一个GDS ID对应同一个实验平台的数据集
一个GSM ID对应一个样本的表达数据信息,GSE,GDS 会包含多个GSM的数据。
一个GPL ID 对应一个实验平台的信息,包括芯片探针的设计和注释信息。
三.GEO数据查找和下载
1.关键字检索
当我们拿到一个模糊的关键字不知道如何下手时,可以直接检索GEO数据库。如图1所表示的,首先进入GEO数据库主页(https://www.ncbi.nlm.gov/geo/), 输入关键字 graft surgery (移植手术) 点击Search,从图中可以看到共找到10894个GEO数据集结果,54675个GEO 表达谱数据集。GEO数据集是包括GSE,GDC,GPL,GSM数据集,而表达谱数据集是指每个基因在不同实验平台的数据集。点击显示10894的结果链接进入研究项目页面图2。
2.筛选项目信息
进入图2所示的项目页面后,可以设置物种为人,同时可以设置实验类型为表达谱数据和查找数据集为GDC数据集,通过浏览和阅读文章的标题和内容,确定是否和自己研究相符,如果相符可以点击图中红色标记的GSE链接进入具体的研究项目了解详细的样本和数据情况。
3.下载GEO文件
按图3所示进入项目页面后,可以看到项目的研究目的以及实验设计,根据实验设计就可以确定实验分为几个组。如图4所示在项目页面的下面会有样本信息和可下载的数据集。
图4显示共有40个样本,使用的是U133 Plus2.0的芯片。如果对数据的分组还不是很明确可以点击平台计算工具GEO2R进行详细查看,如图5所示。平台分析工具GEO2R也可以进行差异计算,但操作比较繁琐,结果也没有火山图之类的。下节教学课堂我们会用GEO2R和omicsbean软件(www.omicsbean)进行数据的分析。
4.再次明确样本分组
通过前面的步骤如何对样本分组还是不太明确,可以点击GEO2R计算平台进一步确认。从图5所示,可以明确样本数据分手术前和手术后两个组。
如对分析有疑问欢迎关注下面微信号进行咨询.
金弗康科研团队专注于生物信息分析,科研外包服务,自主研发的omicsbean 生物云平台上线近两年时间,已经有30多家高校和研究所使用该软件平台发表SCI文章,总影响因子达到124.147,其中最高影响因子26.9,包括多篇发表在Nature,Science等杂志的文章。
金弗康生物科技致力于大数据产业自动化和智能化解决方案,是上海市科创板挂牌企业(300151),高新技术企业以及大数据专项建设承担企业,依托自主研发的基因检测工业化系统,整合上下游优质基因检测和健康干预管理产品,成为国内基因检测和精准医疗配套服务商。公司专利储备56个,其中发明专利42个,软件著作权专利14个。
具有自主知识产权的智能化基因检测系统目前覆盖病理检测,医学普检,癌症和遗传病检测已深入多家三甲医院和医学检验机构,用以实现检测数据精准解读从而提高医疗服务品质。
公司未来将致力于大数据技术在遗传病检测方向的应用,涉及检测试剂盒,癌症早筛(ctDNA检测)的精准检测,临检、病理、特检相结合的区域一体化检测中心实现云端化数据传输,靶向中医药用于临床癌症治疗等方面。
我们承接各组学、临床数据的单独、整合分析;疾病模型预测;蛋白结构预测及功能模拟;纯数据库信息挖掘等生物信息分析服务。提供各类测序;验证实验等科研外包的服务。欢迎有兴趣的小伙伴,免费注册体验omicsbeans一站式的生物信息分析系统。详细情况,欢迎添加微信号询问,或者在文章下面留言,谢谢关注!自主或定制生物信息分析找金弗康;做各类测序,验证实验找金弗康;因为我们是专业的!
往期回顾
Past back reading
点击下列标题 阅读更多精彩内容
长按扫码可关注