干货 | GSA数据库上传指南

2022-06-30 19:34:22, 欧易生物 上海欧易生物医学科技有限公司


GSA数据库简介

GSA组学原始数据归档库(Genome Sequence Archive)是组学原始数据提交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台。它是中国科学院北京基因组研究所国家基因组科学数据中心开发的一个服务于全球生命科学领域机构和实验室,用于存储基因组、转录组及其它组学原始序列的数据仓储。

相比以往大家熟知的NCBI,GSA数据库符合国家数据安全标准,而且可以选择中文界面,对国人来说使用感受更加友好。如果是人类遗传资源相关组学原始数据,遵从《中华人民共和国人类遗传资源管理条例》总则规定,建议您将数据提交到GSA-Human 数据库,以实现人类遗传资源数据的受控访问、保障人类遗传源数据的安全性。

下面我们以单细胞测序数据为例,手把手带您完成GSA数据库上传全过程,一起来试试吧~

GSA数据上传分为以下4个步骤:

1、用户注册/登录

帐号注册可以通过https://ngdc.cncb.ac.cn/sso/login完成,然后登录注册邮箱,

注意:GSA-Human 数据库允许项目负责人级别人员(Principle Investigator,PI)提交和申请下载数据。帐号注册完成后需要进入https://bigd.big.ac.cn/gsub(GSA-Human 提交入口)完善 PI 信息,便可进行数据提交和下载。具体操作流程如下:

2、创建BioProject

进入https://ngdc.cncb.ac.cn/gsub/ ,选择“BioProject” → “新建BioProject”,具体操作如下图所示:

(1)填写提交者信息:

(2)填写项目基本信息(红色*为必填项):

(3)填写项目类型:

(4)填写出版信息,若无可跳过:

(5)确认信息并提交:

完成BioProject创建后,Status状态为Finish; Confidential,系统将自动为分配BioProject序列号(BioProject Accession):PRJC#,如下图中的PRJCA00645。

通常情况下,信息审核时间为1-2天,BioProject审核状态不影响后续填写。审核通过之后,BioProject的Status状态为Checked OK; Confidential。BioProject发布后,Status状态会变为Checked OK;Public。

3、创建BioSample

进入https://ngdc.cncb.ac.cn/gsub/ ,选择“BioSample” → “新建BioSample”,具体操作如下图所示:

(1)填写提交者信息:

(2)填写基本信息:

(3)选择样本类型:

(4)填写样本属性信息:

(5)确认信息并提交:

4、创建Submission

第一步:

https://ngdc.cncb.ac.cn/gsub/

进入GSA-Human提交入口后,

第二步:填写研究信息(Study Information):

包括发布日期 (Release Date)、基础描述信息(Basic Information)、项目信息(BioProject Accession)、 数据访问方式(Data Accessibility,可选公开访问或受控访问,根据实际情况任选其一即可)和科技部备份和备案编号(Accessions in the Ministry of Science and Technology)。填写带红色星号的必填项即可。

第三步:确认数据管理委员会(Data Access Committee)信息:

第四步:提交元数据(Metadata)表格:

(1)

其中绿色表头表示必填;灰色为可选;黄色区域有下拉框可以选择;橙色区域为已存在于GSA-Human数据库中的登录号(如 HRI000001),若没有可以不填。

一共4张sheet需要填写:

(1)Individual:

(2)Sample:

(3)Experiment:

(4) Run:

4张sheet全部填写完成后,通过文件选择框进行文件上传。

(2)上传后

第五步:上传原始数据文件:

通常建议选择FTP上传。

上传原始数据推荐使用FileZilla软件,操作步骤如下:

第 1 步:下载客户端软件(https://filezilla-project.org/ ),下载页面如下图所示,

第 2 步:打开软件,界面如下图所示,填写主机信息为“submit.big.ac.cn”,用户名和密码填写 GSA 数据库的登陆帐号邮箱和密码,然后

第 3 步:登陆成功后,“本地站点”选择需要上传数据的本地数据路径,“远程站点”中,双击 GSA 文件夹,进入 GSA 目录。

第 4 步:在“本地站点”中选择上传的数据文件或者文件夹,

第 5 步:上传的所有数据会进入“队列的文件”,排队上传,上传成功后数据信息会转移到“成功的传输”中,如果上传不成功会转移到“传输失败”,需要重新上传,可以选择“断点续传”。

第六步:确认信息并提交:

通常情况下,数据信息与文件审核归档约需要1-2天(数据量越大,相应所需时间越长),归档成功后会收到一封通知邮件,并收到为您分配的GSA-Human序列号(Accession number:HRA#),如下图的HRA000049,老师可以在文章中或检索时使用该编号。

成功提交数据并通过审核后,您可以在将要发表的论文中添加如下语句:

The raw sequence data reported in this paper have been deposited in the Genome Sequence Archive (Genomics, Proteomics & Bioinformatics 2021) in National Genomics Data Center (Nucleic Acids Res 2021), China National Center for Bioinformation / Beijing Institute of Genomics, Chinese Academy of Sciences (GSA: HRAxxxxxx) that are publicly accessible at  https://ngdc.cncb.ac.cn/gsa.

帮助文档:

1.https://ngdc.cncb.ac.cn/gsa/faq

2.https://ngdc.cncb.ac.cn/gsa-human/pages/start_here.jsp

猜你想看

1、干货 | miRNA建库方法大放送!哪一种是你的pick?

2、干货 | 使用PBmm2+PBSV基于pacbio三代数据比对结果检测染色体结构变异的分析流程简介

3、干货 | 秘籍宝典:免疫浸润分析-TIMER2.0介绍

4、干货 | UCSC数据库如何预测转录因子


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved