SMR 分析
SMR 教程
官方文档:SMR | Yang Lab (westlake.edu.cn)
1.数据获取
1.1eqtl数据
qtl数据获取主要从GTEx数据库,可以得到各种组织的数据。GTEx数据库的速度很慢建议从SMR官网的数据库下载(华人做的)SMR | Yang Lab (westlake.edu.cn)里面有各种qtl的数据集,下得很快!
eqtl还有血液的数据,样本量很大eQTLGen - cis-eQTLs
直接下载besd二进制格式即可,后期数据可以用smr软件自提
1.2GWAS数据
GWAS数据获取的方法很多可以直接去IEU OpenGWAS project (mrcieu.ac.uk)下载,也可以通过R包TwoSampleMR直接从网站上拽。available_outcomes()函数可以看到openGWAS里面所有的gwas数据
当然还有很多别的获取手段。也可以从finngen的GWAS获取
1.3参考基因组
用R包下载Download 1000G — download_1000G • bigsnpr (privefl.github.io)
也可以直接链接:http://fileserve.mrcieu.ac.uk/ld/1kg.v3.tgz
也可以自行从官网下载
不难发现,所需数据全是公共数据,而且获取比较轻松。
2.SMR
2.1软件下载
SMR | Yang Lab (westlake.edu.cn)下载即可,Windows和Linux均可
1 | smr --bld mybld --gwas-summary mygwas.ma --beqtl-summary myeqtl --out mysmr --thread-num 10 |
smr输入有
--bld 指的是1000人参考基因组的目录,
--gwas-summary输入的是GWAS数据,
--beqtl-summary 输入的是eqtl数据,
--query 5e-8
--gene ENSG00000113161
--out 输出文集名
--make-besd
*mygwas.ma*
1 | SNP A1 A2 freq b se p n |
1 | exp<-fread('GCST004744-EFO_0000571-Build37.f.tsv.gz',data.table = F,header=T) |
1 | #超算平台 |
2.3运行smr
命令很简单,找着官网的改一改就行
1 | ##超算平台 |
–diff-freq-prop 参数是等位基因频率的设定阈值,如果小的话程序是跑不通的。因为我输入的eqtl和gwas数据没经过过滤,被筛掉的snp的比例非常大,所以需要把这个阈值设高点防止程序终止。
3.共定位
细心的朋友会发现,刚才我们并没有下载eqtl的txt列表格式的文件,理论上和gwas一样,eqtl也应该有一个非常大数据量的列表文件,那么如何得到呢,依然是靠smr软件
这里可以用eqtlgen的也可以用V8的,***–make-besd加这个就是输出besd格式的(三种文件那种),或者不加就是默认*txt
1 | smr-1.3.1-win.exe --beqtl-summary Artery_Aorta --query 0.05 --out Aorta_eqtl |
smr可以从二进制的besd文件中导出txt格式的eqtl文件,得到这里是Aorta_eqtl.txt文件
4.SMR locus plot
SMR | Yang Lab (westlake.edu.cn)
SMR locus plot
Here we provide an R script to plot SMR results as presented in Zhu et al. (2016 Nature Genetics). The data file for plot can be generated by the command below. The R script is avaliable at Download.
# SMR command line to generate a data file for plot
1 | smr --bfile mydata --gwas-summary mygwas.ma --beqtl-summary myeqtl --out myplot --plot --probe ILMN_123 --probe-wind 500 --gene-list glist-hg19 |
5.Multi-SNP-based SMR test
Below shows an option to combine the information from all the SNPs in a region that pass a p-value threshold (the default value is 5.0e-8 which can be modified by the flag –peqtl-smr) to conduct a multi-SNP-based SMR analysis (Wu et al. 2018 Nature Communications).
The SNPs are pruned for LD using a weighted vertex coverage algorithm with a LD r2 threshold (the default value is 0.9 which can be modified by the flag –ld-pruning) and eQTL p-value as the weight.
1 | smr --bfile mydata --gwas-summary mygwas.ma --beqtl-summary myeqtl --out mymulti --smr-multi |
–smr-multi turns on set-based SMR test in the cis-region.
1 | smr --bfile mydata --gwas-summary mygwas.ma --beqtl-summary myeqtl --out mymulti --smr-multi --set-wind 500 |
–set-wind defines a window width (Kb) centred around the top associated cis-eQTL to select SNPs in the cis-region. The default value is -9 resulting in selecting SNPs in the whole cis-region if this option is not specified.
1 | smr --bfile mydata --gwas-summary mygwas.ma --beqtl-summary myeqtl --out mymulti --smr-multi --ld-multi-snp 0.1 |
–ld-multi-snp LD r-squared threshold used to prune SNPs (eQTLs) in the Multi-SNP based SMR test. The default value is 0.1.
最初提出的定义独立顺式-eQTL的阈值为r2< 0.9。然而,该阈值可能包括具有高 LD 的 SNP(定义为 r 2≥ 0.1)。因此,我们采用了 r 2< 0.1 作为定义独立 SNP 的阈值
参考文献:基于转录组全汇总数据的孟德尔随机化分析揭示了 38 个与严重 COVID-19 相关的新基因 - PMC (nih.gov)
GTEx V8 基因注释
GTEx Portal网址里面的:https://storage.googleapis.com/adult-gtex/bulk-gex/v8/rna-seq/GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_reads.gct.gz
1 | GTEx<-read.table("GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_reads.gct", skip = 2, header = TRUE, sep = "\t") save(GTEx,file = 'GTEx.Rdata') |
5.常用数据
V8 release of the GTEx eQTL/sQTL summary data
V8 release of the GTEx eQTL/sQTL summary data (n = 73 - 670; [GTEx Consortium 2020 Science](https://www.science.org/doi/10.1126/science.aaz1776?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub 0pubmed)) in SMR binary (BESD) format:
GTEx_V8_cis_eqtl_summary(hg19) (48 GB)
GTEx_V8_cis_eqtl_summary_lite (hg19) Lite version of the GTEx V8 eqtl data (only SNPs with P < 1e-5 are included; 506MB)
This is a set of cis-eQTL summary data across 49 human tissues from the GTEx project. Only SNPs within 1Mb of the transcription start site are available. The forth column of the *.epi file is the middle position of the probe sequence rather than the transcription start site.
cis-eQTLs
This page contains the cis-eQTL results. The statistically significant cis-eQTLs and SMR-prioritised genes for several traits are browsable, the other files can be downloaded.
Downloads
- Significant cis-eQTLs
- Full cis-eQTL summary statistics
- README
- Initial release Significant cis-eQTLs (deprecated)
- Initial release Full cis-eQTL summary statistics (deprecated)
6.SMR使用技巧
6.1.批量使用49个组织的SMR
首先在R里面创建我们需要的sh格式的文件,当然我们可以进行txt简单创建
1 | original_string1 <- ' |
1 | command <- ' |
然后我们在linux系统里面使用sh格式运行
1 | #使用 chmod 命令将该文件设置为可执行权限: |
6.2.SMR 执行mult
1 | "/public/home/fanfangzhou/apps/SMR/smr_linux" --bfile "/public/home/fanfangzhou/R/Rcodes/486metabolites/1kg.v3/EUR" --gwas-summary ON.ma --beqtl-summary "/public/home/fanfangzhou/R/GTEx8/SMR/eQTLGen/cis-eQTLs-full_eQTLGen_AF_incl_nr_formatted_20191212.new.txt_besd-dense" --out osteonecrosis_blood --smr-multi --ld-multi-snp 0.1 |