转录组入门(3):了解fastq测序数据

sra文件转换为fastq格式

fastq-dump -h

--split-3

也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,*_2.fastq这样分开。如果还出现了第三个文件,就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了。

 

金沙官网线上,--gzip

输出文件压缩成gzip格式(通常gzip仅用来压缩单个文件。多个文件的压缩归档通常是首先将这些文件合并成一个tar文件,然后再使用gzip进行压缩,最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”

 

--bzip2

输出文件压缩成bzip2格式(bzip2比传统的gzip或者ZIP的压缩效率更高,但是它的压缩速度较慢)

 

ls *.sra|while read id;do(fastq-dump --split-3 $id);done

我们的数据是Illumina的双端测序,所以用fastq-dump --split-3命令来把sra格式数据转换为fastq。

 

总共有7个测序数据,所以最好是同步改名,用-A参数,为了节省空间,用--gzip压缩。

perl -F't' -alne 'if($F[7]=~/SRR/){$F[6]=~s/s/_/g;$F[13]=~s/s|#/_/g;$F[13]=~s/(|)//g;print "$F[7]t$F[6]_$F[13]"}' SraRunTable.txt > Rename.txt
perl -F't' -alne 'print "fastq-dump --split-3 --gzip -A $F[1] $F[0].sra"' Rename.txt > sratofq.sh
bash sratofq.sh

 

数据校验及备份存放

 

在此最开始之前应该做个md5sum数据传输完整性验证;或者拿到自己的数据后,压缩后生产MD5文件,然后备份保存

md5sum *.fastq.gz | tee md5sum.txt

验证MD5值

md5sum -c md5sum.txt

-c选项来对文件md5进行校验。校验时,根据已生成的md5来进行校验。生成当前文件的md5,并和之前已经生成的md5进行对比,如果一致,则返回OK,否则返回错误信息

质控FastQC

 

mkdir rna_seq/work && cd rna_seq/work
ln ../data/* .  # 建立软连接
mkdir 1_FastQC_Raw_Data
ls *.gz|while read id;do(fastqc $id -o 1_FastQC_Raw_Data -t 3);done

问题:

FastQC报告中哪些是值得关注的?

注意事项:

1、数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格了,后面大部分指标都可以通过。如果这两项不合格,其余都会受到影响。

2、其中一些指标并不适合所有数据。要根据具体数据类型,具体分析。

本文由金沙官网线上发布于操作系统,转载请注明出处:转录组入门(3):了解fastq测序数据

您可能还会对下面的文章感兴趣: