1. 학습
  2. /
  3. 강의
  4. /
  5. R로 시작하는 Bioconductor

Connected

연습 문제

fastq 파일 탐색하기

Fastq 파일에는 보통 수천에서 수백만 개의 리드가 들어 있어, 파일 크기가 매우 커질 수 있어요! 이 연습 문제에서는 메모리에 쉽게 올라가고 readFastq() 함수로 전체를 읽을 수 있는 500개 리드의 작은 fastq 하위 샘플을 사용합니다.

원본 서열 파일은 UC Davis Genome Center에서 제공한 Arabidopsis thaliana에서 왔습니다. 액세션 번호는 SRR1971253이며 Sequence Read Archive(SRA)에서 다운로드했습니다. 이 데이터는 잎 조직에서 추출한 DNA를 풀링하여 Illumina HiSeq 2000으로 시퀀싱한 것입니다. 각 서열은 길이 50 염기쌍(bp)의 single-read 서열입니다.

fqsample은 ShortReadQ 객체로, 리드, 품질 점수, id에 대한 정보를 담고 있어요. 이제 직접 탐색해 보세요!

지침 1/3

undefined XP
    1
    2
    3
  • ShortRead 패키지를 로드하고 fqsample을 출력해 내용을 확인하세요.