생물정보학자가 되는 것은 포기

 - 생물학 중심인 학문인데, 생물학은 아무것도 모르는 내가 생물정보학자가 되어도 핵심 인력이 되지는 못 할 것

 - 핵심 인력이 되기 위해 생물학, 통계학 모두 공부하는데 꽤나 긴 시간이 소요될 것이며 나는 너무 늦었다.

 - 연구 중심의 작업이 진행되는데, 연구를 직업으로 하게 되면 스트레스가 이만저만 아닐 것 같음

 - 생물정보학자를 추천하는 사람을 찾아보기 힘듦 [링크]

 

나는 인류의 건강 수준을 높이고 수명을 연장하는 일에 기여하고 싶어 생물정보학자를 꿈꾸었으나

이는 마치 직접 의사가 되기 위해 의과 대학부터 들어가는 일과 같다는 생각을 떨칠 수 없었다.

인생은 너무나 짧은데 비해 내가 하고 싶은 일들은 너무 많기 때문에

선택의 기로에서 항상 조심스러울 수 밖에 없고 도전이 무서워졌다.

 

 

아래는 생물정보학자가 되고 싶어서 찾고 써놓은 것들

 

 

 

목표 :

- 내가 잘 하는 컴퓨터 기술을 통해 인류 건강의 질을 높이고 궁극적으로 수명을 연장한다.

- 아픈 사람들을 줄인다.

- 내가 열정을 다해 할 수 있는 일을 찾는다.

 

컴퓨터 공학을 졸업한 사람이 생물정보학자가 될 수 있을지에 대한 비디오 (Eng)

 

키워드 :

- 생명정보학

- 전산생물학

- 인공지능 헬스케어

- 빅데이터 헬스케어

- 디지털 헬스케어

- 개인 맞춤 의료

- 빅데이터 의료

- 정밀 의료

- 유전체 빅데이터

- 다중오믹스(multiomics)

 

책 :

- 개인 맞춤의료의 시대가 온다 이해성 지음 | 클라우드나인 | 2020년 04월 17일 출간

- 디지털 헬스케어: 의료의 미래 최윤섭 지음 | 클라우드나인 | 2020년 01월

- 이것이 헬스케어 빅데이터이다 한현욱 지음 | 클라우드나인 | 2019년 10월 14일 출간

- 의료 인공지능 최윤섭 지음 | 클라우드나인 | 2018년 06월

- 헬스케어 이노베이션 최윤섭 지음 | 클라우드나인 | 2014년 10월 25일 출간

 

인물 : 

- 최윤섭 : 컴퓨터공학, 생명과학, 의학의 융합을 통해 디지털 헬스케어 분야의 혁신을 창출하고 사회적 가치를 만드는 것을 화두로 삼고 있는 융합생명과학자, 미래의료학자. 국내 최초로 디지털 헬스케어를 본격적으로 연구하는 연구소인 ‘최윤섭 디지털 헬스케어 연구소’를 설립하여 소장을 맡고 있음. 

- 이도헌 : 한국생명정보학회 회장 및 카이스트 바이오 및 뇌공학과 교수. 대학원에서 인공지능과 데이터베이스를 연구하고, 박사과정 이후부터 생명정보학에 발을 들임.

- 한현욱 : 한양대학교 컴퓨터공학과를 졸업하고 서울대학교 대학원에서 공학 석사학위를 받았음. 헬스케어 빅데이터와 이를 응용한 어플리케이션에 관해 관심 있다. 특히 네트워크 의학, 헬스케어 데이터 분석기, 헬스케어 마이데이터 분야에서 활동하고 있다. 또한 『메디게이트 뉴스』와 『전자신문』 『무비스트』 등에 헬스케어 빅데이터를 주제로 칼럼을 쓰고 있으며 다양한 헬스케어 빅데이터 기업들을 대상으로 기술자문 활동.

 

강의 :

 - 숭실대 김상수 교수님 생명정보개론 www.kmooc.kr/courses/course-v1:SoongsilUnivK+soongsilmooc01K+2019_T2/about

 - 서울시립대 유권열 교수님 알기 쉬운 분자생물학 www.kmooc.kr/courses/course-v1:UOSk+ACE_UOS07+2020_T2/about

 - 의학정보학 kocw.net/home/search/kemView.do?kemId=294978

 - 생명정보응용 kocw.net/home/search/kemView.do?kemId=1106346

 - NGS데이터분석 kocw.net/home/search/kemView.do?kemId=1193709

 - 컴퓨터 게놈학 II kocw.net/home/search/kemView.do?kemId=312712&ar=relateCourse

 - DNA와 단백질에서 돌연변이 발견(생물정보학 VI) kocw.net/home/search/kemView.do?kemId=1107471

https://www.kgol.org/course/course_list.jsp?cid=5898&ch=course 

 

사이트 : 

- BMC Bioinformatics bmcbioinformatics.biomedcentral.com/

- Bio-IT world www.bio-itworld.com/

- 컬럼 전산생물학자가 되고 싶나요? www.nature.com/articles/nbt.2740 

- 컬럼 생명정보학자 커리어 가이드 www.bioinformaticscareerguide.com/p/career-guide.html

- 컬럼 생물정보학 박사과정 caseybergman.wordpress.com/2012/07/31/top-n-reasons-to-do-a-ph-d-or-post-doc-in-bioinformaticscomputational-biology/

- 생물정보학 참고자료 모음

  ㄴ http://www.incodom.kr/생물정보학

  ㄴ opengenome.net/전산생물학

- 무료 생물정보학 강의
http://www.bioinformaticscareerguide.com/2018/01/get-bioinformatics-education-online-for.html

- 국가생명연구자원정보센터 KOBIC www.kobic.re.kr/

- 최윤섭의 헬스케어 이노베이션 www.yoonsupchoi.com/

- OMGenomics omgenomics.com/

- 컬럼 생물정보학도가 말하는 생물정보학이란 lab_taylor.postype.com/post/1621

- 2020 NIPA 인공지능/데이터분석 믹스앤매치 아카데미 festa.io/events/1201

- So you want to be a computational biologist? www.nature.com/articles/nbt.2740

 

관련 기업 채용 공고 : 

지금 보니 알아본 회사 대부분에서 생물정보학자가 아닌 컴퓨터과학자를 원함.

산업군에서는 컴퓨터 과학자로도 충분하고, 이보다 더 뛰어난 생물정보학자는 연구소에 가는 듯.

- Insilico Medicine,Inc : 인공지능 엔지니어, 소프트웨어 엔지니어, 인공지능 과학자

- Thermo Fisher Scientific : 데이터 엔지니어 등 엔지니어 많이 뽑음

- 23andme : IT 와 관련된 공고는 없는 듯

- alphafold : 석박사에 준하는 능력을 갖는 인공지능 과학자, 실무 소프트웨어 엔지니어링 경험

- Galvani Bioelectronics : 데이터 과학자, 데이터베이스 운영 경험, 인공지능 개발 경험

- 한국 기업

  ㄴ 닥터노아 바이오테크

  ㄴ 메디블록

  ㄴ 모바일닥터

  ㄴ 미소정보기술

  ㄴ 신데카바이오

  ㄴ 웰트

  ㄴ 코아제타

  ㄴ 휴레이포지티브

  ㄴ 엠투웬티

  ㄴ 비링크헬스케어

 

논문 : 

- Big Data Bioinformatics CASEY S. GREENE, JIE TAN, MATTHEW UNG, JASON H. MOORE, and CHAO CHENG [링크]

 

관련 대학 : 

박사 과정이나 야간 대학을 가볼까도 생각해 봄.

박사로 가면 연구는 피할 수 없음. 연구와 나는 맞질 않는다고 생각하는데

순전히 공부를 하기 위해서 가고 싶다면 학사를 가야할까? 

- 캐나다 내 생물정보학과 대학 리스트 [링크]

- 미국 내 생물정보학과 대학 리스트 [링크]

- 서울대 : 바이오정보학 [링크]

- 카이스트 : 바이오 및 뇌 공학과 [링크]

- 포항공대 : 시스템생명공학부 [링크]

- 숭실대 : 의생명시스템학부 [링크]

- 상명대 : 생명정보학과 [링크]

- 기타 의견들 [링크]

 

배워야 할 것들 : 

- 생물정보학 커리어 가이드 [링크]

- 컴퓨터 과학

  ㄴ 빅데이터(내가 현재 종사중인 분야)

  ㄴ 인공지능(딥러닝 및 머신 러닝)

- 생물학

  ㄴ 유전학, 분자 생물학, 구조 생물학

- 수학

  ㄴ 통계

- 영어

 

http://www.bioinformaticscareerguide.com/p/career-guide.html

 

 

 

 

생물정보학 :
- 바이오인포매틱스(bioinformatics)는 생물학적인 문제를 응용수학, 정보과학, 통계학, 컴퓨터 과학, 인공지능, 화학, 생화학등을 이용하여 주로 분자 수준에서 다루는 학문이다.
 생물체로부터 얻어진 대량의 데이터로부터 유용한 지식을 얻어내기 위한 이론물리/전산/통계/수학적인 도구를 이용하여 생명현상을 연구하는 분야를 생정보학(bioinformatics) 혹은 생명정보학, 생물정보학으로 쓰이고 있으며, 전산생물학(computational biology)이라는 용어 또한 흔히 같은 뜻으로 쓰이고 있다.
 다중오믹스간의 유기적 관계성을 인공지능(AI)로 해석을 하는 시도들이 늘어나서, 암뿐만 아니라, 심장병까지도 다중오믹스적으로 그 원인유전자 분석을 하게 되었다. 심장병은 암과 같이 유전질환으로 인식이 안되는 만성 성인병임에도 불구하고, 다중오믹스의 분석파워의 증가에 따라, 유전자와 발현체정보의 활용에 힘입어, 조기 진단 및 치료에까지 생정보학의 영역이 확대 [위키]

 

https://www.ngenebio.com/ko/생물정보학이란/
기존의 생명정보와는 차원이 다른 대용량의 30억 염기서열을 조합하고 분석하기 위해서, 전산과 통계가 반드시 필요했는데, 생물정보학(Bioinformatics)은 바로, 인간게놈프로젝트의 핵심 기술 중 하나였으며, 이 프로젝트를 통해 발전하게 되었다. 생물정보학은 대량의 생명정보로부터 유용한 정보를 뽑아내기 위해 전산알고리즘과 통계이론을 활용하는 학문이다.
생물정보학은 다양한 학문이 결합한 융합학문인데, 생물학, 전산, 통계가 가장 큰 부분을 차지하고 있다. 일반적으로 생물학은 연구의 주제를 제공하고, 전산과 통계는 연구를 수행하기 위한 도구로서 활용되고 있다. 하지만, 생물정보에 적합한 전산알고리즘 및 통계기법의 개발 역시 생물정보학의 중요한 연구주제이다.

 

http://www.bioinformatics.pe.kr/intro/introduction.html
"앞으로 생명현상을 연구하려면, 기존에 생물학과 등에서 배울 수 있었던 것과는 완전히 다른 지식들이 필요로 하게 되겠군." 정도로 표현을 할 수 있을 것이다.
반면에 생물정보학의 한쪽 절반을 이미 가지고 있는 사람이라 할 수 있는 전산학자, 통계학자, 수학자들은 또한, 소위 "분자 또는 물질"에 대한 것들을 배우는 분야에 속해 있지 않다는 점이 있다. 전산학자 혹은 통계학자들은 이 세상에 많지만, 이와 동시에 생물학자이기도 한 사람이 극히 드문 것이 바로 오늘날 전세계적으로 생물정보학 전문가 부족이 극심한 이유의 핵심의 하나이다.

 

https://bioeng.kaist.ac.kr/index.php?mid=bio_05_04&document_srl=5147
생물정보학에는 통계에 대한 깊은 이해가 필요하다. 과목에서는 기본적인 통계부터 통계학습까지 다룬다. 

 

< 책 : 이것이 헬스케어 빅데이터이다 >
헬스케어 빅데이터는 헬스케어라는 지식의 도메인을 다양한 빅데이터 분석 기술을 활용해 의료적 가치를 창출하는 지식정보 산업군.
의료는 방대하고 전문성이 높은 분야이다. 빅데이터의 바탕이 되는 컴퓨터공학 또한 복잡한 분야이고 헬스케어 빅데이터를 구성하는 유전체 정보나 라이프로그까지 합치면 정말로 방대한 분야에 대한 이해가 필요.

 

< 생물정보학 커리어 가이드 >
http://www.bioinformaticscareerguide.com/p/career-guide.html
A switch into bioinformatics from any STEM career (science, technology, engineering, and mathematics) is accomplishable even if you have no formal education or training in computer science.
생물정보학자(혹은 컴퓨터 생물학자)는 생물학적 데이터를 분석하기 위해 컴퓨터 기술을 사용하는 사람.

 

https://www.ngenebio.com/ko/생물정보학이란/
생물정보학은 인간 게놈 프로젝트에서 파생된 학문.
기존의 생명정보와는 차원이 다른 대용량의 30억 염기서열을 조합하고 분석하기 위해서, 전산과 통계가 반드시 필요했는데, 생물정보학(Bioinformatics)은 바로, 인간게놈프로젝트의 핵심 기술 중 하나였으며, 이 프로젝트를 통해 발전하게 되었다. 생물정보학은 대량의 생명정보로부터 유용한 정보를 뽑아내기 위해 전산알고리즘과 통계이론을 활용하는 학문이다.

생물정보학은 다양한 학문이 결합한 융합학문인데, 생물학, 전산, 통계가 가장 큰 부분을 차지하고 있다. 일반적으로 생물학은 연구의 주제를 제공하고, 전산과 통계는 연구를 수행하기 위한 도구로서 활용되고 있다. 하지만, 생물정보에 적합한 전산알고리즘 및 통계기법의 개발 역시 생물정보학의 중요한 연구주제이다.

 

AWS 1000 게놈 프로젝트
aws.amazon.com/ko/1000genomes/

 

 


bio 커뮤니티(bric)
생물정보학 이론 블로그, 블로그2, 블로그 모음
생물정보학 입문(Eng)
생물정보학 프로그래밍 문제 Rosalind
생물정보학 위키
[youtube] Going from CS to bioinformatics (Eng)
생물정보학이란 무엇인가? by 원세연(생물정보연구소)

책 추천 목록 (블로그)
생물정보학 남준희 외 지음| 좋은땅 |2012년 02월 20일
생명정보학 Dan E. Krane, Michael L. Raymer 공저 / 조재창 역 | 월드사이언스 | 2007년 03월 15일

통계 이론 (Eng)
bio 대학 강의
coursera 강의
bioinformatics youtube1 , youtube2
초심자를 위한 생물학 + 정보학


 


데이터
- TCGA
- CCLE


 


생물정보학이란

컴퓨터를 이용하여 대규모 생물학 데이터를 분석하고 가공하여 유용한 정보를 얻어내는 응용과학 학문.
생물학과 전산학이 융합된 학제 간(interdisciplinary) 학문 분야이며 기계학습의 주요 응용 분야 중 하나이다.

생물정보학의 발전은 2003년 인간 게놈 프로젝트(Human Genome Project)가 완료되는 데 결정적인 역할을 하였으며, 
현재 질병의 진단과 치료 등에 관한 연구를 비롯한 다양한 생의학(biomedicine) 및 생물학 연구가 생물정보학을 기반으로 한다.

....30억 유전암호문자(염기) 데이터를 손에 넣은 것뿐이고, 그 암호를 해독하지 않으면 게놈이 무엇을 의미하는 것인가는 보이지 않는다.
21세기가 생명 과학의 시대라고 불리는 이유는 유전 암호의 바다에 감추어진 유익한 정보를 찾아 내면
꿈의 신약과 치료법 등의 개발이 실현될 수 있기 때문이다.

[네이버 지식백과] 생물정보학 [Bioinformatics, 生物情報學] (IT용어사전, 한국정보통신기술협회)


 


NGS(Next Generation Sequencing)은 (Sanger Sequencing과 달리) 대량의 병렬 데이터 생산(Massive parallel sequencing)으로
유전체의 염기서열을 고속으로 분석(Highthroughput sequencing) 하는 기술

하나의 유전체를 수많은 조각으로 분해하여 각 조각을 병렬로 동시에 읽은 후 전산기술을 이용하여 조합
방대한 유전체 정보를 빠르게 해독하는 방법

기존의 직접염기서열분석법(direct sequencing)은 분석하고자 하는 부위를 PCR 증폭해야 하기 때문에
여러 타겟을 분석할 경우 많은 시간과 노력 및 비용이 소요되어 효율성이 낮은 문제점이 있었다.

이러한 단점을 극복하고자 차세대 염기서열분석(next generation sequencing; NGS) 법이 개발되었다.
이것은 DNA 가닥을 각각 하나씩 분석하는 방식으로 기존의 직접 염기서열분석법에 비해 매우 빠르고 저렴하게 염기서열이 가능하다.


[참고] [회사별 NGS 장비의 차이

 


액체 생검(Liquid Biopsy)은 혈액에 떠다니는 DNA(cfDNA, Circulating cell free DNA)를 시퀀싱하여 분석하는 기술입니다. 

이 기술이 암의 진단과 모니터링을 가능하게 하는 이유는 암 세포의 특성 때문입니다.
암 세포는 빠르게 분열하는 만큼, 일반 세포보다 수명이 짧고, 죽을 때 혈액에 자신의 DNA를 뿌리고 죽게 됩니다. 

이 특성때문에, 혈액에 떠다니는 DNA를 분석하게되면 암 세포가 갖는 암 유전자(oncogene)를 발견할 수 있습니다. 

또한 암 유전자를 발견함으로써 갖는 큰 장점이 있습니다. 
바로 해당 암 유전자에 큰 효과를 갖는 항암제를 사용할 수 있다는 점입니다.

암 유전자는 암 세포가 암을 발생시키는 근본적인 원인이기 때문에, 
이 유전자로 인한 오작동을 차단시키는 항암제가 존재한다면, 암을 효과적으로 치료할 수 있습니다.


 


생물정보학자가 하는 일

DNA 데이터가 도착하면 항상 하는 기본 분석과정에 대해 알아보겠습니다.
기본 분석 알고리즘의 목적은 DNA로부터 질병과 관련 돌연변이 찾는 것입니다.

알고리즘의 과정은 크게 3 단계로, 
- DNA 데이터 Quality Control 
- 매핑(정렬) 
- 돌연변이 검출
로 나뉩니다.

1) DNA 데이터 Quality Control
NGS(차세대 염기서열 분석)는 자체로 기술적 한계가 있습니다.
그래서, 자체적으로 DNA 서열 Raw Data 추정 오류 수치로 나타내고,
이렇게 생성된 데이터를 Fastq 파일이라고 합니다. (확장자가. fastq입니다.)
 Fastq데이터를 정제(preprocessing)하며 오류를 줄이는 과정 Quality Control이라고 합니다.

2) 매핑(Mapping)/ 정렬(Alignment)
시퀀싱 결과 생성된 FASTQ 파일은 보통 매우 짧은 서열(read)들로 구성되어 있습니다. 
사람은 23쌍의 염색체로 이루어진 매우 긴 DNA 서열을 갖습니다. 

매우 짧은 서열 정보로는 어떤 염색체의 어느 위치에 있는 DNA에 돌연변이가 생긴 건지 파악할 수 없습니다. 
그래서 인간의 표준 유전체(Reference genome) 정보를 참고하여 짧은 서열들을 이어 붙여
각 염색체 별로 DNA 서열을 정렬해야 하는데, 이 과정을 매핑(정렬) 과정이라고 합니다.

매핑(정렬)이 완료되면 FASTQ의 각 시퀀싱 서열(read) 별로 표준 유전체에서 어느 염색체 어디의 서열인지 번호 및 위치가 기록됩니다.
이를 SAM(Sequence Alignment Map) 파일이라고 부르고,
용량이 너무 크기 때문에 이진수 형태로 압축하여 BAM(Binary Alignment Map) 파일을 만듭니다.

3) 돌연변이 검출(Variant Calling)
BAM 파일이 생성되면, 위치별 변이가 갖는 의미를 파악합니다.
이 과정을 변이 검출(Variant Calling)이라 부르며, 표준 유전체 서열과 다른 모든 서열 돌연변이(variation)로 간주합니다. 

하지만, 실험 에러, NGS 장비의 에러, 매핑 과정의 에러 등 수 많은 에러가 존재하기 때문에,
DNA 정보를 제공한 사람이 갖는 진짜 돌연변이를 파악할 수 있는 통계적 알고리즘들이 적용돼야 합니다.  

검출된 변이는 VCF(Variant Call Format) 파일로 저장됩니다.
VCF파일은 행과 열로 이루어진 데이터 부분(엑셀로 볼 수 있는 형식)과
데이터가 무슨 의미인지 써두는 헤더 부분(##가 줄 맨 앞에 쓰여있음)으로 나뉩니다.

VCF 파일 이후부터는 변이에 대한 필터링 과정을 거쳐 돌연변이가 진짜인지를 분석하게 됩니다.
변이들의 패턴을 확인하고, 에러로 인한 변이인지 진짜 변이인지를 여러 가지 통계 알고리즘을 활용해 파악합니다.
이렇게 필터링하는 과정이 분석 시간의 많은 부분을 차지합니다.

VCF 파일 생물학적 의미를 뜻하는 정보들을 붙이는 과정 Annotation 이라고 합니다.


샘플에서 DNA를 추출하고 DNA를 무작위로 자른 후 sequencer가 읽을 수 있도록 library를 제작합니다. 
이후 이를 sequencer에 넣고 DNA 서열을 읽어서 A, C, G, T의 서열이 나오게 됩니다. 
Sequencer가 library를 한 번 읽는 단위를 리드(read)라고 합니다.

Sequencing을 진행하게 되면 필연적으로 PCR (Polymerase Chain Reaction) 과정에 의해 중복 리드가 발생합니다.
이러한 중복 리드들은 variant calling 과정에서 영향을 주게 됩니다.
그래서 duplication을 마킹하여 variant calling 때 영향을 주지 않도록 만들어야 합니다.

한 샘플을 Sequencer에서 서열을 읽게 되면 수백만개의 리드가 나오게 되고
리드와 오류값으로 구성된 파일을 FASTQ 파일이라고 합니다.

FASTQ는 네 줄이 하나의 리드로 구성됩니다. 
첫 번째 줄은 헤더, 두 번째 줄은 서열, 세 번째 줄은 구분자(+), 네 번째 줄은 각 서열에 대한 퀄리티(오류치) 줄입니다.
예를 들어

@SRR1518133.318
CCTAAACTGAGTCCAGCTGGCTAACTCTAAATATATGTGTATCTTTTCAGCATAAAAAAAATAATGTTTTTCATAA
+
CCCFFFEDDFDDFHGBGII<EHIJGIIIIJIIEIJ@F?CFFEGIGIJGIEDEGIE@HGIHDCG@CEHEEHFBCFED

이렇게 나온 FASTQ 파일을 reference sequence, 즉 기준이 되는 서열에 mapping을 합니다. 
이렇게 mapping이 된 파일을 SAM, BAM 파일이라고 합니다.

BAM 파일에서 기준 서열과 다른 서열을 찾아낼 수 있는데, 
이를 변이를 찾아내는 과정, 즉 variant calling 이라고 합니다.


 

돌연변이를 찾는 전체 과정

 

GATK [참고] : 

Genome Analysis Tool Kit(GATK)는 Broad Institute에서 개발한 것으로

sequencing data(NGS)를 이용하여 genome 내 모든 variant calling이 가능하도록 sub program들로 구성되어 있다.

입력 : BAM 파일 등
  SAM 포맷은 데이터가 크기 때문에, 압축된 사이즈의 BAM 파일을 사용

  GATK의 인풋으로 사용되는 매핑 파일은 서열의 position 별로 sorting된 파일을 사용해야 함.
결과: VCF 파일
핵심 아이디어: Map Reduce Technique

 

 


실제 프로그래밍을 통해 돌연변이를 검출하는 과정

사용하는 툴
 - bwa2 : 
 - gatk : 
 - samtools : 

사용하는 데이터
 - 시퀀싱된 21번째 염색체 데이터 (fastq 파일)
 - 인간의 표준 유전체 데이터 hg38.chr21.fa (reference sequence)

전체 처리 순서
 1. sequencer 로 시퀀싱 후 생성된 FASTQ 파일을 준비

 2. reference sequence에 mapping
  사용한 툴 : bwa2 (bwa-mem2)
  input : fastq 파일
  output : sam 파일

 3. 생성된 SAM 파일을 BAM 으로 전환(binary 화)
  사용한 툴 : samtools
  input : sam 파일
  output : bam 파일

 4. BAM 파일 생성
 5. duplicate 마킹
  사용한 툴 : samtools
  input : bam 파일
  output : bam 파일

  bam 파일 내에 있는, 각 리드의 특성을 나타내는 flag 를 여기에서 해석 가능. duplicate 되었는지 알 수 있음

 6. variant calling
  사용한 툴 : GATK
  input : bam 파일
  output : vcf 파일

 7. VCF 파일 생성
  이 문서(eng)  이 곳(kr)을 참고하여 vcf 파일 해석 가능 (VCF file specification)

 8. annotation

 

실제로 작업을 진행하면 아래와 같이 데이터 사이즈가 크고 처리 시간도 하루 단위로 걸릴 수 있음

 


인간 표준 유전체 데이터는 hg38.chr21.fa 등으로 나타날 수 있음

hg38 은 human genome 38 버전을 의미함 [참고]
버전에 따른 차이 [링크]

가장 많이 사용되는 인간 표준 유전체는 GRC(Genome Reference Consortium) 에서 공개한 hg19 버전, hg38 버전 임
hg19(GRCH37) 버전은 2009년 공개되었음
hg19 의 약점을 보완하고 개선된 hg38(GRCh38) 버전은 2013년에 공개되었음

chr21 은 21 번째 염색체를 의미함 (Chromosome)

[참고]


 


센트럴 도그마

1953년 왓슨과 크릭이 DNA 이중나선 구조를 밝히면서 분자생물학 혁명이 시작되었습니다.
이 혁명은 1960년대 중후반까지 지속되었고,
유전정보가 DNA로부터 RNA를 거쳐 단백질로 전달된다는 센트럴 도그마(Central Dogma) 패러다임이 정립되었습니다.
분자생물학의 기본 원리에 대한 큰 그림이 완성된 것입니다.

Central Dogma의 정의는 간략하게 말하면 'DNA에서 RNA로 전사되고, RNA에서 단백질로 번역 된다' 입니다.
Central Dogma는 DNA로 부터 어떻게 지구상에 존재하는 수 많은 생명체들의 생명현상이 나타나는지 
분자 수준에서의 방향성을 밝힌 것 입니다. 

Central Dogma를 이루는 기본적인 원리는 3가지입니다. 

- DNA replication(DNA 자기복제)
- Transcription(전사)
- Translation(번역)

1) DNA replication (DNA의 자기복제)
DNA는 자기 스스로 똑같이 복제할 수 있습니다. 
DNA는 하나의 이중 나선 구조이고, 이중 나선이 풀어지며 2개의 단일 가닥이되고, 
각각의 가닥이 복제되며 2개의 똑같은 이중 나선이 됨으로써 복제가 이루어집니다.

모든 생명체는 DNA를 가진 하나의 세포로 부터 복제되어 생깁니다. 
이렇게 똑같은 DNA를 가진 세포가 사람의 경우 약 100조개가 모여 몸의 모든 부분을 이루고 있습니다. 
이렇게 되기 위해 오류없이 똑같이 복제가 가능한 분자가 필요했고, DNA가 매우 적당한 분자였습니다. 

2) Transcription (전사)
DNA는 세포의 핵 내부에서 매우 안정한 형태로 있기 때문에, 핵 밖에서 DNA의 설계대로 움직일 분자들이 필요합니다.

DNA는 스스로 핵 밖으로 나가는 위험을 무릎쓰지않고,
DNA처럼 생겼지만 조금 다른 RNA를 만들어 핵 밖에서 움직이도록 합니다.
이 때, RNA를 만드는 과정 전사라고 합니다.

RNA는 DNA와 매우 비슷하게 생겼지만, 이중 가닥 구조인 DNA와 달리 단일 가닥 형태입니다.

3) Translation (번역)
RNA는 핵 밖으로 나와 단백질을 만들기 시작합니다. 
RNA는 DNA와 마찬가지로 4종류의 염기로 구성되어 있습니다. 
염기3개가 아미노산 1개를 암호화 하고있으며, RNA 한 가닥이 아미노산서열을 만들게 됩니다. 

이렇게, RNA로 부터 아미노산 서열을 만드는 과정을 번역이라고 합니다. 
아미노산 서열 뭉쳐서 단백질이 됩니다.

이렇게 복제, 전사, 번역 과정이 Central Dogma의 핵심입니다. 이 과정이 왜 중요할까요?
모든 생명현상은 정말 다양한 형태의 단백질들이 상호작용함으로써 가능합니다. 
이렇게 다양한 단백질들이 설계되어 있는 곳이 DNA입니다.

DNA에서 단백질이 되는 기본적인 과정이 Central Dogma 이기 때문에, 
Central Dogma가 모든 생명 현상의 근간 이라고 볼 수 있습니다.


 

 

 

 

내 생각/고민 및 앞으로의 계획 (2020 년 9월) :

- 생물정보학에서 원하는 지식은 크게 생물학, 통계, 인공지능.

  인공지능이 핵심이기 때문에 공부 할 최우선순위는 인공지능.

- 적어도 내 필드(빅데이터)에서는 전문가가 되어야 하기 때문에 1~2년 동안은 빅데이터 공부에 집중해야 함.

  더불어 생물학, 통계, 인공지능도 시간 내어 공부.

- 현재 나는 데이터를 가공하고 처리하는 데이터 엔지니어임. 데이터에서 insight 를 뽑아내는 일은 하지 않음.

  하지만 생물정보학자가 되기 위해선 필요함(인공지능 및 통계 기반으로)

  내가 생각했던 일은 "생물학적 데이터를 가공하는 일을 내가 맡고, 그것에서 분석하고 가치를 얻어내는 일은 다른 생물학자들이 한다" 였는데, 실상 알고보니 오히려 후자가 되어야 내가 원하는 일을 할 수 있을 것 같음.

  생물정보학 연구가 빅데이터 기반인 것은 맞지만, 핵심은 통계와 인공지능.

  되돌아보니 대학원에서 빅데이터 말고 인공지능을 배웠어야했는데 ㅠㅠ 살짝 다른 분야를 팠음.

  여튼 빅데이터 지식이 있으면 도움이 되는 것은 맞음.

- 생물정보학/전산생물학 오롯이 대학원에 다시 들어가는 방법과, 실제 필드에 뛰어들어서 배우는 방법이 있음.

  둘 다 입학/입사 조건이 있기때문에 앞으로 1~2년간은 해당 조건을 채우기위해 독학해야 함.

  만약 대학원을 간다면 외국으로 가야 할 것.

  실제 필드에 뛰어든다면 외국계 회사에 뛰어들 것.

- "생물정보학" 과 "헬스케어" 관계를 되짚어보면, 마치 수학과 응용수학, 순수미술과 산업디자인 같은 느낌임.

  생물정보학은 미지의 영역을 탐구하고 알아내는 연구 분야라면

  헬스케어는 연구된 지식들을 응용하여 무언가를 만들어내는 것 같다.

  두 분야 모두 인류의 건강에 영향을 미치는 것은 맞고 인류의 건강 증진이 내 목표이기 때문에 어떤 길을 걷는지 크게 상관이 없을 것 같다는 생각인데.

  칼리코 프로젝트같은 연구에 합류하려면 전자를 대상으로 공부해야 할 것 같긴 함....

  이에 대해, 앞으로 내가 나아갈 방향을 제대로 잡으려면 전문의의 조언이 필요함.

  도움이 되지 않는 것을 공부하다가 시간을 날릴 수 있기 때문에.

 

장기적으로 공부해나가야 할 듯. 한 5~10년 정도.

내가 하고 있는 일과 병행하기 힘들테지만,

멈추지 않고 꾸준히 공부해나간다면 언젠가 내가 원하는

생물정보학 필드에서 일 할 수 있고 내 목표에 가까워질 수 있을 것.

 

 

내 생각/고민 및 앞으로의 계획 (2022년 2월) :

- 생물정보학에서 원하는 지식 중 인공지능이 필요하다는 것은 변하지 않음.

  하지만 데이터 엔지니어 입장에서 인공지능까지 커버하기에는 시간이 많이 부족

- 데이터 엔지니어도 배워야 할 것이 굉장히 많음... 너무 많아...

  따라서 1. 데이터 엔지니어 분야에서 전문가가 되기 2. 인공지능 공부하기 이 순서로 진행하면 됨

- 헬스케어 데이터 엔지니어로써 일할 수 있다면 생물정보학에 더 가까워짐

- 헬스케어 회사에서 일하려면 헬스케어 관련 경험이 적어도 2년 이상 필요함

  따라서 한 살이라도 어릴 때 빨리 헬스케어 관련 회사에서 경험을 쌓아야 함

- 경험만 있다고 해서 굴지의 헬스케어 회사에서 일할 수 있는 것도 아님

  경험과 더불어 충분한 실력이 뒷받쳐주어야 함

- 물론 헬스케어 회사를 거치지 않고 생물정보학 연구소에서 일할 수 있다면 그게 베스트

 

 

 

 

 

 

 

+ Recent posts