• 1990년 인간 게놈프로젝트 시작

  • 2000년 초안 발표

  • 2003년 게놈 서열의 완성을 선언

  • 프로젝트 초반 가장 노력을 쏟은 분야는 1977년 개발된 Sanger sequencing 방법을 발전시킨 고속 시퀀싱 개발
    - 1990년대 말, 많은 량의 시퀀스를 자동화 시퀀싱하는 기기가 개발 -> 1-2년만에 대부분 시퀀싱 데이터 생산 완료
    - 하루 밤 사이 1,000개 정도의 DNA조각을 500bp씩 자동으로 시퀀싱 ( ~500bp/day)
    - 아래의 plate에 dna조각을 넣고 자동화 기기에 장착해주면, 자동적으로 시퀀싱 함(96-well-plate, 한 well 속 dna 당 500bp)
    * bp = genome size인 base pair
    96 well plate에 대한 이미지 검색결과
    - 인간의 게놈은 30억개의 염기쌍 --> 이것을 10배수로 읽는 것이 프로젝트의 목표(시퀀스는 에러가 많기 때문에 10번 반복해서 에러 제거)
    - 30억 * 10 = 300억 bp 를 당시 1개의 시퀀싱 기기를 이용할 경우, 60000일 소요... 200대가 사용되었다면 300일 1년 걸림(20개 센터 200대 사용)
    - 당시 직접비만 계산시 = 기기값(대당 5억 * 200대 = 1000억) + 인건비 + 시약비  = 약 1000억원 이상 소요
    - 그 외 게놈 서열 조립 및 분석 등의 생명정보학적 비용은 제외

  • 2003년 인간 게놈 프로젝트의 완성을 선언한 미국보건원 산하 인간게놈연구소(NIH)는 이후 새로운 기술을 개발하는 프로젝트를 공모함.
    - $1000 정도로 인간 1명의 인간게놈 시퀀싱이 가능한 기술 개발이 목표
    - 그 공모의 결과는 아래와 같다 (10팀 정도가 참여했다고 함)
    image
    - Megabase(100만 염기쌍)의 DNA sequence 비용 변화
    2003년  $10,000 의 비용이 들던 것이
    2008년 인텔 회장 고든 무어의 무어의법칙(18개월마다 2배 it기술 발달)을 파괴하여 100배 정도 좋아짐/
    - 1년 사이에 비용이 1/100로 줄어들었는데 이것은 생거시퀀싱과 차별화되는 차세대 기술이라 하여
    - Next Generation Sequencing(NGS)라고 불리운다.

  • DNA 시퀀싱 비용이 저렴해짐으로 인해, 연구자들은 더 많은 샘플들을 확보함(연구 비용을 줄이진 않음)
    - 새로운 종, 유전자 발현량 측정에도 시퀀싱 기법을 활용함
    image
    - 노란색 : NGS가 나타나기 전에 DNA시퀀싱 비용(bp/$) -> 19개월마다 2배 발달
    - 주황색 : NGS -> 5개월마다 2배 발달
    - 파란색 : hard disk 저장량 (mb/$) -> 14개월마다 2배 발달

  • NGS기술의 단점은 생거 시퀀스보다 정확도가 떨어지는 것이다.
    - 이를 해결하기 위해, 반복/배수를 높혀서 실험한다.(싱거는 10배수를 줬다면 그 배 이상으로..)
      결과적으로 반복이 많아졌으므로 샘플데이터 대용량이다. -> 데이터 복사 / 전송도 오래 걸린다.
    - 정확도를 떨어지는 것을 보완하기 위해서, 더 복잡한 분석 알고리즘을 필요로 한다.
      따라서 많은량의 데이터를 고급IT기술로 무장한 생명정보학 전문가의 수요가 더욱 높아지고 있다.
    - 고 메모리 / 병렬컴퓨터인 클러스터를 필요로 함.
      운영체제도 윈도우즈 계열보다 파이프라인 구성이 자유로인 리눅스 계열이 사용되고 있다.

'한의대 생활 > └ NGS 와 CDM' 카테고리의 다른 글

3. CDM ( 공통 데이터 모델 정리 )  (0) 2019.01.08
2. Sanger sequencing의 기본원리  (0) 2018.12.28

+ Recent posts