한의대 생활/└ NGS 와 CDM

  • 의료 빅데이터의 종류
    • 전자의무기록
    • 환자질병 등록 정보
    • 환자 건강 모니터링 기기 자료
    • 유전체 정보
    • 보험청구자료


  • 의료기관의 정보시스템의 예
    • 전자의무기록(Electronic Medical Records : EMR) : 환자의 진료정보 전산화
    • 처방전달시스템(Order Communication System : OCS) : 각종 검사 및 약물 처방 정보 처리
    • 의료영상시스템(Picture Archiving and Communication System : PACS) : CT나 MRI 등 의료영상
    • 검사정보시스템(Laboratory Information Management System: LIMS) : 혈액검사 등 각종 검사정보 처리



  • 병원정보시스템
    • 운영계 : 실제 진료가 이루어지는 환자 정보들을 축적하는 단계
    • 분석계 : 축적된 자료를 활용하여 병원에서 사용자 중심의 의사결졍지원 및 다차원적 분석을 위한 정보 기반을 제공
      -> 표준화를 통해 여러 병원과 연결되어 환자 질병의 사전 예방 및 관리 중심으로 진화 중
      image


  • 현재의 병원정보시스템은 각 병원마다 다른 구조 -> 자기 병원의 환자 데이터를 기반한 연구만 가능
    각 병원의 데이터를 같은 포맷인 공통 데이터 모델(Common Data Model : CDM)로 변경하는 개념이 대두되고 있음.
    이러한 표준화된 데이터를 기반으로 최근 다양한 분산연구망(Distributed Research Network : DRN)을 통한 연구가 활발히 진행 중


  • DRN(Disributed Research Network)의 종류
    • Sentinel Initiatives
    • Observational Health Data Sciences  and Informatics(OHDSI)
    • National Patient Centered Clinical Research Network(PCORnet)


공통 데이터 모델

  • 개념 : 병원들의 데이터를 효율적으로 활용하기 위해 정의한 표준화 데이터 구조. 국제 표준용어체계 기반으로 구성되어 각 의료기관의 데이터를 공통 데이터 모델로 바꾸기 위해서는 각 의료기관에서 사용되는 용어들을 표준용어체계로 매핑하는 작업이 필요

  • 연구목적에 따른 종류
    - CDM의 구성항목은 각 모델의 목적에 따라 다르며, 의료기관이목적에 따라 선택하여 구축
    • Sentinel CDM(약물 감시 목적)
    • OMOP(Observational Medical Outcomes Partnership)
    • CDM(임상 연구 방법론의 적용 및 평가)
    • PCORnet CDM(환자중심 임상 연구 네트워크)
      image


  1. 약물 감시 : Sentinel CDM
    • 미국 FDA는 2008년 Sentinel Initiative(분산 연구망 일종) 를 통해 EMR과 보험청구기록 등 기존 데이터 베이스를 Sentinel CDM으로 변환
    • 분산형 정보체계 : FDA질의 전송 -> 각 기관은 정보보호기준에 따라 요약정보를 FDA에 전송하는 안전한 체계
    • 구성
      - 필수 테이블 : 등록(enrollment) , 인구통계(demographics), 외래 처방(outpatient dispensing), 방문기록(encounter), 진단(diagnosis), 처치/수술(procedure) 등 6 개
      - 부가적인 테이블 : 검사 결과(laboratory), 활력징후(vitals), 원내처방(inpatient dispensing), 원내수혈(inpatient transfusion), 사망(death), 그리고 사망원인(cause of death) 등 6개

    • 필수테이블은 모든 트너가 공통적으로 구축, 부가적인 테이블은 보험회사를 제외한 일부 의료기관에서만 CDM으로 구축
    • Sentinel CDM v7.0.0 구성요소
      - 18개의 연구기관(Data partner)이 Sentinel CDM 연구에 참여 중
      - 데이터들(records)은 PatID(unique person identifier)라는 고유 식별자로 연결
      - 13개 테이블 -> 특징별 8개로 분류 :
      1. Enrollment
      2. Demographic
      3. Dispensing
      4. Encounter, Diagnosis, Procedure
      5. Death
      6. Laboratory Result
      7. Inpatient Pharmacy
      8. Inpatient Transfusion
        image



  2. 임상 연구 방법론의 적용 및 평가 : OMOP CDM
    • OMOP에서는 분산형 연구망(DRN) 구축을 목표로 OMOP CDM을 개발하여 오픈소스 툴을 개발
    • 2013년 OHDSI Research Network로 변경하여 데이터 표준화(Data standardization), 의료기기 안전감시(Medical Product Safety Surveillance), 비교 효과 연구(Comparative Effectiveness Research : CER) 등을 다루고 있다.

    • OHDSI는 임상 효과 연구를 위한 보건의료 관찰자료(Observational data)의 효과적 활용을 위한 공공-민간 협력기구로서, 관찰 자료 분석 방법론 연구, 관찰 자료 처리용 분석도구 개발, 협력 연구를 위한 오픈소스 연구자원 구축을 목표로 함.

    • OMOP CDM v6.0은 총 40개 테이블로 구성, 크게는 7개의 엘리먼트로 구성
      1. Standardized Vocabularies
      2. Standardized Metadata
      3. Standardized Clinical Data Tables
      4. Standardized Health System Data Tables
      5. Standardized Health Economics Data Tables
      6. Standardized derived Elements
      7. Results Schema
        image

    • OMOP CDM의 목적 : 관찰 자료의 표준화된 포맷을 제공, 분석 방법론(알고리즘)을 적용하기 쉬운 구조로 임상연구에 중요한 약물 복용과 그 조건의 기간(Drug era, Condition era)의 정의를 제공



  3. 환자 중심 임상 연구 네트워크 : PCORnet CDM
    • PCORnet은 Patient Centered Outcome Research Institute(PCORI)가 환자 의사결정을 비교한 비교 효과 연구를 효율적으로 수행하기 위해 설입한 분산 연구망으로 4개의 의료기관, 6개의 보험회사가 참여하고 있다.
    • 연구의 정확도와 효율성이 높아진 대규모 연구를 수행함으로써 미국의 보건의료 시스템을 지원하는 것이 목표
    • 미국 PCORI에 의해 운영
    • PCORnet CDM v4.1Mini-sentinel CDM을 기반으로 하고 총 17개의 테이블로 구성
    • 효율적인 관찰연구, 실험연구를 지원하는 네트워크인 The National Patient-Centered Clinical Research Network(CCRNs)를 구축함으로써 비교효과연구를 수행하기 위한 역량을 증진시키는 것을 목적으로 함
    • 신약 개발과 질병의 메커니즘 규명 등과 같은 기존 연구보다는 대규모 임상시험을 시행하기 어려운 문제에 대해 의사결정을 지원하기 위한 관찰 임상연구를 수행하고자 하며, 2014년 아스피린이 심장질환을 예방할 수 있는지 알아보기 위한 빅데이터 연구를 시작
      image




공통 데이터 모델의 활용

대표적인 연구활동으로는 미국 FDA의 능동적인 약물 감시를 위한 Sentinel Initiative, OHDSI Research Network의 분산 네트워크 기반 임상 빅데이터 연구가 있다.


  1. 미국 FDA의 능동적 약물감시를 위한 Sentinel Initiative
    image

    • 미국 FDA가 특정 약물의 안정성 이슈를 협업센터에 문의
    • 협업센터는 약물 안정성 이슈를 Sentinel CDM으로 분석 가능한 질의로 변환 후 데이터 파트너에게 전송
    • 데이터파트너는 협업센터의 질의문에 따라 CDM으로 변환되어 있는 DB를 분석후 축약하여 요약결과를 다시 협업센터로 전송
    • 협업센터는 특정 약물 안정성 이슈의 분석 결과를 FDA에 전송



  2. OHDSI Research Network의 분산 네트워크 기반 임상 빅데이터 연구
    • 분산 네트워크를 활용한 CDM 임상 빅데이터 연구는 상이한 자체 DB를 가진 의료기관들이 정보를 공유하고 연구를 수행하는데 효과적이다.
    • 다양한 CDM 중 OMOP CDM은 Setinel CDM보다 연구목적의 복잡한 자료구조를 가지며, 다양한 표준용어체계의 매핑을 통해 구성된다.
    • OMOP CDM의 사용을 위해서는 SNOMED-CT, RxNORM, LOINC 등의 의료 국제표준용어'OMOP concept_id' 용어체계와 매핑해야하며, 이에 필요한 vocaabulary set을 concept 테이블에 담아 공개하고 있다.
    • OHDSI Research Network에서 제공하는 AchillesCDM 자료를 테이블별로 시각화해서 보여주며, Atlas웹 기반 자료분석 도구로 웹 인터페이스로 코호트 구축, 성향변수맞춤, 생존분석, 상대위험도 계산 등의 통계분석을 쉽게 할 수 있다.
      - 콜롬비아대학교에서는 류마티스 관절염에 대해 RWD를 기반으로 무작위 임상 시험 결과를 예측하는 연구 진행 중
      - 류마티스 관절염 환자에서 tocafitinib과 adalimumab 및 etanercept의 안정성을 후향적, 관찰적, 비교 코호트 연구를 진행하였다.
    • 결과적으로 OHDSI의 방향성은 아래 그림과 같다.
      image


Sanger sequecing

  • 1977년 생거 등에 의해 개발된 염기서열 분석법
  • 1980년 생거가 2번째 노벨상을 받게 됨

일반적인 template DNA의 염기서열 분석

3'-ATGACTGAGC-5'와 같은 template DNA 서열 분석에서는
d{A,C,G,T}TP (dNTP)만 넣어주면 DNA polymerase는 이에 상보적인 DNA를 합성하게 된다

DNA polymerase가 상보적인 염기를 합성하려면, 소위 primer라는 DNA 조각이 결합된 이중나선 부위가 존재하여야 그 뒤의 단일가닥 부위에 상보적인 합성이 가능하다 (참고 그림). 우리가 시퀀싱하고자 하는 DNA는 일반적으로 그 서열을 모르는데, 어떻게 primer를 합성하여 반응에 사용할 수 있을까?


 

  • Single stranded ( 5말단 -> 3말단 )가 있다고 가정하고, T C A A C G - 순으로 염기서열이 있다고 가정하자.
    4배수 Primer(프라이머)를 연구자가 미리 넣어주면, 5말단->3말단순으로 (A-G-T-C에 대해) T-C-A-G 상보적으로 결합되면서, 해당 부분이 Double stranded가 된다.

  • 이 때, DNA 폴리머라아제는 나머지 Single Stranded 부분을 -> Double Stranded가 되도록 리액션 하게 된다.
    여기에 필요한 것이 dATP, dTTP, dCTP, dGTP이며, 이것을 따로 넣어줘야한다.
    - (T에 대해) dATP를 잘라서 A를 붙히고 , (A에 대해) dTTP를 잘라서 T를 붙히고... 이런식으로 Single-stranded를 메꾸도록 한다.


Sanger Sequencing 기본 원리

dNTP  + 소량의 dd{A,C,G,T}TP (ddNTP)를 섞어주게 되면, DNA polymerase가 template DNA에 상보적인 서열을 합성해 나가다가, 중간중간에 ddNTP가 끼어 들어간 DNA 분자가 합성되게 된다. 그러한 분자는 더 이상 길어지지 않고 합성이 중단되게 된다. 이들 ddNTP에는 각각을 구별할 수 있는 형광물질이 결합되어 있기에, 새로이 합성된 DNA 들의 마지막 염기 종류에 따라 서로 다른 형광을 띄게 된다. 여기에서 주목할 것은, 합성된 DNA 분자들은 모든 자리에서 4개 중의 어느 하나의 ddNTP가 끼어 들어간 것이기에, 정확히 한 염기씩 길이의 차이가 나는 것들이다. 이들은 전기영동법에 의해 크기 순으로 나열할 수 있으며, 레이저 빛을 각 전기영동 밴드에 쬐면, 형광물질에 따라 특이적인 파장의 빛을 발하게 되며, 이를 순서대로 읽으면 원래 염기서열(3'-ATGACTGAGC-5')과 상보적인 5'-TACTGACTCG-3'을 얻게 된다.

  • DNA polymerase가 상보염기를 형성해 나가다가 ddNTP 4개 중 하나인 ddTTP가 섞여 들어가게 되면, 합성을 멈추게 된다.
    정상적인 dTTP가 들어올 때는 합성이 진행하다가 ddT가 합성되어버릴 경우 끝에 ddT로 멈추게 된다.
  • 이 때, 멈추게 되는 간격은 정확히 한 염기의 길이씩 차이가 날 수밖에 없다.
  • 종류는 3'-ATGACTGAGC-5' 에 대해서 총 10가지이다. size는 모두 제각각의 unique한 size를 갖는다.(끝나는 자리가 T,A,C,G 모두 다르므로)
    - T로 멈추는 경우 3 ( 1bp, 4bp, 8bp)
    - A로 멈추는 경우 2 ( 2bp, 6bp)
    - C로 멈추는 경우 3 ( 3bp, 7bp, 9bp)
    - G로 멈추는 경우 2 ( 5bp, 10bp)
  • 이 10가지를 한 well-plates에 넣은 다음(모두 음전하를 띄고있음), 전기영동으로 (양전하로 땡겨주면) 양전하쪽으로 이동시킨다.
    - 제일 가벼운 1bp가 가장 가까이 이동하고 size대로 순서대로 거리를 이루게 된다.
  • 이 때, ddT, ddA, ddG, ddC는 서로 다른 형광물질을 입혀넣았기 때문에, T로 끝나는 것들은 서로 같게 된다. 4가지 서로 다른 색을 가진다.
  • 여기에 Photomultiplier로 불빛을 켜서 비추면, 가장 가까운 곳에 1bp의 T가 보일 것이다.
    - 1배수 T(1bp - 빨간색), 2배수 A(2bp - 보라색) 등등으로 sequencing이 이루어진다.


ddNTP와 dNTP의 차이(과제)

  • ddNTP와 dNTP의 차이는 무엇인지. 왜 ddNTP합성을 멈추는 chain-terminating 반응을 하는지에 대해서 알아보자.
  • ddNTP는 어느 정도를 섞어줘야할지 비율도 알아보자.
  • 생거는 형광물질을 사용하지 않았다고 한다. 방사선 동위원소를 이용하여, 전기영동하면 나타나는 방사선을 X-선 필름에 감광시켜 위치를 알아냈다. 하지만 4가지 모두 동일한 방사선을 나타내기 때문에 어떻게 이것을 구분했을까?
  • Primer가 있어야 DNA sequencing이 가능한데, 우리가 sequencing하고 싶은 Single-stranded DNA는 순서를 모르니까 sequencing 하는 것인데 Primer를 어떻게 구성할지도 난감하다.


미국 인간게놈 연구소에서 만든 애니메이션 -  How to Sequence a Genome - part 6, 7, 8, 9 (강추!)

https://www.genome.gov/25019885/

https://www.genome.gov/edkit/flash/section6.html

https://www.genome.gov/edkit/flash/section7.html

https://www.genome.gov/edkit/flash/section8.html

https://www.genome.gov/edkit/flash/section9.html

  • 2001년 논문으로 publishing된 인간게놈 프로젝트 in Nature , 동시에 교육자료도 제공했음.
  • Part 6
  • Part 7
    image

    - 한 base pair씩 차이나는 DNA 분자가 얻어지고 종류에 따라 다른 색의 DNA들이 500-800base 정도가 얻어진다.image
    - 얻어진 products들은 위와 같은 자동화 기기에 삽입된다.

  • Part 8
    image
    image
    image
    image
    - 전기영동으로 분리되는 과정이다.
    - DNA들은 (-)전하를 띄고 있기 때문에, 전기영동 장치의 하단에 있는 (+)전하로 짧은 순으로 끌려간다.

  • Part 9
    image
    image
    image
    image
    image

    - (+)전하쪽으로 빠져나올 때, Laser를 쏘면, 각 종류별 형광물질이 나오게 되면서, 기본적인 Sanger Sequencing이 완성된다.

    image

    - 연속적으로 500번 ~ 800번의 전기영동을 통해서 최종적으로는 시퀀싱기계에 기록되어, 인간의 Single sequncing이 reveal된다.

    - 아래는 560번 정도의 생거 시퀀싱 결과의 크로마토그램

    - 각 자리별로 가장 높은 것이 명확하게 들어나고, 색도 명확하다(검은색 G, 초록색 A..) 이 하나하나가 DNA 분자이다.
    - 가장 앞과, 가장 나중에 뭉개지고 색이 겹쳐지는 경향이 있긴하다.

Base call quality score

위의 560base 전기영동 결과 중 색이나 peark가 겹친 부분이 있다. 이것을 확률적으로 나타내는 것base call quality score라고 한다.
예를 들어, T라고 얘기했는데, error율도 같이 이야기 해주는 것이다.

1% 이상의 error가 연속적으로 나타난다면 잘라내서 버리는 작업을 Trimming이라고 하며, 생거 시퀀싱을 한번 할 경우 560base 중 500base 정도가 남는다고 한다.


  • 뭉개지는 앞부분도 제거를 해야할까?
  • 1%이하의 에러율이 너무 작은 수로 표시되므로, Phred 라는 염기서열분석 소트트웨어를 통해  자체적으로 변환시킨 값인 phred score를 출력하게 되는데,
    Phred score :  [ 에러율 ] 에 로그를 취한 뒤 -10을 곱한 것
    - 1% error  : ( 0.01 -> Log ( ) -> -2  * -10 = 20 phred score
    - 0.1% error :  ? phred score 30
    - ?  error : 40 phred score ( -10^-4 )
  • my) 1% = 0.01 -> 20   /  0.1% -> 0.001 -> 30  /  0.01% -> 0.0001 -> 40

생각하기

  • 생거 시퀀싱은 자동화가 되므로, 처음에는 agarose gel plate에다가 여러 개의 샘플을 동시에 전기영동 분리 하였다. ( plate 당 32개 정도)
  • 이후에는 모세관을 이용한 capillary 전기영동을 함.  96개의 유리관을 사용. ( 유리관 1개당 1 sample)
    - 이러한 과정을 로버트 팔을 이용해서 자동화 하였음.(ABI 37000)
    - 하루에 10개 plate를 시퀀싱하였으니 10 * 96 well(유리관)   ->  10 * 384 well( 유리관) 개의 DNA sequencing  개의  sample
    - sample당 500 염기씩 읽음.
    - 500(DNA) * 384 well(sample) * 10 (하루당)   개의  염기 시퀀싱
    - 인간의 30억개 염기  -->  1번 읽는데 3000일 소요, /  평균 10번 읽어야하므로 30000일 소요
    - 기계 100대를 동시에 --> 300일 소요
  • 1990년 인간 게놈프로젝트 시작

  • 2000년 초안 발표

  • 2003년 게놈 서열의 완성을 선언

  • 프로젝트 초반 가장 노력을 쏟은 분야는 1977년 개발된 Sanger sequencing 방법을 발전시킨 고속 시퀀싱 개발
    - 1990년대 말, 많은 량의 시퀀스를 자동화 시퀀싱하는 기기가 개발 -> 1-2년만에 대부분 시퀀싱 데이터 생산 완료
    - 하루 밤 사이 1,000개 정도의 DNA조각을 500bp씩 자동으로 시퀀싱 ( ~500bp/day)
    - 아래의 plate에 dna조각을 넣고 자동화 기기에 장착해주면, 자동적으로 시퀀싱 함(96-well-plate, 한 well 속 dna 당 500bp)
    * bp = genome size인 base pair
    96 well plate에 대한 이미지 검색결과
    - 인간의 게놈은 30억개의 염기쌍 --> 이것을 10배수로 읽는 것이 프로젝트의 목표(시퀀스는 에러가 많기 때문에 10번 반복해서 에러 제거)
    - 30억 * 10 = 300억 bp 를 당시 1개의 시퀀싱 기기를 이용할 경우, 60000일 소요... 200대가 사용되었다면 300일 1년 걸림(20개 센터 200대 사용)
    - 당시 직접비만 계산시 = 기기값(대당 5억 * 200대 = 1000억) + 인건비 + 시약비  = 약 1000억원 이상 소요
    - 그 외 게놈 서열 조립 및 분석 등의 생명정보학적 비용은 제외

  • 2003년 인간 게놈 프로젝트의 완성을 선언한 미국보건원 산하 인간게놈연구소(NIH)는 이후 새로운 기술을 개발하는 프로젝트를 공모함.
    - $1000 정도로 인간 1명의 인간게놈 시퀀싱이 가능한 기술 개발이 목표
    - 그 공모의 결과는 아래와 같다 (10팀 정도가 참여했다고 함)
    image
    - Megabase(100만 염기쌍)의 DNA sequence 비용 변화
    2003년  $10,000 의 비용이 들던 것이
    2008년 인텔 회장 고든 무어의 무어의법칙(18개월마다 2배 it기술 발달)을 파괴하여 100배 정도 좋아짐/
    - 1년 사이에 비용이 1/100로 줄어들었는데 이것은 생거시퀀싱과 차별화되는 차세대 기술이라 하여
    - Next Generation Sequencing(NGS)라고 불리운다.

  • DNA 시퀀싱 비용이 저렴해짐으로 인해, 연구자들은 더 많은 샘플들을 확보함(연구 비용을 줄이진 않음)
    - 새로운 종, 유전자 발현량 측정에도 시퀀싱 기법을 활용함
    image
    - 노란색 : NGS가 나타나기 전에 DNA시퀀싱 비용(bp/$) -> 19개월마다 2배 발달
    - 주황색 : NGS -> 5개월마다 2배 발달
    - 파란색 : hard disk 저장량 (mb/$) -> 14개월마다 2배 발달

  • NGS기술의 단점은 생거 시퀀스보다 정확도가 떨어지는 것이다.
    - 이를 해결하기 위해, 반복/배수를 높혀서 실험한다.(싱거는 10배수를 줬다면 그 배 이상으로..)
      결과적으로 반복이 많아졌으므로 샘플데이터 대용량이다. -> 데이터 복사 / 전송도 오래 걸린다.
    - 정확도를 떨어지는 것을 보완하기 위해서, 더 복잡한 분석 알고리즘을 필요로 한다.
      따라서 많은량의 데이터를 고급IT기술로 무장한 생명정보학 전문가의 수요가 더욱 높아지고 있다.
    - 고 메모리 / 병렬컴퓨터인 클러스터를 필요로 함.
      운영체제도 윈도우즈 계열보다 파이프라인 구성이 자유로인 리눅스 계열이 사용되고 있다.

+ Recent posts