의료 AI 기초: 게놈·변이·VCF 파일 쉽게 이해하기 (개발자 관점 설명)
- 게놈은 인간의 전체 소스 코드이며, 99.9%는 동일하고 0.1%의 차이가 개성과 질병을 결정합니다. AI는 이 0.1%의 변이를 표준 게놈과 비교하여 분석합니다. 🧬
- 게놈 코드 중 엑손은 실행 가능한 부분이고 인트론은 주석과 같아, 효율적인 분석을 위해 주로 엑손만 활용합니다. 💻
- SNV(단일 염기 다형성)는 코드에서 글자 하나만 잘못 타이핑된 '오타'와 같으며, 코드 길이는 변하지 않습니다. ✍️
- 인델(삽입/결실)은 코드 삽입 또는 삭제로 인해 전체 로직이 망가질 수 있는 '치명적인 버그'와 같으며, 질병 발생 확률이 높습니다. 💥
- 단백질은 유전적 코드의 '컴파일된 실행 결과물'이며, 변이는 단백질의 3차원 구조(폴딩)를 변형시켜 기능 이상과 질병 증상을 유발합니다. 🏗️
- FastQ는 유전체 분석의 '원시 데이터'로, 정렬되지 않은 방대한 양의 초기 정보입니다. 💾
- BAM 파일은 FastQ 데이터를 '표준 레퍼런스 게놈에 정렬'하여 컴퓨터가 처리하기 좋게 정리한 형태입니다. 🗺️
- VCF(Variant Call Format)는 정렬된 게놈 데이터에서 '변이 정보만을 추출한 핵심 요약본'으로, 의료 AI 모델 학습의 '정답지' 역할을 합니다. ✅
- 리드 뎁스(깊이값)는 특정 유전체 위치를 반복해서 읽은 횟수로, 변이의 '신뢰도를 확인하는 투표수'와 같습니다. 📊
- 생식세포 변이는 부모로부터 물려받은 '초기 설정값'처럼 태어날 때부터 존재하는 유전적 특성입니다. 👨👩👧👦
- 체세포 변이는 살아가면서 환경적 요인으로 발생하는 '런타임 에러'와 같으며, 후천적으로 발생합니다. ⚠️
데브허브 | DEVHUB | 의료 AI 기초: 게놈·변이·VCF 파일 쉽게 이해하기 (개발자 관점 설명)