연구

multiple sequence alignment(MSA)

햎피 2022. 9. 10. 11:26
반응형

MSA는 bioligical sequence (예를 들면 protein, DNA, RNA)를 sequence align한 결과이다.

sequence align이란 두가지 이상 시퀀스를 비교해서, 그 시퀀스들 사이에서 유사성을 발견하는 것이다. (시퀀스 사이의 유사성을 이용해서 기능적, 진화적, 구조적 관계를 밝혀낼 수도 있음!)

MSA의 입력은 진화적으로 관계가있는 시퀀스들이다. (공통조상을 가지고있어서 시퀀스들 사이에 관계가 있는 그런 시퀀스들)

MSA의 결과값을 이용하면 sequence homology를 추론 할 수 있고, 진화 기원을 평가하기 위해서 phylogenetic analysis를 수행할 수도 있다.

시각적으로 보면 아래와 같다.
출처 : MSA 위키

clustal x를 사용하여 MSA한 결과

single alignment column 에서의 차이: 아미노산 변화로 인한 mutation

alignment에서 hypen으로 표시된것: insertion, deletion으로 인한 mutation

MSA는 protein domain, protein 2차, 3차 구조, amino acid 에서 시퀀스가 얼마나 잘 보존되었는지를 평가한다.(시퀀스가 잘 보존되었다라는 것의 의미는 해당 단백질들에서 중요한 부분이 라는 뜻! - 기능적으로 중요할 수도 있고 구조적으로 중요할 수도 있음)

컴퓨터 알고리즘을 사용해서 MSA를 분석한다.

다양한 알고리즘들이 존재하지만 HMM에 대해서 설명하겠다.

HMM은 hidden markov model의 줄임말이다.

HMM은 가장 가능성이 높은 MSA를 결정하기 위해서 gap, match,mismatch의 가능한 조합에 확률을 부여하는 방식이다.
HMM은 생물학적 중요도를 평가하기 위해서 single high scoring, local alignments, global alignments를 output으로 내줄 수 있다.

그렇다면 이제 알고리즘을 알아보자!

directed acyclic graph로 표현할 수 있다.
이 그래프에서 노드는 MSA에 있는 column의 entry이다.(즉 단백질이면 아미노산이다!)
여기서 만약 해당 column이 완전히 보존되었다면 single node로 표현된다.
(보존되었다라는 것의 의미는 MSA에 전재하는 모든 시퀀스들에서 해당 위치의 아미노산이 모두 같음을 의미)

그렇게해서 각 state에 대한 확률을 구해가면서 중요한 시퀀스를 뽑아낸다!

출처 : 위키피디아


HMM으로 MSA를 할 수 있는 프로그램으로는 POA, SAM, HMMER가 있다.

반응형

'연구' 카테고리의 다른 글

SMILES를 그래프로 표현하기  (0) 2022.09.17
rdkit으로 SMILES를 canonical smiles로 바꾸는 법  (0) 2022.09.14
empirical probability란 무엇일까  (0) 2022.09.09
HMMER  (0) 2022.09.06
deep graph library - pad_packed_tensor  (0) 2022.08.31