알파폴드2 논문리뷰를 해보겠다!
-단백질 3차구조를 아미노산 시퀀스만을 가지고 예측
-기존의 방법들은 homologous structure가 없을 때에는 원자수준의 정확도를 보여주지는 못했음
-이 논문에서는 유사한 구조가 알려져 있지 않은 시퀀스에 대해서도, 원자 수준의 정확도로 예측할 수 있는 computational method(Alphafold2)를 제안함
-CASP14에서 다른 method들보다 훨씬 좋은 성능을 보여줌
일단 성능에 대해서 보겠다!
Fig 1.
Fig 1 a는 알파폴드가 CASP14에 참여한 다른 그룹들보다 훨씬 예측을 잘한다는 것을 보여준다. 실제 단백질 알파카본과 예측된 단백질 알파카본 사이의 rmsd (root mean squared distance, 작을수록 좋음) median 값을 나타낸 것이다. rmsd가 1 근처로 다른 모델들은 3근처인 것에 비해 성능이 매우 뛰어나다.
Fig 1 b는 domain structure에 대해서도 예측을 잘하는 것을 보여준다. 이 단백질은 CASP14 챌린지의 타겟단백질인 T1049 (PDB 6Y4F)인데, 실제 단백질 구조는 초록색, 예측된 단백질 구조는 파란색이다. 근데 거의 겹치는 것을 확인 할 수 있다. rmsd과 TM score 값도 아주 높다.
Fig 1 c는 side chain 에 대해서 예측을 잘하는 것을 보여준다. 알파폴드2가 다른 모델들과 다른점이 원자수준까지 예측을 할 수 있다는 것이다. 내 생각에는 이 figure에서 잘 보여준 것 같다. 이 단백질은 CASP14 챌린지의 타겟단백질인 T1056(PDB 6YJ1)이다. 실제 구조는 초록색, 예측 구조는 파랄ㄴ색인데, 원자수준에서도 거의 겹치는 것을 확인 할 수 있다.
Fig 1 d는 long protein에 대해서 예측을 잘하는 것을 보여준다. 이 단백질은 CASP target T1044(PDB 6VR4)이고, homologous한 단백질이 존재하지 않고, sequence residue의 갯수가 2000개 이상이다. 그런데도 거의 예측 구조와 실제 구조가 겹친다.
Fig2
Fig2 a의 x 축은 실제 단백질 알파카본과 예측 단백질 알파카본사이의 rmsd이고, y축은 단백질의 비율이다. rmsd가 작을수록 예측을 잘했다는 뜻인데, rmsd가 8 옹스트롱보다 큰 단백질의 비율이 0.17정도 되므로, 나머지 0.83은 8옹스트롱보다 작다. 예측을 잘했다고 볼 수 있다.
Fig2 b의 x축은 residue의 IDDT Ca 이다. IDDT Ca는 실제 알파카본과 예측 알파카본 사이 거리에 대한 점수이다. 0~100까지의 범위이며, 100점이 가장 좋은 점수이다. 알파카본 사이의 거리에 대한 점수이기 때문에 backbone에 대한 정확도라고 볼 수 있다. y축은 correct X1 rotamer의 비율이다. 따라서 side chain에 대한 정확도라고 볼 수 있다. backbone을 정확하게 예측했을 때, side chain 정확도도 높다는 것을 알 수 있다.
Fig2 c의 x축은 pLDDT이다. 알파폴드에서는 pLDDT도 예측을 한다. pLDDT와 IDDT Ca의 값이 거의 y=x축을 따르기 때문에, 예측을 잘 했다고 볼 수 있다.
Fig2 d의 x축은 pTM이다. 알파폴드에서 TM값을 예측하였고 이것을 pTM이라고 이름을 붙였는데, TM score와 pTM이 거의 y=x축을 따른다는 알 수 있다. 예측을 잘했다!
다음 포스팅에서는 모델에 대해서 자세히 알아보겠다.
'연구' 카테고리의 다른 글
Alphafold2 논문 리뷰3 [Evoformer - MSA representation] (0) | 2022.10.25 |
---|---|
Alphafold2 논문 리뷰2 [입력 부분] (0) | 2022.10.25 |
SSPro 사용해서 단백질 2차구조 예측하기 (1) | 2022.09.22 |
margianl distribution (주변 분포) (0) | 2022.09.20 |
엔트로피 최대화 (0) | 2022.09.19 |