반응형

연구 18

Ranger optimizer

논문을 보다가 Ranger optimizer라는 것을 봤다. 여러 최적화 기법들을 봤는데 Ranger는 처음보는 것 같아 기록을 남겨본다. Ranger는 Radam + Lookahead 이다. Radam - Rectified Adam이라서 RAdam이다. - Adam : adaptive learning rate를 기반으로 하고, 상대적인 업데이트 양에 따라 step size를 조정해줌. -adaptive learning 의 경우 bad local optima convergence problem에 빠질 수 있다. 학습 초기에 샘플이 부족할 경우, learning rate의 분산이 커지고, 이에따라 최적이 아닌 local optima에 너무 일찍 도달하여 학습이 거의 일어나지 않는 현상이다. - 이를 해결하..

연구 2023.04.12

G-quadruplex (G 쿼드라플렉스)

검색해보니 G-quadruplex에 대한 한글 설명이 하나도 없길래 작성해본다! G quadruplex란 무엇인가 : - RNA의 2차구조 중 하나 - RNA 시퀀스상에서 구아닌이 많을 때 형성됨 - helix 형태 - 염색체의 끝에 존재하는 텔로미어 부분, 다양한 유전자의 transcriptional regulatory 부분에서 만들어짐 - 4개의 염기가 Hoogsteen bonding을 통해서 guanine tetrad라고 불리는 square planar 구조를 만듦 - 두개 이상의 guanine tetrad가 쌓여서 G-quadruplex를 만듦 - 중앙에 존재하는 potassium 에 의해 더욱 안정적인 구조를 만듦 기능 : - 염색체의 끝 텔로미어 부분에 G-quadruplex의 형태로 존재해서..

연구 2023.02.22

scaffold의 의미

scaffold : 화합물의 코어 구조를 의미 (functional group) Activity와의 관련성 : 1. target에 active한 구조 prototype확인하고, 타겟에 specific하게 active한 compound 만들기 (privileged substructures) 2. compound에서 구조적으로 다른 scaffold인데 같은 activity를 가지는지 확인하기 (scaffold hopping) scaffold를 정의하는 방법 : 1. compound 집합에서 MCS (maximum common substructure) 계산 2. MMP(matched molecular pairs) 계산 - compound의 single site에서 변화가 있을 때만 compound pair로 ..

연구 2022.10.29

Alphafold2 논문 리뷰4 [Evoformer - pair representation]

입력으로 MSA representation, Pair representation이 들어온다. pair representation의 값이 Row wise gated self attention with pair bias에 들어온다. 즉, 공간적 특징과 진화적 특징이 섞이게 된다. MSA representation을 거친후, outer product mean을 통해 진화정보를 공간적 정보로 넣어주게 된다. 그리고 pair representation 인코딩이 시작된다. -pair representation 설명 그리고 pair representation을 인코딩하는 5개의 블럭을 거친다. 이 다섯개의 블럭에 대해서 조금 더 자세히 설명해보겠다. pair representation은 아미노산사이의 공간적인 특징을..

연구 2022.10.25

Alphafold2 논문 리뷰3 [Evoformer - MSA representation]

입력으로 MSA representation, Pair representation이 들어온다. pair representation의 값이 Row wise gated self attention with pair bias에 들어온다. 즉, 공간적 특징과 진화적 특징이 섞이게 된다. 그리고 column wise gated self attention, transition layer를 거친다. 이 세개의 블럭 (Row wise ~, Column wise ~, Transition)은 MSA representation이다. self attention으로, 자기 자신에 대한 정보를 인코딩 한다. transition이 끝나면, outer product mean을 통해 진화정보를 공간적 정보로 넣어주게 된다. - MSA r..

연구 2022.10.25

Alphafold2 논문 리뷰2 [입력 부분]

모델 설명 알파폴드의 입력으로 단백질의 아미노산 시퀀스가 들어간다. - genetic database search를 통해서 MSA 를 구하고, MSA representation으로 나타낸다. - 아미노산에대해서 pairing을 하고, structure database search를 통해서 template을 넣는다. pair representation으로 나타낸다. 이 부분에 대해서 조금 자세히 보도록 하자. supplementary Figure 1이다. -맨 위에 보이는 extra msa feat은 옵션이다. 넣어줘도 되고 안넣어줘도 된다. -pair representation 만들기 : residue_index에 대해서 (r,r,cz) 차원으로 변환을 시켜준다. target feat에 여러 linear..

연구 2022.10.25

Alphafold2 논문 리뷰1 - 성능

알파폴드2 논문리뷰를 해보겠다! -단백질 3차구조를 아미노산 시퀀스만을 가지고 예측 -기존의 방법들은 homologous structure가 없을 때에는 원자수준의 정확도를 보여주지는 못했음 -이 논문에서는 유사한 구조가 알려져 있지 않은 시퀀스에 대해서도, 원자 수준의 정확도로 예측할 수 있는 computational method(Alphafold2)를 제안함 -CASP14에서 다른 method들보다 훨씬 좋은 성능을 보여줌 일단 성능에 대해서 보겠다! Fig 1. Fig 1 a는 알파폴드가 CASP14에 참여한 다른 그룹들보다 훨씬 예측을 잘한다는 것을 보여준다. 실제 단백질 알파카본과 예측된 단백질 알파카본 사이의 rmsd (root mean squared distance, 작을수록 좋음) medi..

연구 2022.10.25

SSPro 사용해서 단백질 2차구조 예측하기

SSPro 프로그램을 사용해서 단백질의 2차구조를 예측하는 방법이다. 먼저 프로그램을 다운로드 받는다. https://download.igb.uci.edu/ UCI :: Institute for Genomics and Bioinformatics - Download Page Welcome to the SCRATCH download page. Reminder: We will be moving our servers on January 8, 2007 to a different facility. Please expect a 24 hour downtime. Thank you for your patience! --> Thank you for your interest. All software and related ma..

연구 2022.09.22

margianl distribution (주변 분포)

오늘은 주변분포에 대해서 알아보겠다. 주변분포는 결합 확률 함수에서 주변에 존재하는 것들이다! 예를들어보자 (아래 그림!) 변수 X는 성별(파란색 : 여자, 초록색 : 남자), 변수 Y는 컴퓨터 종류라고 하자. 여자 1명이 윈도우를 가지고있고, 여자 2명이 맥북을 가지고있다. 남자 1명이 윈도우를 가지고있고, 남자 1명이 맥북을 가지고 있다. 이것을 확률로 나타내면 오른쪽 아래에 테이블로 나타난다. 여자가 윈도우를 가지고있을 확률 p(woman, window) = 1/5, 여자가 맥북을 가지고 있을 확률 p(woman, mac) = 2/5, 남자가 윈도우를 가지고 있을 확률 p(man, window) = 1/5, 남자가 맥북을 가지고 있을 확률 p(man, mac) = 1/5 그런데 이때, p(woman..

연구 2022.09.20

엔트로피 최대화

엔트로피가 최대화되도록 최적화시키면 어떻게 될까? 1번식은 엔트로피 공식이다. 2번 식은 엔트로피 공식에 라그랑주 승수법을 적용한 것이다. 여기서 라그랑주 승수법이란 무엇이냐하면 조건이 있는 최적화 문제를 조건이 없는 최적화 문제로 변형하여서 푸는 것이다. 예를들어, 조건이 g(x,y)이고 최적화 문제가 f(x,y)라고 할 때, 다음과 같은 방식으로 라그랑주를 적용할 수 있다. 결국엔 아래 식과 같이 미분값이 0이 나오는 것을 구해야한다. 3번 식은 2번식을 미분해서 0으로 만드는 것이고, 4번식은 3번식을 푼 것이다. 그래서 결국 p(x)는 정규분포가 나온다!! 두둥!! 엔트로피를 최대화하면 정규분포가 나온다니,,,, 신기하다!

연구 2022.09.19
반응형