
AI for Science: 노벨상 받은 AlphaFold에서 Boltz-2까지, 과학의 판이 바뀌었다
2024년 노벨 화학상은 AI에게 돌아갔다. AlphaFold가 50년 난제를 풀고, Boltz-2가 20초 만에 신약 후보의 결합력을 예측하는 시대. '과학을 위한 AI'가 실험실을 바꾸고 있는 현장을 추적한다.

2024년 노벨 화학상은 AI에게 돌아갔다. AlphaFold가 50년 난제를 풀고, Boltz-2가 20초 만에 신약 후보의 결합력을 예측하는 시대. '과학을 위한 AI'가 실험실을 바꾸고 있는 현장을 추적한다.
2024년 10월 9일, 스웨덴 왕립과학원이 노벨 화학상 수상자를 발표했다. 수상자 이름이 호명되는 순간, 전 세계 과학계가 술렁였다.
데미스 하사비스(Demis Hassabis)와 존 점퍼(John Jumper) — Google DeepMind의 AlphaFold 개발자들. 그리고 컴퓨터 단백질 설계의 선구자 데이비드 베이커(David Baker).
이것은 사상 최초로 AI가 가능하게 한 과학적 발견에 노벨상이 수여된 순간이었다. 화학상 역사상 가장 이례적인 선택이라는 평가와 함께, 하나의 메시지가 분명해졌다 — AI가 과학의 방법론 자체를 바꾸고 있다.
이 글에서는 50년 난제였던 단백질 접힘 문제부터, AlphaFold의 돌파, 그리고 2025년 6월 등장한 최신작 Boltz-2까지 — "과학을 위한 AI(AI for Science)"의 격변을 총정리한다.
인간의 몸에는 약 2만 종의 단백질이 있다. 단백질은 아미노산이라는 구슬이 실에 꿰어진 것처럼 이어진 1차원 사슬이다. 하지만 이 사슬은 그대로 있지 않는다. 밀리초 안에 복잡한 3차원 구조로 접힌다(folding). 그리고 이 3차원 구조가 단백질의 기능을 결정한다.
비유하자면:
아미노산 서열은 악보이고, 접힌 3차원 구조는 연주된 음악이다. 악보만 봐서는 음악이 어떻게 들릴지 알 수 없다. 하지만 올바른 연주(접힘)가 이루어져야 음악(기능)이 살아난다.
1973년, 크리스천 앤핀센은 "단백질의 3D 구조는 아미노산 서열만으로 결정된다"는 것을 실험적으로 증명하여 노벨 화학상을 받았다. 리보뉴클레이스 A라는 단백질을 완전히 펼쳤다가 다시 접으면, 스스로 원래의 구조로 돌아갔다. 서열에 구조 정보가 이미 인코딩되어 있다는 뜻이다.
그런데 수학적으로 생각하면 불가능해 보인다. 시러스 레빈탈이 계산한 바에 따르면, 작은 단백질도 가능한 구조(배좌)가 가지에 달한다. 각 배좌를 나노초에 하나씩 탐색한다 해도, 우주의 나이보다 긴 시간이 필요하다. 하지만 실제 단백질은 밀리초~마이크로초 안에 접힌다.
이것이 레빈탈의 역설이다. 단백질이 모든 가능성을 하나씩 시도하는 것이 아니라, 에너지 지형의 깔대기(funnel)를 따라 빠르게 최적 구조로 수렴한다는 것이 현대적 해답이다.
단백질 구조를 알면:
하지만 실험적으로 구조를 결정하는 것은 느리고 비싸다. X선 결정학이나 극저온 전자현미경(cryo-EM)으로 하나의 단백질 구조를 밝히는 데 수개월에서 수년, 수억 원의 비용이 든다. 2020년까지 실험적으로 결정된 구조는 약 17만 개 — 알려진 단백질의 0.1%도 안 된다.
이것이 50년간 "서열에서 구조를 예측하라"는 것이 생물학 최대 난제로 남아 있던 이유다.
CASP(Critical Assessment of Structure Prediction)는 1994년부터 2년마다 열리는 단백질 구조 예측 대회다. 최근 실험으로 결정되었지만 아직 공개되지 않은 단백질 구조를 "시험 문제"로 내고, 전 세계 연구팀이 서열만으로 구조를 예측한다. 정답은 대회 종료 후 공개.
2018년 12월, 무명의 참가자 "AlphaFold"가 1위를 차지했다. Google DeepMind였다. 기존 방법들의 약 2배 속도로 정확도가 향상되었다. 특히 기존 템플릿이 없는 신규 구조(free modeling) 부문에서 압도적이었다.
과학계는 놀랐지만, 아직 "혁명"이라고 부르기엔 이른 수준이었다.
2020년 11월. AlphaFold 2가 등장했다. 결과는 충격이었다.
2위와 2.7배 차이. 92개 도메인 중 58개에서 GDT 90 이상 (실험적 측정과 거의 동일한 정확도). CASP 주최자는 이 결과를 "놀라운(astounding)", "변혁적(transformational)"이라고 표현했다.
"단백질 접힘 문제는 사실상 풀렸다." 50년 난제가 AI에 의해 무너진 순간이었다.
2021년 7월, AlphaFold 2 논문이 Nature에 발표되고 코드가 공개되었다. DeepMind와 EMBL-EBI는 AlphaFold Protein Structure Database를 출범했다.
2022년 7월, 데이터베이스가 2억 1,400만 개 단백질 구조로 확장되었다 — 지구상 거의 모든 알려진 단백질. 190개국 200만 명 이상의 연구자가 사용 중이다.
AlphaFold 3는 단백질을 넘어 DNA, RNA, 소분자(리간드), 이온, 화학적 수정까지 포함한 복합체의 3D 구조를 예측한다.
핵심 변화:
AlphaFold 2의 공개 이후, 전 세계에서 대안 모델이 쏟아져 나왔다.
Meta AI의 ESMFold은 150억 파라미터 단백질 언어 모델(ESM-2)의 학습된 표현을 활용한다. MSA가 필요 없어 AlphaFold 2보다 6~60배 빠르다. 정확도는 약간 떨어지지만, 6억 개 이상의 메타게놈 단백질 구조를 예측한 ESM Metagenomic Atlas를 구축했다.
노벨상 공동 수상자 데이비드 베이커의 연구실이 만든 모델. 1D(서열), 2D(쌍 상호작용), 3D(구조) 세 트랙의 정보가 양방향으로 교환되는 독창적 구조. 일반 게이밍 PC에서 10분 만에 단백질 구조를 계산할 수 있다.
2024년에는 RoseTTAFold All-Atom(RFAA)으로 진화 — 단백질뿐 아니라 DNA, RNA, 소분자, 금속까지 포함한 전체 생물학적 어셈블리를 모델링. Science 표지 논문.
단백질, 소분자, DNA, RNA, 항체, 다중체를 예측하는 멀티모달 파운데이션 모델. AlphaFold 3와 경쟁적 성능:
AlphaFold 2의 완전한 오픈소스 PyTorch 재구현. Apache 2.0 라이선스. 학습 코드, 모델 가중치, 학습 데이터(OpenProteinSet) 모두 공개. 처음부터 학습해도 AlphaFold 2와 동등한 성능 달성.
AlphaFold 3는 Nature에 논문을 발표했지만, 학습 코드와 모델 가중치는 공개하지 않았다. 서버를 통한 제한적 접근만 허용했다. 과학계에서 재현성(reproducibility) 논쟁이 일었다.
2024년 12월 5일, MIT의 Jameel Clinic에서 Boltz-1이 공개되었다. Jeremy Wohlwend, Gabriele Corso, Saro Passaro가 4개월 만에 개발한 이 모델은:
과학은 재현 가능해야 과학이다. Boltz-1은 "구조 예측의 민주화"를 선언한 것이다.
2025년 6월 18일, MIT Jameel Clinic과 Recursion Pharmaceuticals의 협력으로 Boltz-2가 공개되었다. 프리프린트는 bioRxiv에 게시.
Boltz-2의 혁신은 구조 예측에 머물지 않고, 결합 친화력(binding affinity) 예측까지 통합했다는 것이다.
신약 개발에서 가장 중요한 질문은 "이 약 분자가 표적 단백질에 얼마나 강하게 결합하는가?"이다. 이것이 결합 친화력이다. 약의 효능을 직접 결정하는 핵심 지표.
기존에 이를 정밀하게 예측하려면 자유에너지 섭동(FEP, Free Energy Perturbation) 계산이 필요했다. FEP는 정확하지만 화합물 하나당 수 시간~수 일이 걸린다. 실제 신약 개발에서는 수천~수만 개의 화합물을 검토해야 하므로, 병목이 된다.
Boltz-2는 단백질 구조와 결합 친화력을 단일 모델로 동시에 예측하고, 이를 단일 GPU에서 20초 만에 수행한다.
FEP 대비 최소 1,000배 빠르면서, 정확도는 FEP에 근접하는 최초의 생성 모델이다. 약 500만 건의 결합 친화력 실험 데이터로 학습되었다.
| 기능 | 설명 |
|---|---|
| 결합 친화력 예측 | FEP 수준의 정확도, 1000배 빠름 |
| 동적 앙상블 예측 | 분자동역학(MD) 시뮬레이션 데이터로 학습. 단백질의 동적 움직임 포착 |
| B-factor 예측 | 잔기별 신뢰도 및 유연성 추정 |
| 입체 충돌 감소 | AlphaFold 3보다 적은 비물리적 충돌(steric clash) |
| 제어 가능성 | 실험 방법 조건부 생성, 거리 제약, 멀티체인 템플릿 지원 |
| 관점 | Boltz-2 | AlphaFold 3 |
|---|---|---|
| 결합 친화력 | 예측 가능 (최초) | 불가능 |
| 공개 수준 | MIT 라이선스. 모든 것 공개 | 제한적 서버 접근 |
| 입체 충돌 | 적음 | 상대적으로 많음 |
| 항체-항원 | 개선됐지만 AF3 미만 | 최고 성능 |
| 속도 | 20초 (단일 GPU) | 30분~4시간 (서버) |
| 동적 앙상블 | 지원 (MD 학습) | 제한적 |
Boltz-2는 구조 예측과 약물 설계 사이의 간극을 메운 최초의 모델이다. 기존에는:
이 3단계가 하나로 통합되었다. 연구자는 약 후보 분자와 표적 단백질을 넣으면, 20초 후 구조와 결합력을 동시에 얻는다.
2023년 11월, Google DeepMind의 GNoME(Graph Networks for Materials Exploration)이 Nature에 발표되었다. 그래프 신경망으로 220만 개의 새로운 안정 결정 구조를 발견했다 — 인류가 알고 있던 안정 물질 수를 6배 늘린 것이다.
Google DeepMind는 AI를 수학으로도 확장했다.
2024년 12월 Nature에 발표된 GenCast는 확산 모델을 구면 기하학에 적용한 확률적 기상 예보 시스템이다.
2026년 초 기준, 173개 이상의 AI 발견 약물 프로그램이 임상 개발 중이다.
두 모델 모두 기존 양자화학 방법보다 훨씬 적은 계산 비용으로 고정밀 결과를 달성한다.
2026년의 가장 흥미로운 트렌드 중 하나는 자율 실험실(Self-Driving Lab)이다. AI가 예측만 하는 것이 아니라, 로봇 하드웨어와 결합하여 실험 설계 → 합성 → 테스트 → 분석(DMTA) 전 주기를 자동으로 수행한다.
비전: 전 세계의 전문화된 자율 실험실들이 공유 AI 모델을 통해 글로벌 네트워크로 협업하는 것. 소재 개념에서 상용화까지의 시간을 10~20년에서 1~2년으로 단축.
AlphaFold 3의 제한적 공개에 대한 반발로, 오픈소스 대안들이 급성장했다:
| 모델 | 라이선스 | 공개 범위 |
|---|---|---|
| AlphaFold 2 | Apache 2.0 | 코드 + DB 공개, 학습 코드 미공개 |
| AlphaFold 3 | 제한적 | 서버 접근만 (학습 코드 비공개) |
| OpenFold | Apache 2.0 | 전체 학습 파이프라인 공개 |
| Boltz-1/2 | MIT | 완전 공개 (코드, 가중치, 데이터) |
| Chai-1 | 비상업적 | 가중치 + 추론 코드 (학습 코드 미공개) |
| GenCast | 오픈 | 코드 + 가중치 공개 |
2024년 노벨 화학상은 단순한 수상을 넘어, "AI는 과학 도구가 아니라 과학 방법론이다"라는 메시지를 전 세계에 보냈다. 투자, 인재, 정책의 방향이 바뀌고 있다.
1973년, 앤핀센은 단백질이 스스로 접힌다는 것을 보여주었다. 2020년, AlphaFold는 AI가 그 접힘을 예측할 수 있다는 것을 보여주었다. 2024년, 노벨상이 이 성취를 인류 과학의 이정표로 인정했다. 2025년, Boltz-2는 예측을 넘어 "이 약이 효과가 있을까?"라는 실용적 질문에 20초 만에 답하기 시작했다.
하지만 더 큰 그림이 있다. GNoME이 220만 개의 신물질을 발견하고, GenCast가 기상 예보를 혁신하고, AlphaProof가 수학 올림피아드에서 금메달을 따고, 자율 실험실이 소재를 10배 빠르게 발견하는 것 — 이 모든 것은 하나의 흐름이다.
AI가 과학의 "도구"에서 "방법론"으로 격상되고 있다.
실험실에서 가설을 세우고, 실험을 설계하고, 결과를 분석하는 전 과정에 AI가 참여한다. 과학의 속도가 바뀌고 있다. 그리고 그 속도의 변화가 치료제를, 신소재를, 에너지 기술을, 궁극적으로 인류의 삶을 바꿀 것이다.
Boltz-2가 20초 만에 답하는 질문들 — 그것은 인류가 수십 년간 실험실에서 묻고 또 물어온 질문들이다.
참고 문헌