coredot.today
AI for Science: 노벨상 받은 AlphaFold에서 Boltz-2까지, 과학의 판이 바뀌었다
블로그로 돌아가기
AI for ScienceAlphaFoldBoltz-2단백질 접힘노벨상신약 개발GNoME구조 예측

AI for Science: 노벨상 받은 AlphaFold에서 Boltz-2까지, 과학의 판이 바뀌었다

2024년 노벨 화학상은 AI에게 돌아갔다. AlphaFold가 50년 난제를 풀고, Boltz-2가 20초 만에 신약 후보의 결합력을 예측하는 시대. '과학을 위한 AI'가 실험실을 바꾸고 있는 현장을 추적한다.

코어닷투데이2025-12-1227

들어가며: AI가 노벨상을 받은 날

2024년 10월 9일, 스웨덴 왕립과학원이 노벨 화학상 수상자를 발표했다. 수상자 이름이 호명되는 순간, 전 세계 과학계가 술렁였다.

데미스 하사비스(Demis Hassabis)존 점퍼(John Jumper) — Google DeepMind의 AlphaFold 개발자들. 그리고 컴퓨터 단백질 설계의 선구자 데이비드 베이커(David Baker).

이것은 사상 최초로 AI가 가능하게 한 과학적 발견에 노벨상이 수여된 순간이었다. 화학상 역사상 가장 이례적인 선택이라는 평가와 함께, 하나의 메시지가 분명해졌다 — AI가 과학의 방법론 자체를 바꾸고 있다.

이 글에서는 50년 난제였던 단백질 접힘 문제부터, AlphaFold의 돌파, 그리고 2025년 6월 등장한 최신작 Boltz-2까지 — "과학을 위한 AI(AI for Science)"의 격변을 총정리한다.


제1장: 50년 난제 — 단백질 접힘 문제

생명의 설계도를 읽는 법

인간의 몸에는 약 2만 종의 단백질이 있다. 단백질은 아미노산이라는 구슬이 실에 꿰어진 것처럼 이어진 1차원 사슬이다. 하지만 이 사슬은 그대로 있지 않는다. 밀리초 안에 복잡한 3차원 구조로 접힌다(folding). 그리고 이 3차원 구조가 단백질의 기능을 결정한다.

비유하자면:

아미노산 서열은 악보이고, 접힌 3차원 구조는 연주된 음악이다. 악보만 봐서는 음악이 어떻게 들릴지 알 수 없다. 하지만 올바른 연주(접힘)가 이루어져야 음악(기능)이 살아난다.

앤핀센의 도그마 (1973 노벨상)

1973년, 크리스천 앤핀센은 "단백질의 3D 구조는 아미노산 서열만으로 결정된다"는 것을 실험적으로 증명하여 노벨 화학상을 받았다. 리보뉴클레이스 A라는 단백질을 완전히 펼쳤다가 다시 접으면, 스스로 원래의 구조로 돌아갔다. 서열에 구조 정보가 이미 인코딩되어 있다는 뜻이다.

레빈탈의 역설 (1969)

그런데 수학적으로 생각하면 불가능해 보인다. 시러스 레빈탈이 계산한 바에 따르면, 작은 단백질도 가능한 구조(배좌)가 1030010^{300} 가지에 달한다. 각 배좌를 나노초에 하나씩 탐색한다 해도, 우주의 나이보다 긴 시간이 필요하다. 하지만 실제 단백질은 밀리초~마이크로초 안에 접힌다.

이것이 레빈탈의 역설이다. 단백질이 모든 가능성을 하나씩 시도하는 것이 아니라, 에너지 지형의 깔대기(funnel)를 따라 빠르게 최적 구조로 수렴한다는 것이 현대적 해답이다.

왜 구조가 중요한가?

단백질 구조를 알면:

  • 질병의 원인을 이해할 수 있다 (잘못 접힌 단백질 → 알츠하이머, 파킨슨)
  • 신약을 설계할 수 있다 (표적 단백질의 홈에 맞는 열쇠 = 약)
  • 효소를 공학적으로 설계할 수 있다 (산업용 촉매, 바이오 연료)

하지만 실험적으로 구조를 결정하는 것은 느리고 비싸다. X선 결정학이나 극저온 전자현미경(cryo-EM)으로 하나의 단백질 구조를 밝히는 데 수개월에서 수년, 수억 원의 비용이 든다. 2020년까지 실험적으로 결정된 구조는 약 17만 개 — 알려진 단백질의 0.1%도 안 된다.

이것이 50년간 "서열에서 구조를 예측하라"는 것이 생물학 최대 난제로 남아 있던 이유다.


제2장: AlphaFold — 판을 뒤집다

CASP: 2년마다 열리는 단백질 올림픽

CASP(Critical Assessment of Structure Prediction)는 1994년부터 2년마다 열리는 단백질 구조 예측 대회다. 최근 실험으로 결정되었지만 아직 공개되지 않은 단백질 구조를 "시험 문제"로 내고, 전 세계 연구팀이 서열만으로 구조를 예측한다. 정답은 대회 종료 후 공개.

CASP13 (2018): 등장

2018년 12월, 무명의 참가자 "AlphaFold"가 1위를 차지했다. Google DeepMind였다. 기존 방법들의 약 2배 속도로 정확도가 향상되었다. 특히 기존 템플릿이 없는 신규 구조(free modeling) 부문에서 압도적이었다.

과학계는 놀랐지만, 아직 "혁명"이라고 부르기엔 이른 수준이었다.

CASP14 (2020): 혁명

2020년 11월. AlphaFold 2가 등장했다. 결과는 충격이었다.

CASP14 구조 예측 정확도 (z-score 합계)
AlphaFold 2
244.0
2위 그룹
90.8

2위와 2.7배 차이. 92개 도메인 중 58개에서 GDT 90 이상 (실험적 측정과 거의 동일한 정확도). CASP 주최자는 이 결과를 "놀라운(astounding)", "변혁적(transformational)"이라고 표현했다.

"단백질 접힘 문제는 사실상 풀렸다." 50년 난제가 AI에 의해 무너진 순간이었다.

AlphaFold 2: 어떻게 작동하는가

아미노산 서열 MSA + 템플릿 Evoformer (48블록) 3D 구조
  1. 입력: 아미노산 서열을 받아, 데이터베이스에서 유사 서열(MSA, Multiple Sequence Alignment)을 검색
  2. Evoformer: 48개 블록의 딥 트랜스포머. MSA 표현과 쌍 표현(pair representation)을 반복적으로 교환하며 진화적 관계를 추출
  3. 구조 모듈: 불변 포인트 어텐션(IPA)으로 3D 좌표를 생성. 백본 → 곁사슬 → 정제
  4. 리사이클링: 전체 파이프라인을 3번 반복하여 점진적으로 정밀도 향상

2021~2022: 전 세계의 단백질 구조를 열다

2021년 7월, AlphaFold 2 논문이 Nature에 발표되고 코드가 공개되었다. DeepMind와 EMBL-EBI는 AlphaFold Protein Structure Database를 출범했다.

2022년 7월, 데이터베이스가 2억 1,400만 개 단백질 구조로 확장되었다 — 지구상 거의 모든 알려진 단백질. 190개국 200만 명 이상의 연구자가 사용 중이다.

AlphaFold 3 (2024년 5월): 단백질 너머로

AlphaFold 3는 단백질을 넘어 DNA, RNA, 소분자(리간드), 이온, 화학적 수정까지 포함한 복합체의 3D 구조를 예측한다.

핵심 변화:

  • Pairformer: Evoformer를 대체. MSA 처리를 대폭 간소화 (48 → 4 블록)하고, 쌍 표현 처리에 집중 (48 블록)
  • 확산(Diffusion) 기반 구조 모듈: 기존의 결정론적 좌표 예측 대신, 생성 AI 방식의 확산 모델로 원자 좌표를 생성. 여러 가능한 구조를 샘플링할 수 있음
  • 원자 수준 예측: 잔기(residue) 수준에서 개별 원자 수준으로 해상도 향상
  • 약물-단백질 상호작용 예측에서 기존 최고 방법 대비 50% 더 정확

제3장: 경쟁과 개방 — AlphaFold의 대항마들

AlphaFold 2의 공개 이후, 전 세계에서 대안 모델이 쏟아져 나왔다.

ESMFold (Meta AI, 2022): MSA 없이 빠르게

Meta AI의 ESMFold은 150억 파라미터 단백질 언어 모델(ESM-2)의 학습된 표현을 활용한다. MSA가 필요 없어 AlphaFold 2보다 6~60배 빠르다. 정확도는 약간 떨어지지만, 6억 개 이상의 메타게놈 단백질 구조를 예측한 ESM Metagenomic Atlas를 구축했다.

RoseTTAFold (David Baker Lab, 2021): 3중 트랙

노벨상 공동 수상자 데이비드 베이커의 연구실이 만든 모델. 1D(서열), 2D(쌍 상호작용), 3D(구조) 세 트랙의 정보가 양방향으로 교환되는 독창적 구조. 일반 게이밍 PC에서 10분 만에 단백질 구조를 계산할 수 있다.

2024년에는 RoseTTAFold All-Atom(RFAA)으로 진화 — 단백질뿐 아니라 DNA, RNA, 소분자, 금속까지 포함한 전체 생물학적 어셈블리를 모델링. Science 표지 논문.

Chai-1 (Chai Discovery, 2024.9): 상업적 도전자

단백질, 소분자, DNA, RNA, 항체, 다중체를 예측하는 멀티모달 파운데이션 모델. AlphaFold 3와 경쟁적 성능:

  • 단백질-리간드: 77% 성공률 (AlphaFold 3: 76%)
  • 항체-단백질: DockQ 성공률 52.9% (AlphaFold 3: 38.0%)

OpenFold: 완전 공개 재구현

AlphaFold 2의 완전한 오픈소스 PyTorch 재구현. Apache 2.0 라이선스. 학습 코드, 모델 가중치, 학습 데이터(OpenProteinSet) 모두 공개. 처음부터 학습해도 AlphaFold 2와 동등한 성능 달성.

단백질 구조 예측 모델 계보 (2020~2025)
AlphaFold 2 (2020) CASP14 압도, 노벨상. 2억+ 구조
RoseTTAFold (2021) 3중 트랙, 10분 예측. 노벨상 공동
ESMFold (2022) Meta. MSA 불필요, 60배 빠름
AlphaFold 3 (2024.5) 확산 모델, DNA/RNA/리간드
Chai-1 (2024.9) AF3급 성능, 부분 공개
Boltz-1 (2024.12) MIT 라이선스, 완전 공개
Boltz-2 (2025.6) 구조 + 결합력 20초. 완전 공개

제4장: Boltz-1 — 완전한 개방의 시작

왜 "완전 공개"가 중요한가

AlphaFold 3는 Nature에 논문을 발표했지만, 학습 코드와 모델 가중치는 공개하지 않았다. 서버를 통한 제한적 접근만 허용했다. 과학계에서 재현성(reproducibility) 논쟁이 일었다.

2024년 12월 5일, MIT의 Jameel Clinic에서 Boltz-1이 공개되었다. Jeremy Wohlwend, Gabriele Corso, Saro Passaro가 4개월 만에 개발한 이 모델은:

  • AlphaFold 3 수준의 정확도 달성
  • MIT 라이선스 — 상업적·학술적 사용 완전 자유
  • 학습 코드, 추론 코드, 모델 가중치, 학습 데이터 전부 공개

과학은 재현 가능해야 과학이다. Boltz-1은 "구조 예측의 민주화"를 선언한 것이다.


제5장: Boltz-2 — 구조를 넘어 "이 약이 효과가 있을까?"

2025년 6월, 게임이 바뀌다

2025년 6월 18일, MIT Jameel Clinic과 Recursion Pharmaceuticals의 협력으로 Boltz-2가 공개되었다. 프리프린트는 bioRxiv에 게시.

Boltz-2의 혁신은 구조 예측에 머물지 않고, 결합 친화력(binding affinity) 예측까지 통합했다는 것이다.

왜 결합 친화력이 중요한가?

신약 개발에서 가장 중요한 질문은 "이 약 분자가 표적 단백질에 얼마나 강하게 결합하는가?"이다. 이것이 결합 친화력이다. 약의 효능을 직접 결정하는 핵심 지표.

기존에 이를 정밀하게 예측하려면 자유에너지 섭동(FEP, Free Energy Perturbation) 계산이 필요했다. FEP는 정확하지만 화합물 하나당 수 시간~수 일이 걸린다. 실제 신약 개발에서는 수천~수만 개의 화합물을 검토해야 하므로, 병목이 된다.

Boltz-2의 돌파

Boltz-2는 단백질 구조와 결합 친화력을 단일 모델로 동시에 예측하고, 이를 단일 GPU에서 20초 만에 수행한다.

결합 친화력 예측: Boltz-2 vs 기존 방법
FEP (기존 물리 시뮬레이션)
수 시간~수 일
Boltz-2
20초

FEP 대비 최소 1,000배 빠르면서, 정확도는 FEP에 근접하는 최초의 생성 모델이다. 약 500만 건의 결합 친화력 실험 데이터로 학습되었다.

Boltz-2의 핵심 기능

기능설명
결합 친화력 예측FEP 수준의 정확도, 1000배 빠름
동적 앙상블 예측분자동역학(MD) 시뮬레이션 데이터로 학습. 단백질의 동적 움직임 포착
B-factor 예측잔기별 신뢰도 및 유연성 추정
입체 충돌 감소AlphaFold 3보다 적은 비물리적 충돌(steric clash)
제어 가능성실험 방법 조건부 생성, 거리 제약, 멀티체인 템플릿 지원

AlphaFold 3과의 비교

관점Boltz-2AlphaFold 3
결합 친화력예측 가능 (최초)불가능
공개 수준MIT 라이선스. 모든 것 공개제한적 서버 접근
입체 충돌적음상대적으로 많음
항체-항원개선됐지만 AF3 미만최고 성능
속도20초 (단일 GPU)30분~4시간 (서버)
동적 앙상블지원 (MD 학습)제한적

신약 개발에 미치는 영향

Boltz-2는 구조 예측과 약물 설계 사이의 간극을 메운 최초의 모델이다. 기존에는:

  1. AlphaFold로 구조 예측 → 2. 별도 도킹 소프트웨어로 약물 후보 배치 → 3. FEP로 결합력 계산

이 3단계가 하나로 통합되었다. 연구자는 약 후보 분자와 표적 단백질을 넣으면, 20초 후 구조와 결합력을 동시에 얻는다.


제6장: 단백질을 넘어서 — AI for Science의 전선

GNoME: 220만 개의 새로운 결정 구조

2023년 11월, Google DeepMind의 GNoME(Graph Networks for Materials Exploration)Nature에 발표되었다. 그래프 신경망으로 220만 개의 새로운 안정 결정 구조를 발견했다 — 인류가 알고 있던 안정 물질 수를 6배 늘린 것이다.

  • 안정성 예측 성공률 80% (기존 50%)
  • 736개 구조가 전 세계 실험실에서 독립 검증
  • 52,000개의 새로운 리튬이온 전도체 예측 (배터리 기술에 혁명적)

AlphaProof & Gemini: 수학 올림피아드 금메달

Google DeepMind는 AI를 수학으로도 확장했다.

  • 2024 IMO: AlphaProof + AlphaGeometry 2가 6문제 중 4문제 해결 — 은메달 수준. AlphaProof는 인간 참가자 5명만 풀은 최고 난이도 문제를 해결
  • 2025 IMO: Gemini Deep Think가 6문제 중 5문제 해결, 35점 — 금메달 수준. 자연어만으로 작동하는 최초의 금메달급 AI 수학자

GenCast: AI 기상 예보

2024년 12월 Nature에 발표된 GenCast는 확산 모델을 구면 기하학에 적용한 확률적 기상 예보 시스템이다.

  • ECMWF의 ENS(세계 최고 운영 시스템) 대비 97.2%의 평가 대상에서 우수
  • 리드타임 1.5일 이상에서는 99.8% 우수
  • 15일 예보를 단일 TPU에서 8분에 생성 (기존: 슈퍼컴퓨터에서 수 시간)

AI 신약 개발: 임상 시험의 시대

2026년 초 기준, 173개 이상의 AI 발견 약물 프로그램이 임상 개발 중이다.

  • Insilico Medicine: AI가 표적(target)과 화합물(compound) 모두를 발견한 최초의 약물 rentosertib이 Phase IIa 양성 결과 달성 (특발성 폐섬유증)
  • Recursion + Exscientia 합병: 표현형 스크리닝 + 자동화 정밀 화학을 결합한 종단 간 플랫폼. 2026년 복수 Phase II 진입
  • FDA: 2025년 1월, AI 활용 약물 개발에 대한 가이던스 초안 발표

양자 화학: FermiNet & PauliNet

  • FermiNet (DeepMind): 변분 몬테카를로법으로 원자/분자의 전자 구조를 신경망으로 처음부터 계산. 파울리 배타원리를 반대칭 아키텍처로 내장
  • PauliNet (FU Berlin): 하트리-폭 오비탈을 기반으로 신경망 보정을 추가. 더 적은 파라미터로 높은 정확도

두 모델 모두 기존 양자화학 방법보다 훨씬 적은 계산 비용으로 고정밀 결과를 달성한다.


제7장: 자율 실험실 — AI가 실험도 한다

2026년의 가장 흥미로운 트렌드 중 하나는 자율 실험실(Self-Driving Lab)이다. AI가 예측만 하는 것이 아니라, 로봇 하드웨어와 결합하여 실험 설계 → 합성 → 테스트 → 분석(DMTA) 전 주기를 자동으로 수행한다.

  • 기존 대비 10배 빠른 소재 발견
  • 맥킨지 추정: AI + 자동화로 제약 R&D 주기 500일 이상 단축 가능
  • AI 기반 자기 소재 데이터베이스: 67,000개 이상의 자성 소재 중 25개 고온 자성 유지 후보 발견 (희토류 의존도 감소)
  • CRESt AI 플랫폼: 연료전지 촉매에서 달러당 전력 밀도 9.3배 향상 달성

비전: 전 세계의 전문화된 자율 실험실들이 공유 AI 모델을 통해 글로벌 네트워크로 협업하는 것. 소재 개념에서 상용화까지의 시간을 10~20년에서 1~2년으로 단축.


제8장: 2026년 현재 — AI for Science의 지형도

학계의 폭발

  • ICLR 2026: AI for Science 관련 제출 150편 이상
  • 생명과학 프리프린트 서버(bioRxiv)에서 "AI structure prediction" 관련 논문이 2024년 대비 3배 이상 증가
  • MIT, Stanford, Cambridge 등 주요 대학에 AI for Science 전용 학과/센터 신설

오픈 사이언스 운동

AlphaFold 3의 제한적 공개에 대한 반발로, 오픈소스 대안들이 급성장했다:

모델라이선스공개 범위
AlphaFold 2Apache 2.0코드 + DB 공개, 학습 코드 미공개
AlphaFold 3제한적서버 접근만 (학습 코드 비공개)
OpenFoldApache 2.0전체 학습 파이프라인 공개
Boltz-1/2MIT완전 공개 (코드, 가중치, 데이터)
Chai-1비상업적가중치 + 추론 코드 (학습 코드 미공개)
GenCast오픈코드 + 가중치 공개

노벨상 이후의 세계

2024년 노벨 화학상은 단순한 수상을 넘어, "AI는 과학 도구가 아니라 과학 방법론이다"라는 메시지를 전 세계에 보냈다. 투자, 인재, 정책의 방향이 바뀌고 있다.


마치며: 과학의 새로운 방법

1973년, 앤핀센은 단백질이 스스로 접힌다는 것을 보여주었다. 2020년, AlphaFold는 AI가 그 접힘을 예측할 수 있다는 것을 보여주었다. 2024년, 노벨상이 이 성취를 인류 과학의 이정표로 인정했다. 2025년, Boltz-2는 예측을 넘어 "이 약이 효과가 있을까?"라는 실용적 질문에 20초 만에 답하기 시작했다.

하지만 더 큰 그림이 있다. GNoME이 220만 개의 신물질을 발견하고, GenCast가 기상 예보를 혁신하고, AlphaProof가 수학 올림피아드에서 금메달을 따고, 자율 실험실이 소재를 10배 빠르게 발견하는 것 — 이 모든 것은 하나의 흐름이다.

AI가 과학의 "도구"에서 "방법론"으로 격상되고 있다.

실험실에서 가설을 세우고, 실험을 설계하고, 결과를 분석하는 전 과정에 AI가 참여한다. 과학의 속도가 바뀌고 있다. 그리고 그 속도의 변화가 치료제를, 신소재를, 에너지 기술을, 궁극적으로 인류의 삶을 바꿀 것이다.

Boltz-2가 20초 만에 답하는 질문들 — 그것은 인류가 수십 년간 실험실에서 묻고 또 물어온 질문들이다.


참고 문헌

  • Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589.
  • Abramson, J., et al. (2024). Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630, 493-500.
  • Passaro, S., Corso, G., Wohlwend, J., et al. (2025). Boltz-2. bioRxiv, 2025.06.14.659707.
  • Wohlwend, J., et al. (2024). Boltz-1: Democratizing Biomolecular Interaction Modeling. MIT Jameel Clinic.
  • Nobel Prize Committee. (2024). The Nobel Prize in Chemistry 2024. nobelprize.org.
  • Merchant, A., et al. (2023). Scaling deep learning for materials discovery. Nature, 624, 80-85.
  • Price, I., et al. (2024). GenCast: Diffusion-based ensemble forecasting for medium-range weather. Nature.
  • Lin, Z., et al. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science, 379, 1123-1130.
  • Krishna, R., et al. (2024). Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 384, eadl2528.
  • Chai Discovery. (2024). Chai-1: Decoding the Molecular Interactions of Life. bioRxiv.