실생활 적용을 위한 강인 다중 에이전트 강화학습 알고리즘 연구

인공지능대학원 이선우

1. 인턴십 수행 내용

1-1. 주요 업무 및 역할

◦ 강화학습 분야 조사 및 연구 주제 선정

최신 다중 에이전트 강화학습(Multi-Agent Reinforcement Learning) 연구 동향 조사 및 관련 논문 리뷰 - 강화학습의 실생활 적용을 위한 강인함 향상 연구 조사 및 방법 탐구
적대적 공격 기법을 활용한 강화학습 알고리즘의 강인성 향상 방안 조사
적대적 공격 기법을 적용한 다중 에이전트 강화학습 알고리즘 연구 주제 선정

◦ 강인한 다중 에이전트 강화학습 연구 및 알고리즘 개발

기존 강인 다중 에이전트 강화학습 알고리즘의 한계점 분석
단일 에이전트 강화학습에서 적대적 공격 기법을 활용한 연구 조사 및 이를 다중 에이전트 환경으로 확장하는 방법 탐구 - 다중 에이전트의 특성을 활용하여 에이전트 간 협력과 연속적인 공격을 고려한 적대적 공격 기법 연구
에이전트 간 협력의 정도를 측정할 방법 고안 및 다양한 방법 비교 분석
고안한 아이디어의 이론적 기반 마련 및 수학적 증명 진행
고안한 아이디어를 Python 코드로 구현하고 실험 수행
기존 강인 다중 에이전트 강화학습 알고리즘들과의 성능 비교 및 추가적인 성능 향상을 위한 방법 탐색

1-2. 프로젝트 참여 내용

◦ 실생활 적용을 위한 강인 다중 에이전트 강화학습 알고리즘 연구

◦ 프로젝트 설명

강화학습의 실생활 적용 시 발생하는 한계점 분석 및 보안 방안 탐구
강화학습의 실생활 적용을 위해 다중 에이전트 환경으로 확장하고 강인성을 높이 기 위한 연구 진행
적대적 공격 기법을 활용한 다중 에이전트 강화학습 알고리즘 연구 수행

2. 성과 내용

◦ 에이전트 간 협력을 고려한 적대적 공격 기법 연구

Influence-Based Multi-Agent Exploration 논문을 기반으로, 에이전트의 현재 경로와 다음 경로 간의 관계를 분석하여 협력 정도를 측정하는 방법 구현
Social Influence as Intrinsic Motivation for Multi-Agent RL 논문을 기반으로, 에이전트 간 정책(policy)의 관계를 통해 협력 정도를 측정하는 방법을 구현 하고 비교 분석
Dynamic modeld이나 다음 단계 정보를 예측하지 않고, 현재 에이전트의 행동 가치 함수값을 활용해 협력 정도를 측정하는 새로운 방법 고안 및 실험
에이전트 간 협력 정도에 따라 적대적 공격 기법을 시행하는 알고리즘을 개발하고, 이를 기존 알고리즘들과 성능 비교

◦ 다중 에이전트 강화학습 환경에서의 실험 및 성능 개선

다중 에이전트 강화학습의 대표적인 실험 환경인 Starcraft Multi-Agent Challenge (SMAC)에서 개발한 알고리즘을 실험하고, 추가적인 공격이 있는 상황에서도 기존 알고리즘 대비 성능이 향상됨을 보임

오프라인 강화학습 및 Decision Transformer 개선 연구

인공지능대학원 이가원

1. 인턴십 수행 내용

1-1. 주요 업무 및 역할

• 오프라인 강화학습 알고리즘 개선 및 Decision Transformer 모델 성능 개선

• 세부 내용: 오프라인 강화학습과 Decision Transformer 모델의 성능을 향상시키기 위해, 전체적인 연구 방향을 설정하고 구체적인 기술 목표를 달성하기 위한 실험을 설계하고 진행했습니다. 오프라인 강화학습 분야의 최신 논문과 주요 기술적 난제를 파악하여 연구에 반영했습니다.

• 실험적 기여: • Offline 데이터셋에 Stitching 기법을 적용하여 실험을 진행했습니다. • Return sensitive Decision Transformer 개발을 위한 연구를 수행했습니다. • n-step Return 알고리즘을 구현하여 성능을 분석했습니다.

• 오프라인 강화학습과 Decision Transformer 분야 관련 논문 조사 및 요약

• 세부 내용: 프로젝트의 방향성을 잡기 위해 최신 연구 논문을 조사하고, 해당 내용을 요약 및 분석하여 연구팀과 공유했습니다. 주요 논문으로는 다음이 포함됩니다: • Elastic Decision Transformer (NeurIPS 2023) • When Should we Prefer Decision Transformers for Offline Reinforcement Learning? (ICLR 2024) • Adversarially Robust Policy Learning: Active Construction of Physically-Plausible Perturbations • DECISION CONFORMER: Local Filtering in Metaformer is Sufficient for Decision Making • Return-Aligned Decision Transformer • Offline Trajectory Generalization for Offline Reinforcement Learning

1-2. 프로젝트 참여 내용

• 프로젝트 명: 오프라인 강화학습 및 Decision Transformer 개선 연구 • 프로젝트 설명: 본 프로젝트는 오프라인 환경에서 강화학습의 성능을 향상시키고, Decision Transformer 모델의 효율성을 개선하기 위한 연구를 목표로 했습니다. 이를 위해 새로운 기법을 적용하여 모델의 성능을 평가하고, 개선점을 도출하였습니다. 특히, 기존 데이터를 Stitching하는 기법들과 Return에 민감한 Decision Transformer, 그리고 n-step Return을 사용하여 더 정확한 상태의 가치가 반영된 알고리즘을 제안하였습니다.

2. 성과 내용

• 성과 1: 오프라인 강화학습 모델 성능 개선

세부 내용: Offline 데이터셋에 Stitching 기법을 적용한 결과, 분산이 커지는 효과는 있었으나, 리턴의 성능으로서는 큰 개선점이 발생하지 않았습니다.

• 성과 2: Return sensitive Decision Transformer 개발

세부 내용: Return sensitive Decision Transformer를 개발하여 기존 강화학습 모델보다 충분한 학습 후에는 더욱 정밀한 성능을 확보했습니다. 이 성과는 추가적인 연구와 발전 가능성이 높은 기술로 평가되었으며, 향후 n-step Return 기반을 도입하여 성능 향상을 도모하여 학술지에 발표될 예정입니다.

기존 DT에 비해 개선된 성능 획득한 Return Sensative DT

UNIST AI혁신파크 산학 인턴십 연구내용

실생활 적용을 위한 강인 다중 에이전트 강화학습 알고리즘 연구

1. 인턴십 수행 내용

1-1. 주요 업무 및 역할

1-2. 프로젝트 참여 내용

2. 성과 내용

오프라인 강화학습 및 Decision Transformer 개선 연구

1. 인턴십 수행 내용

1-1. 주요 업무 및 역할

1-2. 프로젝트 참여 내용

2. 성과 내용

기존 DT에 비해 개선된 성능 획득한 Return Sensative DT

Offline Data를 Stitching하여 얻은 결과