멀리
MIT 뉴스 오피스 웹사이트에서 다운로드할 수 있는 이미지는 Creative Commons Attribution Non-Commercial No Derivatives 라이센스에 따라 비영리 단체, 언론 및 일반 대중에게 제공됩니다. 제공된 이미지를 크기에 맞게 자르는 것 외에는 변경할 수 없습니다. 이미지를 복제할 때는 크레디트 라인을 사용해야 합니다. 아래에 제공되지 않은 경우 이미지를 "MIT"로 표시하십시오.
이전 이미지 다음 이미지
축구장에서 두 팀이 맞붙는 모습을 상상해보세요. 플레이어는 목표를 달성하기 위해 협력할 수도 있고 이해관계가 상충되는 다른 플레이어와 경쟁할 수도 있습니다. 그것이 게임이 작동하는 방식입니다.
인간만큼 효과적으로 경쟁하고 협력하는 방법을 배울 수 있는 인공지능 에이전트를 만드는 것은 여전히 어려운 문제로 남아 있습니다. 주요 과제는 AI 에이전트가 모두 동시에 학습할 때 다른 에이전트의 미래 행동을 예측할 수 있도록 하는 것입니다.
이 문제의 복잡성으로 인해 현재의 접근 방식은 근시안적인 경향이 있습니다. 에이전트는 팀원이나 경쟁자의 다음 몇 가지 움직임만 추측할 수 있으므로 장기적으로 성과가 저하됩니다.
MIT, MIT-IBM Watson AI Lab 등의 연구원들은 AI 에이전트에 장기적인 관점을 제공하는 새로운 접근 방식을 개발했습니다. 머신러닝 프레임워크를 통해 협력적이거나 경쟁적인 AI 에이전트는 단지 몇 가지 다음 단계가 아닌 시간이 무한대에 가까워짐에 따라 다른 에이전트가 무엇을 할지 고려할 수 있습니다. 그런 다음 에이전트는 그에 따라 자신의 행동을 조정하여 다른 에이전트의 향후 행동에 영향을 미치고 최적의 장기 솔루션에 도달합니다.
이 프레임워크는 울창한 숲에서 길을 잃은 등산객을 찾기 위해 협력하는 자율 드론 그룹이나 복잡한 고속도로에서 운전하는 다른 차량의 미래 움직임을 예측하여 승객의 안전을 유지하기 위해 노력하는 자율 주행 자동차에서 사용될 수 있습니다.
"AI 에이전트가 협력하거나 경쟁할 때 가장 중요한 것은 그들의 행동이 미래의 어느 시점에 수렴되는 시점입니다. 장기적으로 그다지 중요하지 않은 일시적인 행동이 많이 있습니다. 이러한 수렴된 행동에 도달 우리는 이제 이를 가능하게 하는 수학적 방법을 갖게 되었습니다."라고 MIT LIDS(정보 및 의사결정 시스템 연구소) 대학원생이자 이 프레임워크를 설명하는 논문의 주요 저자인 김동기 씨는 말합니다.
수석 저자는 Richard C. Maclaurin 항공우주학 교수이자 MIT-IBM Watson AI Lab 회원인 Jonathan P. How입니다. 공동 저자로는 MIT-IBM Watson AI Lab, IBM Research, Mila-Quebec Artificial Intelligence Institute 및 Oxford University의 다른 사람들이 있습니다. 이 연구는 신경정보처리시스템 컨퍼런스에서 발표될 예정이다.
더 많은 에이전트, 더 많은 문제
연구자들은 다중 에이전트 강화 학습(Multiagent Reinforcement Learning)으로 알려진 문제에 중점을 두었습니다. 강화 학습은 AI 에이전트가 시행착오를 통해 학습하는 기계 학습의 한 형태입니다. 연구자들은 에이전트의 목표 달성에 도움이 되는 "좋은" 행동에 대해 보상을 제공합니다. 에이전트는 결국 작업의 전문가가 될 때까지 보상을 극대화하기 위해 행동을 조정합니다.
그러나 많은 협동적이거나 경쟁적인 에이전트가 동시에 학습할 때 상황은 점점 더 복잡해집니다. 에이전트가 동료 에이전트의 더 많은 미래 단계와 자신의 행동이 다른 에이전트에게 어떤 영향을 미치는지 고려함에 따라 문제를 효율적으로 해결하려면 곧 너무 많은 컴퓨팅 성능이 필요합니다. 이것이 다른 접근법이 단기에만 초점을 맞추는 이유입니다.
"AI는 게임의 끝을 정말로 생각하고 싶어하지만 게임이 언제 끝날지 모릅니다. 그들은 자신의 행동을 무한대로 계속 적응시켜 먼 미래에 승리할 수 있는 방법에 대해 생각해야 합니다. 우리 논문은 본질적으로 AI가 무한대에 대해 생각할 수 있도록 하는 새로운 목표를 제안합니다."라고 Kim은 말합니다.
그러나 알고리즘에 무한대를 연결하는 것은 불가능하기 때문에 연구자들은 에이전트가 평형이라고 알려진 다른 에이전트의 행동과 수렴되는 미래 지점에 집중하도록 시스템을 설계했습니다. 평형점은 에이전트의 장기적인 성능을 결정하며 다중 에이전트 시나리오에서는 여러 평형이 존재할 수 있습니다. 따라서 효과적인 에이전트는 에이전트의 관점에서 바람직한 균형에 도달하는 방식으로 다른 에이전트의 미래 행동에 적극적으로 영향을 미칩니다. 모든 행위자가 서로 영향을 미치면 연구자들이 "활성 평형"이라고 부르는 일반적인 개념으로 수렴됩니다.