기계 해결
MIT 뉴스 오피스 웹사이트에서 다운로드할 수 있는 이미지는 Creative Commons Attribution Non-Commercial No Derivatives 라이센스에 따라 비영리 단체, 언론 및 일반 대중에게 제공됩니다. 제공된 이미지를 크기에 맞게 자르는 것 외에는 변경할 수 없습니다. 이미지를 복제할 때는 크레디트 라인을 사용해야 합니다. 아래에 제공되지 않은 경우 이미지를 "MIT"로 표시하십시오.
이전 이미지 다음 이미지
OpenAI의 GPT-3과 같은 대규모 언어 모델은 시부터 프로그래밍 코드까지 인간과 유사한 텍스트를 생성할 수 있는 대규모 신경망입니다. 풍부한 인터넷 데이터를 사용하여 훈련된 이러한 기계 학습 모델은 약간의 입력 텍스트를 가져온 다음 다음에 올 가능성이 있는 텍스트를 예측합니다.
하지만 이것이 이 모델이 할 수 있는 전부는 아닙니다. 연구자들은 상황 내 학습(in-context learning)으로 알려진 흥미로운 현상을 탐구하고 있습니다. 이 현상에서는 대규모 언어 모델이 해당 작업에 대해 훈련되지 않았음에도 불구하고 몇 가지 예만 본 후에 작업을 수행하는 방법을 학습합니다. 예를 들어 누군가 모델에 여러 예문과 감정(긍정적 또는 부정적)을 제공한 다음 새 문장을 입력하면 모델이 올바른 감정을 제공할 수 있습니다.
일반적으로 GPT-3과 같은 기계 학습 모델은 이 새로운 작업을 위해 새로운 데이터로 재교육해야 합니다. 이 훈련 과정에서 모델은 작업을 학습하기 위해 새로운 정보를 처리하면서 매개변수를 업데이트합니다. 하지만 상황 내 학습에서는 모델의 매개변수가 업데이트되지 않으므로 모델이 전혀 학습하지 않고 새로운 작업을 학습하는 것처럼 보입니다.
MIT, Google Research, Stanford University의 과학자들은 이 미스터리를 풀기 위해 노력하고 있습니다. 그들은 매개변수를 업데이트하지 않고도 학습할 수 있는 방법을 알아보기 위해 대규모 언어 모델과 매우 유사한 모델을 연구했습니다.
연구원들의 이론적 결과는 이러한 대규모 신경망 모델이 내부에 더 작고 단순한 선형 모델을 포함할 수 있음을 보여줍니다. 그런 다음 대규모 모델은 더 큰 모델에 이미 포함된 정보만 사용하여 이 작은 선형 모델을 훈련하여 새로운 작업을 완료하는 간단한 학습 알고리즘을 구현할 수 있습니다. 해당 매개변수는 고정된 상태로 유지됩니다.
상황 내 학습 이면의 메커니즘을 이해하기 위한 중요한 단계인 이 연구는 이러한 대형 모델이 구현할 수 있는 학습 알고리즘에 대한 더 많은 탐구의 문을 열어준다고 컴퓨터 과학 대학원생이자 이 현상을 탐구하는 논문의 주요 저자인 Ekin Akyürek은 말합니다. 상황 내 학습에 대한 더 나은 이해를 통해 연구자들은 비용이 많이 드는 재교육 없이도 모델이 새로운 작업을 완료할 수 있도록 할 수 있습니다.
"일반적으로 이러한 모델을 미세 조정하려면 도메인별 데이터를 수집하고 복잡한 엔지니어링을 수행해야 합니다. 하지만 이제 입력과 5개의 예시만 제공하면 원하는 결과를 얻을 수 있습니다. 그래서 -컨텍스트 학습은 이해가 필요한 비합리적으로 효율적인 학습 현상입니다."라고 Akyürek은 말합니다.
논문에 Akyürek과 합류한 사람은 Google Brain의 연구 과학자이자 앨버타 대학의 컴퓨팅 과학 교수인 Dale Schuurmans입니다. MIT 전기 공학 및 컴퓨터 과학과의 X 컨소시엄 조교수이자 MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 회원인 수석 저자 Jacob Andreas; 스탠포드 컴퓨터 과학 및 통계학 조교수 Tengyu Ma; Google Brain의 수석 과학자이자 연구 책임자인 Danny Zhou입니다. 이 연구는 학습 표현에 관한 국제 회의에서 발표될 예정입니다.
모델 속의 모델
기계 학습 연구 커뮤니티에서 많은 과학자들은 대규모 언어 모델이 훈련된 방식 때문에 상황 내 학습을 수행할 수 있다고 믿게 되었다고 Akyürek은 말합니다.
예를 들어, GPT-3에는 수천억 개의 매개변수가 있으며 Wikipedia 기사부터 Reddit 게시물까지 인터넷에서 엄청난 양의 텍스트를 읽음으로써 훈련되었습니다. 따라서 누군가가 새로운 작업의 모델 예를 보여줄 때 훈련 데이터세트에 수십억 개의 웹사이트의 텍스트가 포함되어 있기 때문에 이미 매우 유사한 것을 보았을 가능성이 높습니다. 새로운 작업을 수행하는 방법을 배우기보다는 훈련 중에 본 패턴을 반복합니다.