기계에 대한 신뢰 강화
이전 이미지 다음 이미지
확률론적 기계 학습 방법은 선거 결과 예측부터 빈곤 문제 해결에 대한 소액 대출의 영향 예측에 이르기까지 분야 및 응용 분야 전반에 걸쳐 다양한 중요한 결정을 알리는 데이터 분석에서 점점 더 강력한 도구가 되고 있습니다.
이 종류의 방법은 확률 이론의 정교한 개념을 사용하여 의사 결정의 불확실성을 처리합니다. 그러나 수학은 정확성과 효율성을 결정하는 퍼즐의 한 조각일 뿐입니다. 일반적인 데이터 분석에서 연구자는 주관적인 선택을 많이 하거나 인적 오류가 발생할 가능성이 있으므로 이러한 방법을 기반으로 한 결정의 품질에 대한 사용자의 신뢰를 높이기 위해 평가해야 합니다.
이 문제를 해결하기 위해 EECS(전기 공학 및 컴퓨터 과학과) 부교수이자 LIDS(정보 및 결정 시스템 연구소)의 구성원인 MIT 컴퓨터 과학자 Tamara Broderick과 연구진이 분류 시스템을 개발했습니다. — "신뢰 분류법" — 데이터 분석에서 신뢰가 무너질 수 있는 위치를 정의하고 각 단계에서 신뢰를 강화하기 위한 전략을 식별합니다. 이 프로젝트의 다른 연구원은 켄터키 대학의 Anna Smith 교수, 컬럼비아 대학의 Tian Zheng 교수와 Andrew Gelman 교수, London School of Economics의 Rachael Meager 교수입니다. 팀의 희망은 이미 잘 연구된 문제와 더 많은 관심이 필요한 문제를 강조하는 것입니다.
2월에 Science Advances에 발표된 논문에서 연구자들은 신뢰가 무너질 수 있는 데이터 분석 프로세스의 단계를 자세히 설명하는 것부터 시작합니다. 분석가는 수집할 데이터와 실제 데이터를 가장 가깝게 반영하는 모델 또는 수학적 표현을 선택합니다. - 그들이 대답하고자 하는 삶의 문제나 질문. 모델에 맞는 알고리즘을 선택하고 코드를 사용하여 해당 알고리즘을 실행합니다. 이러한 각 단계는 신뢰 구축과 관련하여 고유한 과제를 제기합니다. 일부 구성 요소는 측정 가능한 방식으로 정확성을 확인할 수 있습니다. 예를 들어 "내 코드에 버그가 있나요?"라는 질문은 객관적인 기준에 따라 테스트할 수 있는 질문입니다. 어떤 경우에는 문제가 더 주관적이고 명확한 답변이 없는 경우도 있습니다. 분석가는 데이터를 수집하고 모델이 실제 세계를 반영하는지 여부를 결정하기 위한 수많은 전략에 직면합니다.
"내가 생각하는 이 분류법의 좋은 점은 사람들이 집중하고 있는 부분을 실제로 강조한다는 것입니다. 많은 연구가 자연스럽게 '나의 알고리즘이 특정 수학적 문제를 해결하고 있는가?'라는 수준에 초점을 맞추고 있다고 생각합니다. 부분적으로는 어려운 문제일지라도 매우 객관적이기 때문입니다."라고 Broderick은 말합니다.
"'중요한 응용 문제를 특정한 방식으로 수학화하는 것이 합리적인가?'라고 대답하기는 정말 어려운 것 같아요. 어떻게든 더 어려운 공간으로 들어가고 있기 때문에 더 이상 단순한 수학적 문제가 아닙니다."
모델의 실제 생활을 포착하다
신뢰가 무너지는 부분을 분류하는 연구자들의 작업은 추상적으로 보일 수 있지만 실제 적용에 뿌리를 두고 있습니다.
논문의 공동 저자인 Meager는 소액 금융이 지역 사회에 긍정적인 영향을 미칠 수 있는지 분석했습니다. 이 프로젝트는 신뢰가 무너질 수 있는 지점과 이러한 위험을 줄이는 방법에 대한 사례 연구가 되었습니다.
언뜻 보면 소액금융의 영향을 측정하는 것이 간단한 노력처럼 보일 수 있습니다. 그러나 다른 분석과 마찬가지로 연구자들은 결과에 대한 신뢰에 영향을 미칠 수 있는 과정의 각 단계에서 어려움을 겪습니다. 개인이나 중소기업이 기존 은행 대신 소액 대출 및 기타 금융 서비스를 받는 소액 금융은 프로그램에 따라 다양한 서비스를 제공할 수 있습니다. 분석을 위해 Meager는 멕시코, 몽골, 보스니아, 필리핀을 포함한 전 세계 국가의 소액 금융 프로그램에서 데이터 세트를 수집했습니다.