상태 기록 보관소에 비해 기계 학습 비용이 너무 높음
나는 _Mis/Getty Images를 보았다
뉴스레터에 가입하세요
대기 중
작성자: Chris Teale
처음에는 기록 보관인이 대량의 데이터를 분류하는 데 도움을 주기 위해 기계 학습을 사용할 계획이었지만, Oregon State Archives는 ML 기술의 비용과 성숙도에 대한 우려가 있는 가운데 고급 데이터 분석을 대신 배포할 예정입니다.
작년 말 기록 보관소 관계자는 중복 항목과 관련되지 않은 모든 항목을 제거하고 향후 액세스를 용이하게 하기 위해 색인을 생성하여 데이터를 처리하는 데 도움이 되는 ML 기술을 요구하는 제안 요청을 발표했습니다. RFP는 케이트 브라운(Kate Brown) 전 주지사의 사임과 그녀가 주지사로 재직한 8년 동안 수집한 최대 10테라바이트의 데이터가 주 기록 보관소로 전송될 것으로 예상됨에 따라 촉발되었습니다.
그러나 RFP에 대한 응답으로 인해 공무원들은 다시 생각하게 되었다고 Oregon State Archives의 주 기록 관리자인 Kristofer Stenson은 Nextgov와 GCN의 Emerging Tech and Modernization Summit에서 말했습니다. ML 계약에 대한 최소 한 번의 입찰 가격은 아카이브의 전체 2년 예산보다 3배 더 높은 가격으로 책정되었으며, Stenson은 이를 "눈을 뜨게" 했습니다.
Stenson은 "우리가 그것으로부터 많은 것을 배웠다는 점에서 실패한 조달이라고 부르지는 않을 것"이라고 말했다. 기술이 더욱 성숙해지고 가격이 낮아져야 한다는 점을 고려하여 주 지도자들은 ML에서 벗어나 "전환"하기로 결정했습니다.
대신 Stenson은 Oregon이 고급 데이터 분석을 사용하여 Brown의 주지사 기록 보관소의 기록을 처리할 것이라고 말했습니다. 이 기술은 사회보장번호나 전화번호와 같은 민감한 정보는 물론 중복된 정보를 식별하고 제거하는 데 도움이 됩니다. 또한 아카이브를 검색할 수 있는 고급 검색 기능도 제공합니다.
Stenson은 이러한 노력이 현재 예산 내에서 "단기적으로 훨씬 더 실행 가능"하다고 말했습니다. 다른 오레곤 기관도 유사한 분석 도구를 사용하므로 현재로서는 이를 향후 전체 ML을 위한 "디딤돌"로 사용하는 아카이브에 대한 선례가 있습니다.
관련 기사
머신러닝으로 주의 기록 보관소를 파헤쳐 보세요
시골 카운티는 블록체인에 토지 기록을 넣습니다.
팬데믹 테스트 전자 기록 관리
Stenson은 "이것은 여전히 우리에게 큰 진전을 의미하며 곧 이러한 컬렉션에 대한 액세스를 보다 직접적으로 제공할 수 있게 되기를 바랍니다"라고 말했습니다.
기록 보관소는 또한 코로나19 대유행에 대한 주 정부의 대응을 주도하는 것을 포함하여 브라운의 재임 기간 동안 테라바이트급의 문서, 통신 및 기타 데이터를 저장하는 방법에 대한 대화를 진행 중입니다. Stenson은 솔루션이 중복성을 제공하기 위해 클라우드와 온프레미스 스토리지를 모두 갖춘 하이브리드 접근 방식이 될 것이라고 말했습니다.
선출직 공무원이 생성한 엄청난 양의 전자 데이터를 처리하는 것은 모든 주 기록 보관소가 직면해야 하는 문제입니다. Stenson은 ML이 곧 해당 정보를 관리하는 '중요한 도구'가 될 것이라고 말했습니다.
Stenson은 "이것은 현실입니다. 더 이상 꿈이 아닙니다."라고 말했습니다. "이것이 우리가 살게 될 세상입니다. 아직 거기에 도달하지는 못했지만 꽤 빨리 그곳에 도달하고 있습니다."
조달 담당자를 위해 이 에피소드에서는 ML 기술의 성숙도 상태와 정부가 이를 사용하는 데 드는 비용을 보여주었습니다. Stenson은 Oregon이 지금 ML 솔루션을 요구하는 데 있어 "약간 비약적인 행동을 했을 수도 있지만" 뒤처지는 것보다 새로운 기술에 대해 미래 지향적인 사고를 하는 것이 더 낫다고 말했습니다. 그는 "5년 늦기보다는 앞을 내다보는 편이 낫다"고 말했다.
다음 이야기:정부가 차세대 공공-민간 파트너십을 수용할 때 혁신이 번창합니다.
다음 이야기: