[머신러닝] 인공지능, 머신러닝 연구가 현실과 멀어지고 고립되는 이유

업데이트:

인공지능, 머신러닝 연구가 현실과 멀어지고 고립되는 이유

참고 링크

시작하며

본 포스팅은 위 링크에 나오는 트위터 스레드를 편집, 재구성해서 쓴 글입니다. 머신러닝 업계에 종사하고 있다면 한 번쯤 생각해 볼 내용이라고 생각합니다.

인공지능 벤치마크 섬이 만들어지는 과정

수많은 머신러닝 학계에서의 연구는 현실적인 문제를 해결하는 문제에서 멀어지고 그들만의 벤치마크 섬을 만든다. 어떻게 이런일이 생길 수 있을까? 왜 학자들은 이 패턴에서 벗어날 수가 없는 것일까? 머신러닝 연구는 다음과 같은 과정에 의해 그들 스스로를 고립시킨다.

  1. 연구 주제를 정한다. 예를 들면 다음과 같은 연구 주제를 정한다고 해보자.

머신러닝을 이용해 x-ray 이미지에서 covid-19 탐지하기

  1. 연구 주제에 대해 첫번째 논문이 등장하고 실제 문제를 해결할 수 있는 근거를 제공한다.
  2. 선례가 만들어졌다. 첫 논문은 다음 연구를 위한 초석이 된다.
  3. 물론 첫번째 논문에도 가정이 깔려있다. 그러나 사람들은 첫 번째 논문의 가정, 근거에 대해 더 이상 의문을 품지 않고 받아들인다.
  4. 점차 더 많은 학자들이 더 많은 데이터셋과 예측 모델들을 만들어낸다.
  5. 연구 커뮤니티는 서로의 논문을 인용하고 평가한다.
  6. 어떤 데이터 셋은 벤치마크가 되고 어떤 예측 모형은 최신(state-of-the-art) 모형이 된다.
  7. 예측 성능은 논문을 개선하기 위한 측정 수단이 된다. 그리고 성능 개선 정도는 점차 미비해진다.
  8. 초기 연구 과정에서 해결하려고 했던 문제는 뒷전이 되어버린다.
  9. 현실과의 디커플링 완료.

좀 더 자세한 이야기

위 패턴에 대해 좀 더 생각해보자. 예를 들어 x-ray 이미지를 이용해 covid-19를 예측하는 수백가지 예측 모형이 있다고 하자. 첫번째 학자는 예측 모델과 데이터를 퍼블리싱하고 연구를 통해 해결점을 제시하려던 연구 질문에 대해 이야기한다.

이러한 “개척자(pioneer) 논문”은 해당 연구 주제에 대해 더 많은 논문이 나올수 있는 초석이 된다. 이 때, 첫 논문에 사용된 예측 모형, 가정, 근거들이 확립된다. 첫 논문이 좋은 저널에 accept되면 다른 팔로우업 논문들이 쉽게 따라올 수 있는 환경이 조성된다.

그리고 이는 다음 세대 학자들이 새로운 연구 주제를 생각하기 위한 고생을 덜어준다. 개척자 논문이 존재한다는 것은 해당 연구 주제가 유효하다는 뜻이다. 기본적인 가정들과 근거들에 대해서는 사람들은 더이상 의문을 가지지 않는다. 따라서 새로운 연구 주제를 생각하는 대신 개척자 논문의 연구 주제를 따라간다.

더욱 더 많은 학자들이 해당 주제에 대해 연구한다. 그리고 그들은 그들의 데이터와 예측 모델을 퍼블리시한다. 이렇게 모여든 학자들은 새로운 커뮤니티를 형성한다. 자연스럽게 그들은 서로의 논문을 인용하고 새로운 논문이 나올때 리뷰어 역할까지 하게 된다.

이렇게 어떤 데이터셋은 벤치마크가 되고 어떤 예측 모형은 최신(state of the art) 모형이 된다. 여기가 중요한 포인트인데, 이 대목에서 연구 목적이 변화한다. 예측 성능은 모형 개선의 유일한 측정 수단이 되고 성능 개선 정도는 점차 미비해진다.

이것은 일종의 유인 판매(bait-and-switch)라고 할 수 있다. 초기에 원래 연구를 통해 해결하려고 했던 연구 질문은 이제 더이상 상관이 없게 되었다. 이제 연구 목적은 벤치마크 모형이나 최신 모형보다 더 나은 성능을 보이는 더 많은 머신러닝 모형을 개발하는 것으로 대체되었다.

그리고 연구 목적의 유인 판매로 인해 연구 분야는 현실과 디커플링 되었다.

그렇다면…왜?

우리는 학자들의 인센티브, 즉, 논문 많이 쓰기, 더 많은 인용 횟수에 대해 다시 생각해봐야한다. 유인 판매는 논문을 쓰기 쉽게 만들고 논문을 위한 논문을 생산한다. 기존 머신러닝을 아주 살짝 수정한 모형이 벤치마크 모형보다 낫다면 퍼블리시 될 수 있다. 더 많은 학자들은 토픽 X에 대해 논문을 쓰고, 평균적으로 인용 횟수가 더 많아진다. 그리고 논문을 쓰기 쉽게 만드는 것 뿐만 아니라 논문 리뷰어의 삶도 개선시킨다.

오~이건 벤치마크 모형보다 개선됬네, 아, 이건 아니네.

라고 좀 더 쉽게 논문을 심사할 수 있게 만든다. 그리고 학자들에게 퍼블리시는 인센티브 뿐만 아니라 직업 존속 자체가 달렸다.

모든 벤치마크 모형이 이렇다는 것은 아니다. 벤치마크 모형이 있는것은 유용하고 벤치마크 모형을 개선하는 것은 분명 실제 문제를 해결하는데 영향이 있을 것이다. 예를 들어 ImageNet 벤치마크 데이터셋은 이미지 분류의 실제 개선을 이끌어냈다.

이는 비단 인공지능, 머신러닝, 딥러닝 분야에 국한된 문제가 아니다. 다른 분야에도 똑같이 적용할수 있다. 처음에는 현실 문제를 해결하기위한 의도로 시작한다. 점차 인용루프, 퍼블리시 인센티브 생태계가 치고 들어온다. 이는 학계의 기저에 깔려있는 문제 때문이다. 현실문제를 해결하는게 아니라 논문 퍼블리시에 집중하는 것이 그것이다. 논문. 그리고 더 많은 논문. 다른건 중요치 않다. 학자와 학계는 논문의 양과 질로 판단한다.

학자들이 이 패턴을 벗어나고 싶을리없다. 더 많은 논문을 퍼블리시할수있는 이 패턴을 말이다.

앞으로는?

그렇다면 정말 현실에 적용할 수 있는 개선이란 무엇일까?

  • 실제 개선은 covid19 예측 모형을 현실과 실제 제품에 적용하기 위해 연구하는 것을 의미할 것이다.
  • 실제 개선은 관련 분야의 전문가와 함께 연구하는 것을 의미할 것이다.
  • 실제 개선은 어려운 문제에 도전하는 것을 의미할 것이다.

머신러닝에서 실제 개선이 위와 같이 변한다면 당신의 논문이 퍼플리시되기까지 더 힘들고 고난의 시간을 겪을 것이다. 이는 “벤치마크 모형 이기기”에 초점이 맞춰져 있지 않다. 관련 분야의 학자들과 함께 연구하는 것은 머신러닝 연구가 좀 더 활발하게 유지될 수 있음을 의미한다.

데이터 성성 과정과 워크 플로는 “벤치마크 고립 현상”을 피하기 위한 방법이다. 워크플로를 고려하면 우리는 병목에 집중하게 된다. 연구 과제의 병목은 정확도를 0.72% 높이는 것이 아니라 더욱 퀄리티 높은 데이터를 수집하고 예측 모형을 워크플로우에 적용하는 것. 머신러닝 학자들은 좀 더 시스템적 사고를 할 필요가 있다.