< AI 과외선생, 데이터 라벨러 – 서초 IT센터 양성과정의 현장을 찾다>
2016년 모든 세계인이 한판의 바둑에 집중했다. 바둑의 일인자 이세돌 9단과 Google의 딥마인드가 개발한 인공지능(Artificial Intelligence, 이하 AI) 프로그램 알파고 간의 대결이었다. 결과는 이세돌 9단이 5번의 대국에서 1승 4패를 기록한 완패. 1997년 IBM의 슈퍼컴퓨터 ‘딥 블루’가 체스 세계 챔피언을 이겼지만, 체스보다 경우의 수가 훨씬 많고 인간의 직관까지 더해지는 바둑에서 컴퓨터는 도저히 넘어설 수 없는 인간만의 영역이라고 생각했기에 전 세계는 경악했다. 2017년 천재 물리학자인 스티븐 호킹 박사는 “AI가 인류 멸망을 초래할 수 있다.”라고 경종을 울리고 많은 학자가 AI가 인간세계를 지배하는 디스토피아를 이야기한다. 하지만 그 이후로 AI는 우리의 삶에 더욱 깊게 스며들고 있다. AI가 위험한 튀김 조리를 하고 수술을 도우며 창작의 영역에서 작곡과 그림, 글을 쓰고 교통 체증을 줄이는 복잡한 문제를 해결하며 유통 및 금융 분야 등 다양한 분야에서 사람들의 삶을 향상하는 데 기여하고 있다.
▲ 2016년 알파고와의 바둑 대결에서 전략을 고심하고 있는 이세돌 9단. (출처: etoday.co.kr)
AI는 과연 어떻게 계속해서 스마트하게 진화할 수 있는 걸까? 딥러닝이나 머신러닝과 같은 AI 알고리즘 설계 및 학습방식의 개선과 같이 천재 프로그래머들의 노력이 가장 주된 원인이겠지만, 우리 주변에서 가장 쉽게 찾아볼 수 있는 활동들로 고르자면 데이터 라벨링(data labeling)이 아닐까.
서초50플러스센터에서는 올해 중장년 데이터 가공과 관련한 경력개발 및 일자리를 마련하기 위해서 야심 찬 사업을 추진하고 있다. IT 관련 일자리에 관심 있는 중장년을 위해 서초구 IT센터에서 데이터 라벨러 양성과정을 개설하여 운영 중이다. 데이터 라벨링이 무엇인지 궁금하여 현장을 찾아봤다. 그곳에서 데이터 라벨러 양성과정을 담당하고 있는 이혜민 강사와 이 사업을 주관하고 있는 송승현 PM을 함께 만났다.
Q. 데이터 라벨링 하면 조금 생소한데, 쉽게 설명해주시겠습니까?
(이혜민 강사) ‘데이터 라벨링’이란 AI 알고리즘 고도화를 위해 AI가 스스로 학습할 수 있는 형태로 데이터를 가공하는 작업을 일컫습니다. 사진이나 동영상 등에 등장하는 동물, 사물 등 모든 정보를 관리하기 용이하게 하기 위한 라벨(label)을 답니다. 라벨링 된 데이터를 입력하면 AI는 이를 바탕으로 데이터를 학습하면서 각종 정보를 인식하게 됩니다. 예를 들어 AI는 사람과 섞여서 함께 사는 애완동물인 고양이와 강아지를 “강아지네”, “고양이네”하고 사람처럼 식별해낼 수 없습니다. 그래서 여러 ‘강아지’ ‘고양이’ 데이터 하나하나에 데이터 라벨러가 '강아지' 혹은 ‘고양이’라고 라벨을 붙이면, AI는 이러한 데이터들을 학습하면서 유사한 이미지를 강아지라고 인식하게 됩니다.
Q. 명쾌한 설명이네요. 그런데 머신러닝, 딥러닝 기술과 연계하여 깊이 있는 설명도 가능할까요?
(이혜민 강사) 컴퓨터는 기본적으로 빠른 계산 능력 위주로 발달했습니다. 점차 방대한 빅데이터가 쌓이면서 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 인공지능으로 진화합니다. 머신러닝(Machine learning)은 이러한 빅데이터를 기반으로 컴퓨터가 스스로 학습하여 성능을 향상시키는 시스템을 구축하는데 초점이 맞춰진 기술입니다. 딥러닝(Deep learning)은 인간의 뉴런과 같은 인공신경망 방식으로 정보를 처리하는 알고리즘을 진화시킴으로써 예측능력을 갖춘 모델을 갖춘, 즉 생각하는 컴퓨터인 진일보한 인공지능이 등장합니다. 한마디로 컴퓨터가 사람과 같이 생각하여 각종 상황 및 문제에 대응하여 대처할 수 있도록 학습시키는 것이라고 말할 수 있죠.
아래 그림에서 보시는 바와 같이 라벨링 한 데이터를 기계학습 알고리즘에 제공하면, AI는 방대한 데이터를 학습된 모델에 의해 처리하여 예측값을 냅니다. 예를 들어, 테슬라 자율주행 자동차 마찬가지로 라벨링 한 데이터 값을 주어 머신러닝을 통해 학습된 AI가 차량에 탑재된 레이더가 시시각각 탐지하는 사람이나 동물, 차선 등 각종 데이터 정보를 예측모델 알고리즘(학습된 모델)에 의해 처리한 예측값을 산출하여 주행합니다. 계속 주행하거나 사람이 나타나면 멈춘다거나 차선을 이탈하면 운전대를 조절하여 똑바로 가는 것입니다.
Q. 아무래도 강의하는 현장을 봐야 제대로 이해할 듯합니다. 들어가 볼까요.
(이혜민 강사) 컴퓨터 화면 속에 나타나 있는 A라는 노란색 자동차와 같은 객체를 마우스를 활용하여 박스 선을 마킹합니다. 동영상을 계속 돌려서 진행되는 방향에 따라 일정 간격으로 박스선 마킹을 해줍니다. 동영상 화면에서 A라는 노란색 자동차가 사라지면, 다음은 B라는 객체의 자동차가 차선을 준수하면서 진행되는 영상 속 B를 같은 방식으로 박스선 마킹을 하면 됩니다. 만약 B가 세단이 아닌 트럭이라면 객체 B의 저장파일명은 “truck”이라고 지정한다. 이런 방식으로 10분짜리 CCTV 동영상 속에 총 30대의 차가 나타나서 움직였다면 총 30대의 차종별 움직임을 동선에 따라서 추적해가면서 박스 마킹을 하면 됩니다. 궁극적인 목적은 AI가 차선 내어서 움직이는 차량에 대해 인식도록 학습을 시키는 것입니다. 만약 이러한 차량의 움직임과 다른 방향이나 속도로 움직이는 객체가 등장하면 AI는 바로 비정상적인 흐름이라고 판단할 것입니다.
▲ 컴퓨터 화면 속 노란색 자동차에 박스 선을 형성하는 작업을 하는 수강자와 교육하는 강사. ⓒ 시민기자단 서상록 기자
Q. 데이터 라벨링은 프로젝트 성격에 따라 처리하는 업무가 천차만별일 듯합니다. 그때그때 데이터 라벨러들은 업무를 어떻게 처리합니까?
(이혜민 강사) 네. 프로젝트별로 가이드 라인이 모두 다릅니다. 그 가이드 라인을 제대로 이해 못 하거나 준수하지 않으면 안 됩니다. 그러므로 코로나 팬데믹 기간에는 대부분 재택근무로 기업들이 프로젝트를 처리하였으나, 최근에는 사무실에 출근해서 일 처리를 하도록 하는 기업이 많은 편입니다.
Q. 데이터 라벨링 말고 다른 업무영역은 없나요?
(이혜민 강사) 데이터 리뷰어가 있습니다. 가이드라인을 준수하지 못하고 데이터 처리에 오류가 있는 부분들을 검수해서 색출하고 수정하는 작업을 하는 업무입니다. 만약 위 작업에서 A라는 객체가 트럭인데 세단이라고 잘못 입력하였다면 이렇게 잘못된 입력값을 찾아내는 작업이라고 할 수 있습니다.
Q. 보수는 어떻게 되나요?
(송승현 PM) 보수는 프로젝트 건당 받습니다. 많은 시간과 집중력이 필요한 프로젝트는 좀 더 비싸고 단순한 프로젝트는 쌀 수밖에 없습니다. 하지만 사람마다 숙련도가 다르므로 같은 프로젝트라도 빠르게 처리하는 사람은 여러 프로젝트를 처리하기 때문에 시간당 보수는 더 높을 수 있습니다. 단계별로 데이터 라벨러, 그다음으로 데이터 리뷰어, 즉 검수자 레벨이 있고 다음으로는 프로젝트 매니저가 있습니다. 프로젝트 매니저는 프로젝트에 대한 가이드라인을 정하고 데이터 라벨러와 리뷰어를 지정하고 통제하는 총괄적인 임무를 수행합니다. 그리고 이러한 데이터 라벨링 활동을 교육하는 강사가 있습니다.
Q. 이 과정에 대한 전반적인 커리큘럼을 소개해 주시겠습니까?
(송승현 PM) 먼저 온라인으로 2주간의 직무교육을 진행한 후, 7월 18일부터 8월 10일까지 양성과정을 운영 중입니다. 여기에서 데이터 라벨링에 관련한 강의와 실습을 통해 모든 기술적인 내용을 습득합니다. 이후 9월 12일부터 14일까지 3일 동안 심화과정을 거쳐, 참여자를 적합한 기업의 일자리와 매칭시킵니다. 단순한 직무교육으로 끝나는 것이 아니라 데이터 라벨링 업무도 개인에 따라 난이도와 적합도, 취향 등 다양하기 때문에 최적의 경력개발과 일자리를 연계시키기 위한 과정으로 설계하였습니다.
정부는 2020년 5월 공공 및 청년일자리 창출계획, 7월 한국판 뉴딜 종합계획에서 데이터 라벨링을 위한 일자리 10만 개를 만들겠다고 밝힌 바 있다. 데이터 라벨러에 대한 전망은 4차 산업에서 AI가 차지하는 비중이 어마어마하게 높아지는 현시점에서 당연히 밝다고 할 수 있다. 올해 엔비디아의 한층 진보한 AI인 챗GPT가 광풍을 일으켰고, 얼마 전에는 네이버에서 챗GPT보다 한국어 학습량이 6,500배에 달하는 ‘하이퍼클로버’라는 AI를 선보였다. 또한, 자율주행 레벨에서 가장 선도적인 테슬라의 전기차를 비롯하여 AI는 인간의 삶에 너무 가까이 와있다. 자동차도 이제 운송수단이 아닌 삶의 한 공간으로서 인식해야 할 듯하다. 서울에서 부산까지 데려다주는 수단이 아닌, 이동하는 시간 동안 책도 읽고 글도 쓰고 여러 사람이 함께 간다면 그 안에서 워크샵도 하고, 여행을 간다면 차에서 술도 같이 마시는 날이 머지않았다는 생각이 든다.
컴퓨터를 학습시키는 일이 코딩이라면, AI를 학습시키는 일은 데이터라벨링이다. 2막 인생으로 전환하는 중장년들이 멀게만 느껴지는 컴퓨터, AI와 친해지면서 리스킬링하고 덤으로 돈도 벌어 경제적 자유를 위한 파이프라인을 구축할 수 있는 데이터라벨러라는 무척이나 매력적인 일이라는 생각이다.
시민기자단 서상록 기자(qmsssr@naver.com)