‘데이터 라벨러 도전하기’ 강좌 스케치
▲ '데이터 라벨러 도전하기' 강좌가 진행되는 북부캠퍼스 컴퓨터실 ⓒ 시민기자단 유한진 기자
지난 2023년 7월 11일(화), 서울시50플러스 북부캠퍼스 컴퓨터실에서는 '데이터 라벨러 도전하기' 강좌가 시작되었습니다.
본 강좌는 매주 화요일 오후 2시부터 3시간씩 총 8회 차의 강의로 구성되어, 데이터 라벨링의 기초 이론부터 데이터 수집 및 가공 기법을 배우고 실습까지 체험해 보는 과정으로, 인공지능이나 빅데이터 분야에 관심이 있거나 데이터 라벨링이라는 4차 산업시대의 활동으로 부가 수입을 창출하고자 하는 분들에게 추천드리고 싶은 강좌입니다.
데이터 라벨링 그리고 데이터 라벨러란 무엇인가?
데이터 라벨러란 사람들이 사용하는 문서나 사진 등의 데이터를 인공지능(AI)이 스스로 학습할 수 있는 형태로 데이터를 가공하는작업으로 수입을 창출하는 사람을 일컫습니다.
인공지능은 사람이 보는 것과 다른 방식으로 세상을 보기 때문에 인공지능이 스스로 학습하기 위해서는 그 데이터도 우리가 보는 이미지나 영상과 다르게 인공지능이 볼 수 있는 형태로 바꿔주는 작업이 필수적이며, 그 작업을 수행하는 것을 데이터 라벨링(이하 라벨링)이라고 하며 그 작업을 수행하는 사람을 데이터 라벨러(이하 라벨러)라고 합니다.
▲ 데이터 라벨링 기법을 설명하는 강사님 ⓒ 시민기자단 유한진 기자
4차 산업시대, 많은 분야에서 인공지능의 활용이 필수로 자리 잡고 있는데, 인공지능은 라벨링 데이터를 바탕으로 개발하게 됩니다.
즉, 데이터가 있어야만 그 데이터를 활용하여 인공지능을 개발하고, 그 개발된 인공지능을 원하는 분야에 적용할 수 있게 되는 것입니다.
그러므로 인공지능이 도입되기 위해서는 라벨링이 필수적이며, 인공지능의 성능은 데이터의 품질로 결정되기 때문에 라벨러가 인공지능의 성능을 좌우한다고 해고 과언이 아닙니다.
좋은 양질의 데이터로 학습한 인공지능이 더 빠르게 더 좋은 성능을 낼 수 있기 때문에 인공지능이 학습하는 데이터를 다루는 라벨링 과정과 그 과정을 수행하는 라벨러의 역할은 인공지능 개발에 매우 중요합니다.
라벨링이 매우 중요한 작업임에 비해서 라벨러는 크게 높은 수준의 기술력이나 역량을 요구하지는 않습니다.
컴퓨터와 스마트폰을 배우고 사용할 수 있는 누구나 데이터 라벨러가 될 수 있다는 점이 큰 장점이므로 취업 준비생, 경력 단절자, 정년퇴직자 뿐만 아니라 장애인이나 사회적 약자 계층 또한 라벨러로 활동할 수 있습니다.
실제로 인공지능 학습용 데이터 구축과 같은 대규모 라벨링 사업에는 다양한 분야와 계층의 사람들이 라벨러로 활약하고 있습니다.
인공지능이란 무엇이며 어디에 활용되는가?
데이터 라벨러로 활동하기 위해서는 먼저 그 궁극의 목적지인 인공지능에 대한 이해가 선행되어야 한다고 강사님은 강조합니다.
인공지능이란 인간이 가지고 있는 학습, 추리, 적응, 논증 따위의 기능을 갖춘 기계인 컴퓨터 시스템으로 복잡하고 방대한 자료인 빅데이터와 기계 스스로 학습을 통해 배우는 머신러닝 그리고 인간의 신경계를 모방한 인공신경망 기술의 결합체입니다.
개발자는 인공지능 활용 목적에 부합하는 데이터를 수집하고 가공하여 머신러닝 학습 과정을 거쳐 인공지능 모델의 효과를 검증합니다.
데이터 라벨러에게 필요한 일에 대한 이해
데이터 라벨러는 인공지능 개발 과정에 대한 이해가 필요합니다.
인공지능이 어떤 단계를 거쳐 개발되는지 그 과정을 이해함으로써 라벨링이 가지는 중요성을 알게 되고 일에 성취감을 느낄 수 있습니다.
라벨러는 프로젝트에 대한 이해가 필수입니다.
인공지능 각 프로젝트마다 라벨링을 어떻게 적용할지를 결정하게 됩니다.
프로젝트 단위로 라벨링의 종류와 방법이 결정되기 때문에, 그 프로젝트가 어떤 인공지능 개발과 연관되는지, 프로젝트에 대한 충분한 이해를 기반으로 데이터 라벨링에 참여하는 것이 데이터 라벨러의 기본자세입니다.
프로젝트의 목적을 숙지하고, 데이터 라벨링 수행의 의미를 이해함으로, 데이터 라벨러 모두가 동일한 지향점을 갖고 책임감 있게 일할 수 있습니다.
데이터 라벨러는 라벨링 가이드라인에 대한 이해가 필요합니다.
각 프로젝트마다 가이드라인이 존재하는데, 이는 고품질의 라벨링 데이터를 생산하기 위한 작업 매뉴얼로, 어떻게 해야 하고, 무엇이 중요하며, 또 어떤 부분에 주의해야 하는지 등의 내용들을 담고 있습니다.
그러므로 각 프로젝트의 가이드라인을 이해하고 있어야만 효율적인 업무 진행 및 품질 유지가 가능하게 됩니다.
데이터 라벨러는 정교한 데이터 라밸링 작업을 수행해야 합니다.
대부분 컴퓨터나 스마트폰을 활용하여 수작업으로 이루어지는 라벨링 데이터가 인공지능의 성능에 영향을 줄 수 있는 만큼 가이드라인의 충분한 이해를 바탕으로 정교하게 데이터 라벨링 작업을 수행해야 합니다.
취재를 마치며......
▲ 데이터 라벨링 실습에 열중하는 수강생들 ⓒ 시민기자단 유한진 기자
이번 취재를 통하여 그동안 말로만 듣던 4차 산업시대의 수입창출 활동인 데이터 라벨러에 대해 작게나마 감을 잡을 수 있었습니다.
아울러 본 강좌에 참여하여 애써 배우고 노력하는 4050세대 수강생들에게서 새로운 것에 도전하는 열정을 느낄 수 있었습니다.
자신의 마음이 끌리는 새로운 분야에 과감하게 도전하여 또다시 배우고, 그 배움을 일로 이어가려는 적극적이고 긍정적인 삶의 자세가 서울시50플러스재단의 설립 취지와도 부합하는 모습이 아닐까 하는 생각을 하게 됩니다.
본 강좌에 참여하여 데이터 라벨링을 배우는 모든 수강생들이 프로그램을 잘 마무리하여 유종의 미를 거두고, 이를 발판으로 유능한 데이터 라벨러로 성장하며, 더 나아가 각자가 꿈꾸는 높은 곳에 다다를 수 있기를 응원합니다.
시민기자단 유한진 기자(sericolor@naver.com)