01.HR Data & Analytics

데이터 분석, 비전공자는 대체 어떻게 공부해야 하나요?

Youngchan Jo 2023. 2. 5. 20:41

https://unsplash.com/photos/-2vD8lIhdnw

데이터와 AI가 중요하다는 사실은 상식이 되었으며 관련 직종과 업무는 점점 더 각광받고 있다. 데이터 분석에 대한 지식을 학습할 수 있는 방법도 늘어났다. 주요 대학은 앞다투어 데이터 사이언스 학과와 AI 대학원을 개설하고 있으며 국비지원을 통해 무료로 교육을 받을 수 있는 프로그램도 늘어났다. '데이터 분석 전문가'라는 국가공인자격증도 인기다. 그런데 잠깐, 공부하고 자격증을 취득하면 정말 데이터 분석 업계로 입사 또는 이직이 가능한 것일까? 데이터 분석가에게 요구되는 역량은 무엇일까?

 


데이터는 여전히 뜨거운 테마다.

취업 공고에서부터 대학의 전공, 베스트셀러에 이르기까지 데이터와 데이터 분석에 대한 언급을 쉽게 찾아볼 수 있다. 팟캐스트 데이터홀릭의 재생 요청 횟수에서도 데이터에 대한 관심과 인기가 잘 드러난다. 데이터홀릭은 누구나 이름을 대면 알 수 있을 만한 유명인이 패널 중 한 명도 없지만 팟캐스트 플랫폼인 팟빵에서만 매달 3~4만 회의 높은 재생 횟수를 기록하고 있다. 청취자는 중학생에서부터 대학생 및 대학원생, 데이터 분석가, 개발자, 현업 실무자에 이르기까지 매우 다양한데, 매 방송마다 메일과 댓글로 장문의 의견과 질문을 보내온다.

 

그리고 그중에 가장 많이 언급되는 주제가 바로 "데이터 공부를 어떻게 해야 하는가?"이다. 특히 통계나 컴퓨터 공학 등의 유관 학문을 전공하지 않았거나 전문적으로 데이터 분석을 하고 있지 않은 일반 직무를 맡고 있는 청취자의 문의가 가장 많다. 데이터 공부에 대한 너무나 많은 콘텐츠와 교육프로그램이 있기 때문에 학습자는 혼란스러울 수밖에 없다. 그래서 이 글을 통해 최근 데이터 분석 업계의 상황과 비전공자가 데이터를 공부할 수 있는 방법, 데이터 분석가가 갖춰야 하는 역량에 대해서 알아보고자 한다.

 

[용어의 정의 : 데이터 사이언스와 AI]
데이터 사이언스(또는 데이터 분석)와 AI는 뗄 수 없는 밀접한 관계다. 데이터 사이언스 없이 AI가 없고, AI의 수준까지 발전하지 않는 데이터 사이언스는 공허할 수 있다. '머신러닝'이라는 교집합을 가지고 있는 이 둘을 굳이 구분하자면 데이터 사이언스는 새로운 가치를 만들기 위해 데이터를 기반으로 더 나은 의사결정을 하는 방법과 과정이며 AI는 이를 이용한 제품과 서비스라고 생각하면 크게 무리가 없다. 이 글에서는 데이터 분석 전문가 또는 도메인 분석가가 되기 위한 공부 방법에 대해 주로 다루기 때문에 AI에 대한 엄밀한 정의에 대한 논의는 생략한다.

 

데이터 분석은 점점 더 중요해지고 있다.

이제 데이터 분석은 사업의 경쟁력 확보를 위해 당연히 수행하는 행위로 여겨지고 있다. 10명 미만의 스타트업에서부터 수만 명의 직원이 근무하는 대기업에 이르기까지 데이터 분석을 사업에 적용하기 위해 노력한다. 카쉐어링 비즈니스를 하는 쏘카(SOCAR)에서는 신규 쏘카존 개발과 차량 재배치를 위한 데이터 분석과 머신러닝 모델을 개발하는 분석가를, 카카오는 고품질의 검색 서비스를 제공하기 위해 분석 전문가를 채용하고 있다. SK하이닉스는 데이터 역량을 강화하기 위해 2016년에 데이터 사이언스 전담 조직을 신설했다. 이들은 생산 현장의 데이터를 수집 및 가공하여 유의미한 결과를 도출하고 개선과제를 발굴하는 분석업무를 수행한다. 머신러닝 등의 기술을 반도체 제조업에 적합한 형태로 변환하고 적용한 알고리즘을 개발해 반도체 생산성 향상에 기여하는 것이 역시 이 조직의 역할이다.

 

데이터 분석의 적용사례가 확장되는 현상을 보았을 때, 국내 기업들은 데이터 분석의 성숙도 모델의 3단계 또는 4단계에 진입하고 있는 것으로 보인다. 데이터 분석의 성숙도 모델은 미국의 컨설팅 기관인 IDC(International Data Corporation)에서 발표한 것으로서 애드혹(Ad Hoc)에서부터 최적화(Optimized)에 이르는 5가지 단계를 제시한다. 이 모델에서 말하는 3단계(Repeatable)와 4단계(Managed)는 조직에 받아들여진 데이터 분석이 반복 수행되고 프로세스가 자리 잡으며, 데이터 분석 프로그램의 표준이 정립되고 상위 수준의 데이터 분석 전략이 수립되는 수준을 의미한다. 이처럼 데이터 분석이 성숙하는 단계에서는 분석 역량을 갖춘 사람이 점점 더 많이 필요하다. 또한 데이터 분석을 전담으로 하는 직무가 아니더라도 본인이 속한 도메인에서 데이터 분석을 할 수 있어야 한다.

 

출처 : 데이터 분석 성숙도 모델(IDC, 2013)


데이터 분석가는 여전히 부족하다.

2018년에 한국산업인력공단에서 발간한 자료에 따르면 데이터 분석 관련 전공을 졸업하는 인원은 연간 약 15,000명 수준이다. 데이터와 AI 분야가 각광받으며 2019년 서울대 컴퓨터공학과의 정시 입시 백분위는 0.13%로서 자연계열 35개 학과 중 세 번째로 높은 경쟁률을 기록했다(1위는 의학, 2위는 치의학). 미국 구인구직 플랫폼인 글라스 도어(Glassdoor)가 발표하는 미국의 최고 일자리 50개에서 데이터 사이언티스트는 2016년부터 2018년까지 3년 연속 1위를 차지했고 데이터와 AI 관련 직종의 연봉이 높다는 이야기가 여전히 심심치 않게 언론에 보도된다.

 

만약 관심을 넘어 데이터 공부를 시도해본 적이 있다면 틀림없이 관련 교육프로그램과 자격증에 대해 들어본 적이 있을 것이다. A라는 실무교육기관은 30일 만에 데이터 사이언티스트가 될 수 있다고 홍보하며 누적 수강생이 4,000명이 넘는다고 홍보한다. 특히 비전공자들도 데이터 사이언티스트로 취업할 수 있다는 것을 이 교육프로그램의 강점으로 내세운다.


자격증 시장도 활발하다. 한국산업인력공단에서 발간한 자료(빅데이터 분석기사 국가기술자격 종목 개발 연구, 2018)에 따르면 데이터 관련 민간자격증은 20개가 넘고 국가공인자격증으로서 가장 널리 알려진 국가공인 자격증인 데이터 분석 준전문가(ADsP)와 사회조사 분석사(2급)의 응시인원은 2017년에만 약 10,000명이다. 이쯤 되면 필요한 수요 대비 공급이 충분히 이뤄지고 있는 것처럼 보인다. 그런데 과연 정말 그럴까? 과학기술정보통신부와 한국데이터산업진흥원에서 발표한 자료(2018 데이터 산업 현황조사)에 따르면 데이터 직무 인력은 여전히 부족하다.

 

출처 : 2018 데이터 산업 현황조사

 

데이터 분석 관련 자격증은 어느 정도 영향을 미칠까? 앞서 언급한 자격증을 포함한 다양한 종류의 전문자격증이 있지만 우대비율은 그리 높지 않은 것으로 보인다. 특히 현업의 경험 없이 취득할 수 있는 데이터 분석 준전문가 자격증의 경우 데이터 산업과 일반산업 모두 10% 미만의 우대비율을 보인다.

 

출처 : 2018 데이터 산업 현황조사

 

왜 그런 것일까? 해당 보고서에서는 데이터 직무 인재 채용 시 발생하는 애로사항으로 '직무에 적합한 인재 확보가 어렵다.'는 응답이 35.3%로 가장 높았으며, '인재 검증방법이 불확실하다.'는 응답이 19.2%였다(전 산업 기준, 응답수 2,563명). 이러한 자료를 종합해보면 교육프로그램과 자격증은 많으나 실제 직무에 필요한 역량을 갖춘 인재는 여전히 많지 않다는 결론을 낼 수 있다.

 

출처 : 2018 데이터 산업 현황조사

 

이러한 현상은 우리나라에만 일어나고 있는 것이 아니다. 데이터 사이언티스트라는 개념이 처음 탄생한 미국에

서도 다양한 신규 교육프로그램이 개설되고 있으며 데이터 관련 직무는 여전히 최고의 일자리로 주목받고 있다. 코트라의 자료(美 4차 산업시대에 뜨는 직업, 데이터 사이언티스트의 명암)를 인용하면 다음과 같다.

 

"데이터 사이언티스트 리쿠르팅은 특정 분야에 능통한 인재를 발굴하는 시장으로 재편되고 있다. 데이터 사이언티스트 직업군은 문과 전공자도 역량과 경력을 바꿀 수 있는 분야이나, 관련 학위를 추가적으로 준비하지 않고 실무 경험을 쌓지 못한 채 구직시장에 나올 경우 취업이 쉽지 않은 분야이다."

 

"특히 최근 단기과정으로서 데이터 사이언스를 교육받을 기회가 늘었는데, 동 교육 수준은 업계에서 요구되는 역량에 미치지 못한, 단순히 통계 패키지 활용법, 기초 코딩, SQL 초급 사용법 수준으로 예상되며, 머신러닝 강의도 유행하는 툴인 Tensor Flow의 예제 연습에 그칠 가능성이 높다고 보고, 그런 교육과정으로는 데이터 사이언티스트로 취업을 하기에 부족한 감이 크다고 지적했다."

 

"미국의 데이터 과학 및 분석 전문가 채용 회사인 Burtch Works사 자료에 따르면, 데이터 사이언티스트의 학력 수준은 박사급(48%), 석사급 (43%), 학사급 (9%)이며, 전공도 수학•통계학(25%), 컴퓨터학(20%) 등이 압도적으로 차지하고, 경영, 경제 전공자는 각각 8%, 4% 수준에 불과한 것으로 조사되었다."

 

" 샌프란시스코 소재 테크 기업은 머신러닝 기술을 활용해서 초급 수준의 데이터 사이언티스트 업무를 자동화하는 프로젝트도 진행 중인 것으로 안다. 데이터 사이언티스트로서의 경력 선택에 주의할 필요가 있다."

 

 

팟캐스트 데이터 홀릭이 제안하는 데이터 공부방법

화려한 문구와 장밋빛 미래로 홍보하는 교육프로그램과 자격증의 효과는 그리 높지 않다는 것을 확인했다. 데이터 관련 학문을 전공하지 않은 비전공자라면 데이터 분야로의 취업과 이직이 쉽지 않다는 것은 명백한 사실이다. 그러나 암담해할 필요는 없다. 쉽지 않다는 것이 불가능함을 의미하지 않으며, 오히려 도메인 전문가들만이 가질 수 있는 확실한 강점이 있다. 데이터홀릭에서는 다음과 같이 공부하기를 추천한다.

 

 

첫째, 확실한 목표를 세운다.

데이터 분석을 처음 공부하는 사람들이 가장 먼저 마주치는 불편함은 공부할 내용이 너무 많다는 것이다. 특히 장기 교육프로그램일수록 콘텐츠의 종류를 빽빽이 채워 넣기 마련이다. 심지어 단일 교육프로그램에서 통계와 수학이론뿐 아니라 분산형 데이터 프레임워크인 하둡(Hadoop)에서부터 데이터베이스 관리 시스템인 SQL, 분석 언어인 R과 파이썬을 모두 커리큘럼에 포함하는 경우도 있다. 이러한 유형의 교육프로그램을 선택하면 학습에 어려움을 겪을 뿐 아니라 지치거나 중도 포기하는 사례가 많다. 학습을 완료한 경우 데이터 관련 지식을 전반적으로 습득했을 뿐, 차별적이고 경쟁력 있는 강점을 내세우기 어렵다.

 

위와 같은 상황이 발생하는 이유는 명확한 목표가 없기 때문이다. 데이터 분석에 필요한 모든 지식을 한 번에 습득하고자 하면 당연히 많을 수밖에 없다. 현업에서 활동하는 데이터 사이언티스트는 최소 4년에서 길게는 10년 가까이 관련 전공을 학습했을 뿐 아니라 다양한 분석 경험을 보유하고 있다. 몇 주 또는 몇 개월 단위의 교육프로그램으로 이러한 역량을 확보하는 것은 불가능에 가깝다. 따라서 데이터홀릭은 비전공자의 경우 데이터 사이언티스트 또는 데이터 엔지니어가 아닌 데이터 분석가를 지향해야 한다고 권한다. 데이터 분석가를 목표로 하며 직무와 산업분야를 한정하면 학습해야 하는 내용이 분명해진다. 분석해야 하는 데이터와 활용하는 범위가 구체적이기 때문이다. 예를 들어 HR 데이터 분석가를 목표로 한다면 하둡이나 SQL의 학습은 필수 사항이 아니다. 엑셀 또는 R과 같은 분석 도구를 활용하여 현업에서 필요한 분석업무 - HR 핵심지표 모니터링, 퇴직 예측, 리더십 평가 등- 를 수행할 수 있다면 그것으로 충분하다.

 

목표를 확실하게 세우고 나면 필요한 콘텐츠를 선택할 수 있다. 충분한 시간을 들여 깊이 있게 학습하는 한편 다양한 경험을 보유하고 있는 동료와의 커뮤니케이션과 네트워킹도 추구한다면 석사학위를 선택하는 것이 가장 바람직하나 시간과 비용에 여유가 없다면 다른 대안도 많다. 실무교육기관에서 다양한 온라인 또는 오프라인 교육프로그램을 제공하고 있으며 코세라, 데이터 캠프, 유튜브 등에서도 좋은 콘텐츠를 쉽게 찾아볼 수 있다. 커리큘럼을 검토할 때에는 프로그램의 목표가 명확한지를 중점적으로 살펴보자. 좋은 교육프로그램일수록 학습을 완료한 뒤 습득하게 되는 분석 역량을 매우 구체적으로 제시하고 있다. 어떠한 직무와 산업분야를 선택하든 가장 중요한 필수 지식은 통계다. 평균, 편차, 정규분포, 모집단과 표본과 같은 기초적인 개념에서부터 상관분석과 회귀, 가설검정은 확실히 학습해야 데이터의 수집에서 분석, 결과 해석에 이르는 절차를 정확하게 수행할 수 있다.

 
[용어의 정의 : 데이터 사이언티스트 vs. 데이터 엔지니어 vs. 데이터 분석가]
1. 데이터 사이언티스트
- 역할 : 통계 이론과 머신러닝 등에 대한 이론 전문성 기반의 분석 모델 개발 및 제시
- 필요 기술 : 통계, 수학, 머신러닝 및 R 또는 Python과 같은 프로그래밍 언어
- 전공 : 수학, 경제, 컴퓨터 과학, 물리 등

2. 데이터 엔지니어
- 역할 : 대용량 데이터의 수집/유지/관리, 또는 이를 위한 소프트웨어 개발과 시스템 구축
- 필요 기술 : 데이터 저장소 및 하우징 솔루션(SQL 및 NoSQL 기반), Hadoop 및 Spark와 같은 프로그래밍 프레임워크
- 전공 : 컴퓨터 과학, 공학 등

3. 데이터 분석가
- 역할 : 문제를 정의하고 데이터를 탐색하며 보고서 및 시각화를 활용하여 데이터 분석의 결과에서 도출된 인사이트를 활용하여 비즈니스 문제 해결
- 필요 기술 : 통계 프로그램(R, SASS, SPSS, STATA 등)
- 전공 : 경영, 경제, 통계

 

둘째, 적합한 분석 도구를 선택한다.

데이터홀릭의 청취자들이 가장 많이 문의하는 것 중 하나가 바로 어떤 도구를 학습해야 하는가이다. 특히 파이썬(Python)과 R 중 어떠한 도구를 선택하여 공부하는 것이 좋은가에 대한 문의가 많다. 그렇다면 데이터 분석에서 가장 많이 사용되고 있는 언어는 무엇일까? AI, 머신러닝, 데이터 과학 등에 대한 교육과 콘텐츠를 공급하는 KDnuggets은 1997년 2월 설립되어 현재 26만 명 이상의 가입자를 보유하고 있다. KDnuggets에서는 매년 설문조사를 실시하여 데이터 과학, 머신러닝에 가장 많이 사용하고 있는 프로그래밍 언어의 순위를 공개한다.  

 

KDnuggets Analytics/Data Science 2019 Software Poll: top tools in 2019, and their share in the 2017,

 

Table 1: Top Analytics/Data Science/ML Software in 2019 KDnuggets Poll

 

여기에서 흥미 있게 볼 수 있는 부분은 래피드 마이너(RapidMiner)의 강세이다. 래피드 마이너는 2001년에 개발된 데이터 분석 소프트웨어로서 데이터 전처리, 머신러닝, 딥러닝, 텍스트 마이닝 등의 기능을 제공한다. 특히 GUI(Graphic User Interface)를 제공하여 데이터 분석을 손쉽게 할 수 있다는 것이 강점이다. 그러나 국내에는 잘 알려지지 않은 언어이다. 그러나 이 자료를 보고 래피드 마이너 공부를 시작할 필요는 없다. 각 언어별로 강점이 있고 한계도 명확하지만 가장 중요한 것은 본인이 잘 쓸 수 있어야 한다. 이미 엑셀 VBA로 프로그래밍까지 가능한 사람이 굳이 R로 시작할 필요가 없고, 스크립트 언어가 잘 맞는 사람이 굳이 래피드 마이너를 배울 필요가 없다. 파이썬도 마찬가지다. 다양한 언어를 빠르게 조금씩 경험해보고 분석해야 하는 데이터를 가장 적합하면서도 손에 잘 익힐 수 있는 언어를 선택하는 것이 좋다. 결국 중요한 것은 어떠한 도구를 사용하는가가 아니라 실제로 분석을 할 수 있는 역량을 갖추고 있느냐이기 때문이다.

 

셋째, 도메인이 가장 중요하다.

데이터 분석에 있어 가장 중요한 것은 문제의 정의와 결과의 해석이다. 아무리 뛰어난 데이터 사이언티스트라도 도메인 전문가의 지식과 경험을 능가할 수 없다. 데이터 비전공자의 강점은 본인만의 도메인 전공이 있다는 것이다. 마케팅, 세일즈, HR, 구매, 재무 등의 도메인 전문성을 기반으로 데이터 분석 역량을 갖추는 것이 가장 중요하다. 포브스(Forbes)에 기고된 데이터 분석가에게 필요한 7가지 스킬을 살펴보면 데이터 분석가가 해야 하는 일이 분석이 전부가 아님을 알 수 있다.

 

[데이터 분석가에게 필요한 7가지 스킬]
1. 비즈니스 감각
2. 데이터 분석 기술
3. 커뮤니케이션
4. 이해관계자 관리
5. 비판적 사고
6. 프레젠테이션
7. 데이터 시각화

 

현실에서의 데이터 분석은 사업의 전략과 밀접하게 연결되어야 하고 분석 절차를 수행하며 끊임없이 구성원 및 이해관계자와 커뮤니케이션해야 한다. 분석 결과를 시각화하여 효과적으로 전달하는 것 역시 데이터 분석가의 역할이다. 이러한 모든 일련의 절차에 도메인 전문성이 필수적으로 요구된다.

 

데이터 분석 프로젝트는 대개 한 명의 개인이 아닌 다수의 팀 또는 조직단위에서 수행하기 때문에 어렵고 복잡한 통계분석과 고급 프로그래밍은 데이터 사이언티스트와 데이터 엔지니어의 도움을 받을 수 있다. 그러나 문제를 정의하고 결과를 해석하며, 해석한 결과를 기반으로 현장에 적용하여 새로운 가치를 만들어내는 일은 도메인 전문성을 지닌 데이터 분석가의 손에 달려있다.

 

가장 중요한 것은 '목표'다.

데이터 공부에는 정답이 없다. 특히 유관 학문을 전공하지 않은 비전공자에게는 더욱 그렇다. 가장 중요한 것은 나의 목표다. 단 한 번의 수강으로 목표를 이뤄줄 절대적인 강의는 없다는 것을 인지하고 무리한 비용과 일정의 학습 콘텐츠는 되도록이면 피하자. 오히려 작은 데이터 분석 과제를 빠르게 시도하고 시행착오를 해내가며 경험을 쌓는 것이 중요하다. 함께하는 동료가 있으면 더욱 좋다. 데이터 분석은 협업을 통해 더 뛰어난 성과를 만들 수 있는 분야이기 때문이다.

 

앞으로는 데이터 분석, 머신러닝, AI모델링이 자동화될 것이라고 예견하는 전문가가 많다. 복잡한 분석과 프로그래밍은 컴퓨터와 AI가 대신해 줄 것이다. 그렇기 때문에 도메인 전문성이 더욱더 중요해진다. 데이터 분석이 중요한 역량임은 맞지만 그보다 더 중요한 것은 우리가 몸담고 있는 직무, 도메인, 산업이다. 이를 잊지 않고 준비한다면 더 큰 기회가 다가올 것이.