프로젝트/외부 공모전 & 프로젝트

<2023 부산 데이터 활용 부산 관광 아이디어 공모전> 에 참여하면서

에멜라 2023. 2. 10. 22:51

 

개인적으로 준비해본 첫 공모전.

<2023 부산 데이터 활용 부산 관광 아이디어 공모전> 을

지원하면서 했던 고민과정들과 느꼈던 점들에 대해 기록해 보려고 한다.

 

공모기간 : 1월 11일 ~ 2월 9일
준비기간 : 1월 22일 ~ 1월 31일 (개인 참여 준비)
                  2월 1일 ~ 2월 9일 (팀 참여 준비)       (총  2-3주)
조       원 : 3명
참여분야 : 기획, 데이터 분석, 시각화

 

 

 


<2023 부산 데이터 활용 부산 관광 아이디어 공모전> 은 부산광역시와 부산관광공사에서 주관하는 부산 관광 활성화를 위한 데이터 분석 아이디어 공모전이다. 정확한 공모 내용은

 

부산광역시와 부산관광공사는 부산 관광데이터를 활용한 부산관광 활성화 방안 아이디어 발굴을 통한 부산 관광데이터 수요 발굴 및 맞춤형 데이터 지원을 추진

 

> 크게 부산관광 활성화 아이디어 + 부산 관광데이터 분석 방안 두 가지가 메인으로 보였다.

 

 

원래는 혼자 프로젝트를 하나 진행해보고 싶어 혼자 시작해봤는데, 처음 준비부터 힘든 부분이 많았다.

관광 아이디어가 먼저인가 부산관광 데이터를 구하는게 먼저인가, 빅리더 프로젝트에서 깨지면서 그렇게 기획이 먼저다 why 부터 찾아야 한다 배웠지만 막상 실전 문제에 부딛히고 데이터도 정해진 게 없다보니 당황한것 같다.

 

 

목차
0. 공모전을 처음 시작하면서
1. 첫 기획 회의
2. 주제 관련 조사 및 데이터 수집
3. SNS 크롤링 & 형태소 분석
  +  추가적으로 하고싶었던 분석들
4. 시각화 & 프로토타입
5. 최종 기획서 작성
6. 최종 후기 및 느낀점

 

 

 


 

 

0. 공모전을 처음 시작하면서

 

사실 프로젝트를 하면서 느끼지만 초반에는 당장 데이터도 없고, 그렇다고 도메인 지식이 뛰어나 아이디어가 샘솟는 것도 아니니 당장 뭐부터 해야할지 막막하게만 느껴지는 것 같다. 

 

어떻게든 프로젝트를 몇개 해 나가다 보니, 지금까지 어느정도 생각이 정리가 됐고 나중에도 동일한 고민에 시간낭비나 하게 될까봐 어느정도 개인적인 기준을 세워보려고 한다.

 

1. 공모전의 목적 파악
     1-1. 공모전 주최 사이트, 주체기관, 제공 데이터 목록 파악
     1-2. 공모전은 그 주제 뿐 아니라 사실 데이터 제공처에 대한 홍보 목적도 있다

2. 도메인 지식을 쌓기
     2-1. 논문, 기사, 공공기관 연구보고서 등
     2-2. 아직 주제가 정해진 것이 아니므로 주제에 대한 이해를 중심으로

3. 도메인에 대한 현황 및 문제점, 개선점 파악
     3-1. 주로 관련 연구보고서 등에 제일 많이나옴 
     3-2. 설문조사 자료 활용

4. 나만의 솔루션 만들기 (아이디어 스케치)

5. 솔루션 구체화 
     5-1. 아이디어 배경,
     5-2. 개요
     5-3. 대략적인 PoC (아이디어를 확실히 구체화하는 느낌으로)
     5-4. 필요데이터 정리

6. 솔루션에 대한 근거 찾기 & 데이터 찾기 & EDA 
     6-0. (솔루션에 문제가 파악되면 다시 4번으로 돌아가기)
     6-1. 시각화 활용도구 : Tableau, 구글 데이터 스튜디오, plotly, ggplot 등등

7. 실제 데이터 분석을 통해 근거 확보 or 샘플 데이터를 모델에 적합한 후 평가

8. 기획서 작성
     8-1. 전략적 기획서 설계
          1) Why - What (as_is, to_be) - How 순의 설계
          2) 읽는 사람을 고려한 명확한 문제제시 (1-2 링크 참조)
          3) 우리 기획에 대한 당위성, 지속가능성, 실현 가능한 명확한 수치적 예측치
          4) 디자인 (예쁜 시각화, 기획서 문단, 문장 길이 등)

9. 최종적인 결과물에 대한 프로토타입 제작
     9-1. 활용 사이트 
             1) 미리캔버스
             2) 플랫티콘

9. 한계점 및 개선점 파악

 

아무튼 돌아와서 그렇게 막막함에 한참을 아이디어 구상만 이어가다가, 우연히 에브리타임 공모전 탭에서 팀원 모집글을 보게 되었고 처음 팀원 한명을 구하게 되면서 본격적으로 공모전 준비에 박차를 가하게 되었다.

 

 


 

1. 첫 기획 회의

 

팀원이 구해지고 나서 첫 회의일정을 잡고, 나는 가장 처음 두가지를 준비했다.

 

1) 부산여행 트렌드 분석

2) 부산여행 활성화 아이디어

 

먼저 부산여행 트렌드 분석은 이제껏 조사해온 코로나 이후 관광트렌드 분석자료, 부산 관광 관련 논문 정리, 한국 관광데이터 랩에서 구한 부산 관광 트렌드를 정리해 준비하였다. 

 

사실 조별 프로젝트를 몇번 해보면 알겠지만 개인이 하는일이 워낙 많다. 반대로 말하면 남이 해온 내용에 대해 열씸히 시간 투자해 가면서 보는 사람은 별로 없다. 내가 아무리 열씸히 조사하더라도 상대가 안 읽으면 말짱 꽝이다. 그렇기 때문에 항상 본인이 조사한 내용에 대해서는 명확한 책임을 가지고 조사하고 (자료에 대한 의문이 생길 시 해결해 줄 수 있는것도 본인 뿐이다), 상대에겐 최대한 중요한 부분만을 요약하여 건네주는 노력이 필요하다.

 

 

두번째로 부산 여행 활성화 아이디어는 크게

 

1. 아이디어 주제 (한줄로 정리)

2. 소제목, 가제

3. 아이디어 배경

4. 아이디어 개요

 

이런식으로 준비를 했고, 몇몇 구체화까지 되지는 않은 아이디어들도 기록은 해 뒀던것 같다.

ex) 겨울 관광을 떠나는 관광층을 수용할 만한 관광 컨텐츠

(전국적으로 많은 국내 여행수요가 있는 1-2월, 그러나 평년 대비 오히려 관광객이 감소하는 부산 관광객 월별 유입 추이, 이를 타개할 만한 새로운 관광컨텐츠 개발의 필요성)

 

 

회의 과정에서 지금까지 조사했던 내용에 대한 발표, 아이디어에 대한 공유, 최종적인 주제 선정, 협업 시스템 확보(노션), 필요데이터 선정 및 임무분배 등을 거치며 첫 회의를 마무리했다.

 

 

<첫 기획때 열었던 노션 팀스페이스, 무료버전 내에서 닳고 닳도록 썼다>

 

 

 


 

2. 주제 관련 조사 및 데이터 수집

 

주제가 명확히 정해지고 새롭게 데이터 조사를 시작했다.

우리 주제의 경우 사실 키워드가 명확했는데 (트레킹 + ESG) 조사과정에서 생각 외로 문제가 많이 생겼다.

 

대략적으로 정리해 보면,

 

1. 이미 존재하는 아이디어(강원 ESG 불착 트레킹)

2. 아이디어에 대한 부정적인 근거자료 (우리 주 타겟인 MZ세대의 실제 트레킹 관광 참여 저조)

3. 트레킹 관련 조사기관, 관련 데이터 자료가 많지 않음

4. 수집된 데이터에 대한 활용방안이 마땅치 않음

 

1-2 번은 사실 굉장히 프로젝트에 있어 타격이 크다. 우리 아이디어가 당장 실패할 만한 충분한 근거가 있다는 게 되는거니까. 그러나 실제로 프로젝트에서 마주치는 수많은 문제상황 중에 필수적으로 마주치는 상황중 하나가 아닐까 싶다.

 

 

아이디어를 내는 단계에서는 도메인에 대한 지식이 부족하기 때문에 참신한 방법이 떠오를 수도 있다는 장점도 있지만, 반대로 생각해보면 아이디어 퀼리티가 그렇게 좋을 수가 없다. 그렇기 때문에 본격적으로 자료를 모으다 보면 자신이 낸 아이디어가 실제로는 쓸모없는 아이디어일 수도 있고, 여러 실패 선례들이 이 아이디어의 실패를 반증할 수도 있다.

 


 

이런 상황에서 우리는 어떻게 해쳐나가야 하나... 음... 빅리더 프로젝트때는, 교수님이 그냥 다 갈아엎으라고 했던것 같은데..

 

산을 잘못 올라가고 있다면, 미련없이 하산하고 다시 꼭대기로 향해라

 

빅리더 프로젝트 당시 담당 교수님이 하신 말씀인데, 사실,,, 백번 옳은 말씀이다.

우리가 하는 게 실무에서 전혀 쓸모없다고 생각되면 미련없이 하산하고 새로 오를 정상을 찾는것이 맞지...

 

그러나 '인생이란게 사실 정답이란게 어디 있나' 란 생각도 든다. 한번쯤 내가 오르는 산이 정답이 아니더라도 우겨야 될 때도 있고, 맞다고 생각하면 미련하고 우직하게 올라갈 줄도 알아야 된다고 생각한다. 다만, 고집부릴거면 적어도 누구보다 열씸히 공부하고 알아야 한다고 생각한다. 그래야 심사 위원들, 아니 당장 같이 하는 팀원들에 있어서 자신의 의견을 적극적으로 어필하고 설득할 만한 근거가 생긴다. 그게 안된다면 아무리 본인 의견이 맞다고 생각되더라도 고집을 꺾는 것이 맞는것 같다. (사실 본인 경험이다, 고집을 남이 꺾어버리기 전에 받아들이자)

 

 

 

실제로 우리가 제안한 트레킹 솔루션의 주 타겟인 20-30대 층의 실제 트레킹 관련 관광 참여도가 매우 낮다는 부정적인 분석결과가 많이 나왔지만, 사실 자료중에 이를 반박할 수 있는 근거도 존재했다.

 

트레킹 선호도 분석 보고서에서 20-30대 설문조사 결과 트레킹 및 산행 선호도 및 잠재 참여 의도가 60% 이상으로 조사됐는데, 이는 2030세대에게 트래킹이 실제로 인기가 없다는 것이 아닌, 참여잠재수요는 있으나 현재 그 수요를 실제 행동으로 옮기게 만들 만큼 좋은 방안이 현재는 없다는 것으로도 볼 수 있다.

 

우리는 이러한 보고서 내용을 근거로 하여 우리 아이디어에 대한 실현가능성을 부각하자고 했고, 우리의 해결방안의 실현 가능성과 실현 시 얻을 수 있는 수익 및 예측성과를 같이 제시함으로서 통해 우리의 논리를 더욱 설득력 있게 하고자 했다.

 

 

<기획서에 근거 한줄이라도 더 추가하기 위해 닥치는 대로 수집했던 자료들 ^^;>

 

 


 

 

3. SNS 크롤링 & 형태소 분석

 

개인적으로 야심차게 준비한 크롤링.

 

데이터 분석에 있어 가장 힘든게 사실 관련 데이터 부족이라고 생각한다.

캐글, 데이터 분석 예제들 등의 문제들과 현실문제 사이의 가장 다른점은, 문제에 정확히 부합한 데이터와 모델이 기존에 준비되어 있나 없나 라고 생각한다.

 

프로젝트나 공모전의 경우 기획 단계에서 솔루션이 매우 좋고 관련 데이터 수집 방안도 잘 설정해 놓더라도, 막상 찾고 보면 원하는 데이터가 없는 경우도 많고, 때로는 솔루션에만 치우쳐 얻을 수도 없는 데이터를 분석하겠다는 뜬구름만 잡는 기획서가 나올 수도 있다.

 

 

특히 우리 주제였던 트레킹 관련 데이터의 경우 데이터 수집 및 분석기관이 '걷고 싶은 부산', '한국 등산 트레킹 지원센터' 뿐이고, 그마저도 설문 데이터, 트레킹 코스 환경 실태, 코스 데이터 밖에 없기 때문에 분석 관련 데이터가 매우 부족했다.

 

그렇기 때문에 기획 초기부터 나는 양질의 데이터 확보를 위해 sns 크롤러를 통한 워드분석을 미리 준비해 왔고, 인스타그램 sns 내용을 긁어와 조사에 활용하고자 했다. 

 

 

 


 

<전처리 단계>

 

전처리가 사실 굉장히 많은 시간이 들었다.

  • 인스타그램 데이터를 그대로 가져온 것이기 때문에  본문에 섞여있는 이모티콘들을 어떻게 처리할 것인지.
  • 특정 본문 내에서 반복되는 단체명, 특정 개인이 반복적으로 사용하는 반복 수식어 등을 어떻게 처리할 것인지.
  • 형태소 분석기를 어떤걸 사용할 것인지. (한글 형태소 분석기의 경우에 대부분의 분석기가 완벽하게 분리 불가)
  • 형태소 분석기가 서로 다르게 분리한 동일한 단어를 어떻게 처리할 것인가 (ex. '해운대', '해운대해수욕장', '해운대항')
  • 불용어 선정 및 처리
  • 데이터 양 부족(한번에 검색되는 데이터 양에 한계가 존재)

이런 부분들을 현실적으로 같이 의논할 사람도 없었고, 잘 알고 있는 분야가 아니다 보니 내가 현실적으로 어느 정도까지 데이터를 활용 가능한지, 시간적 여유가 되는지 알 방법이 없었다.

 

이러한 한계를 극복하기 위해 사실 개인적인 시간을 엄청 쏟았고, 수집된 데이터가 그렇게 많은것이 아니었기 때문에 일일이 단어 원문과 문맥을 파악하면서 문제에 대한 조금 더 객관적인 해결책을 하나하나 찾아갔던 것 같다.

 

  • 이모티콘 처리  ⇒  encode, decode 메서드를 통해 'cp949'로 인코딩 되지 않는 이모티콘 모두 제거, 이를 함수 remove_emoji 로 정의하고, apply를 통해 dataframe 전체 적용
  •  본문 하나에 반복되는 언어 ⇒ 본문 하나당 한 관광지를 방문했다고 가정(본문 문맥 파악)하고 한 본문에 같은 단어는 한번만 추출되도록 처리 (set), 특정 단체명, 관련없는 개인적인 해시태그는 불용어 처리
  • 형태소 분석기 ⇒ 기존에 사용하던 RhinoMorph 라이브러리가 왜 안되는지 모르겠음.  Konlpy 사용. 'Noun'(명사), 'Adjective'(형용사) 만 수집 후 사용
  • 서로 다른 동일 단어 ⇒ find 등의 기본 함수를 통해 처리하려고 했으나 실패, 키워드 분석때 동일 단어로 취급 후 분석
  • 불용어 선정 및 처리 ⇒ 개인적인 표현 또는 반복되는 모집글로 인해 '남', '여' 등의 의미있어 보이는 단어가 사실 전혀 의미없는 키워드인 경우도 많았음. 문맥 파악시 의미없이 사용된 단어는 모두 키워드에서 제외
  • 데이터 양 부족 ⇒ 인스타그램 분석 코드를 완성하고 더 수집하려고 했으나 크롤링을 돌려놓을 시간적 여유가 없어 불가

 

 

<단어 등장 빈도 분석>

 

1) WordCloud 

통계에서 선호되는 분석방법은 아니지만(크기 기반 그래프는는 비슷한 값의 데이터끼리 대소관계 비교가 힘듬), 비통계 심사위원들에게 보여주기에 확실하게 분석결과를 보여줄 수 있는 수단이라고 생각해 wordcloud로 시각화 하였다.

 

2) counter 함수를 활용한 키워드 등장 빈도 분석

타겟 대상이였던 mz세대의 트레킹 관련 키워드를 직관적으로 구해볼 수 있었다. 특히 관련 키워드로 많이 수집된

'데이트, 카페 , 옛길, 여행, 도심, 자연, 체험, 전시회, 야경, ... ' 등의 키워드는, 우리가 주장했던 mz세대가 트레킹 말고도 다양한 요소의 컨텐츠들을 즐기므로 같이 추천해주자는 아이디어에 매우 부합한 키워드라고 생각됐다. 

 

<'부산 트레킹' 관련 키워드 빈도 분석>

 

 

<감정 사전 분석>

 

시간 상, 그리고 데이터 수집 모집단 마다 긍부정 단어가 차이가 있을 수 있으므로, 외부의 단어사전을 그대로 가져오기 보다는 직접적으로 문맥을 파악해 보면서 긍부정 단어를 파악해 분류하였다.

 

sns의 특성상 불만사항이나 불편사항등 부정적 키워드 사용은 적었으며, 난이도라는 단어는 생각보다 복합적으로 사용되었음을 확인할 수 있었다.

 

좋은 32 조화 28 향기 18 좋아요 13 즐거운 7 좋았던 6 매력 6 좋다 6 완벽 6 아름다운 5 나름 2 활성화 2 ⇒ 긍정, 121개
난이도 6 ⇒ 혼합, 6개
스트레스 18 힘들었지만 4 경사 4 ⇒ 부정, 26개

 

 

<방문 형태>

 

모임 182 동호회 178 고마워 3 멤버 3 원정 3 ⇒ 총 369

직장인, 동생, 친구 8 청소년 6

혼자 12, 홀로 4 ⇒ 총 16

 

방문형태 분석 결과 트레킹 관련해 모임 또는 지인과 함께 트레킹을 즐기는 사람들이 많은 것으로 파악되었다.

재밌었던 것은 '한국 등산 트레킹 지원센터' 에서 조사한 보고서의 설문조사의 경우, 많은 사람들이 '홀로 트레킹을 떠날 계획' 을 가장 많이 선택한 반면, sns 크롤링 분석 결과 실제로는 많은 사람들이 단체로 트레킹을 떠나는 경우가 많다는 점이 있다.

 

이는 sns를 사용하는 방문객 특성일 수도 있고, 설문조사라는 특수한 상황에서 개입된 조사오차일 수도 있다고 파악된다.

반대로 sns를 이용한 마케팅 이벤트는, 단체 트레킹 관광을 유도하는 방향으로 실행하는 것이 유리하다는 결론을 유추해 볼 수도 있을 것이다.

 

 

 

<유입 경로>

 

캠페인, 스탬프 15 프로젝트 9 프로그램 6 참여 6 네이버 5 블로그 2 리뷰 2

등린 41 처음 8 첫 6 초보 5 ⇒ 총 60

 

주제에 대해 조사하면서, 부산시 내에서 갈맷길 트레킹 활성화를 위해 여러가지로 노력했다는 것을 많이 알 수 있었는데, 대표적인 세가지가 'sns 부산 갈맷길 트레킹 캠페인', '갈맷길 완주 스탬프 인증 및 기념품 증정', '갈맷길 사이트 및 어플'이라고 생각한다.

 

이러한 노력들이 sns 상에서도 실제로 드러난 것이 어느정도 유의미하다고 생각되나, 이는 트레킹 sns 광고 피드등도 같이 수집됐을 가능성, 그리고 등장한 단어빈도가 상대적으로 낮은 점 등에서 이런 방안들이 실제로 관광 유도에 유의미했는지를 따졌을 때 애매한 면이 있다고 생각된다.  

 

 

+++

 

<추가적으로 하고싶었던 분석들>

 

사실 시간적 제한으로 인해 자연어 분석의 가장 기초적 방법론인 BoW (Bag of Words) 만을 가지고 분석을 진행하였다. 

쉽게 말해, 문장의 문맥이나 어순의 고려 없이 단어의 빈도분석 만으로 의미를 도출해야 했음을 뜻한다. 물론 BoW 만으로도 유의미한 분석이 가능하고, 많은 데이터를 수집하지 않아 일부 수작업을 통해 어느정도 신뢰성을 높이고자 했다.

 

그러나 이것 외에도 시도하고자 했던 여러가지 아이디어들과 이를 실현시킬 방법론들을 고민하고 구체화 했으나 실제로 시도해보지 못했던 것이 너무 많았고, 이런 부분들이 너무 아쉬웠다.

 

시간이 충분했다면 다음과 같은 분석을 시도해 봤으면 했고, 개인적으로도 도움이 많이 될것이라 생각했다.

 

 

 

1. Word2Vec 을 통한 관광지 간 유사도 분석

 

우리 기획의 메인 컨텐츠 중 하나였던 여행코스 추천 기능을 위해서 관광지별 유사도를 분석하고자 했다.

 

추천 기능을 활용하고자 하는 방향성은 크게 두가지였는데, 첫번째는 관광객의 여행 패턴(ex. '여행관광지-카페-식사-야경-숙소' 로 이어지는 코스 패턴 등)을 파악한 후 관광지 간 유사도 계산을 병행하여 각 개인에 맞춘 최적의 추천코스를 제공하는 기능, 두번째로 관광지와 관련된 키워드를 분석하여 이를 관광지 관련 주요태그로 만들고 여행자가 희망하는 관광태그를 선택시 가장 유사한 관광지 위주로 추천해주는 기능이였다.

 

기획 당시엔 최적 코스 제공은 초기 아이디어 수집 당시 개인적으로 떠올렸던 아이디어였고, 관광태그를 통한 추천기능은 넷플릭스 초기 유사드라마 추천기능에 착안했는데, 마침 관광어플 '트리플' 에서 유사한 기능들을 모두 제공하고 있어 프로토타입 제작 시 참고를 많이 했던것 같다.

 

 

<여행앱 '트리플' 코스추천 기능>
<여행앱 '트리플' 여행 태그 선택기능>

 

 

이를 구현하기 위해 관광지 관련 키워드들에 대한 vectorize 를 선행적으로 고려했고, n-gram, c-bow, skip-gram 등의 방법을 활용하여 단어들을 임베딩, 코사인 유사도와 피어슨 상관계수를 통해 각 관광지간 유사도를 분석할 계획이였다.

 

그러나 시간관계상 하나하나 공부해가면서 하기에 내가 워드분석 파트에 그만큼 빠져있을 수 없는 상황이였다.

 

https://jeongminhee99.tistory.com/79

 

문장의 유사도를 N-gram으로 분석하기

이번에는 레벤슈타인 거리 계산과 n-gram을 사용해 단어 또는 문장의 유사도를 분석하는 방법을 알아보자 레벤슈타인 거리 "레벤슈타인 거리(Lvenshtein distance)"는 두 개의 문자열이 어느 정도 다른

jeongminhee99.tistory.com

https://wikidocs.net/22660

 

09-02 워드투벡터(Word2Vec)

앞서 원-핫 벡터는 단어 벡터 간 유의미한 유사도를 계산할 수 없다는 단점이 있음을 언급한 적이 있습니다. 그래서 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를…

wikidocs.net

https://seoyoungh.github.io/machine-learning/recommender-systems/cosine-pearson/

 

피어슨 상관계수와 adjusted 코사인 유사도의 차이 | Seoyoung Hong

Recommender systems 원서를 읽던 중에 두 식이 매우 유사해 차이를 정확하게 정리하려 한다. 우선 코사인 유사도, 피어슨 기반 유사도, adjusted 코사인 유사도의 식을 보겠다. 세 지표 모두 user-user간,

seoyoungh.github.io

 

 

 

2. 나이브 베이즈 분류를 통한 추천/랭킹 시스템

 

이전 학기에 베이지안 분석 과목을 배우면서, 베이지안 방법론을 활용한 가장 대표적인 웹 서비스 아키네이터 와 유사하게 다양한 시스템에 활용해볼 수 있지 않을까 하는 생각을 했다.

 

이는 여행지 추천 시스템에도 활용할 수 있을거라 생각했는데, 기존에 크롤링 및 사전조사 데이터를 활용해 관광지 등장빈도와 관광지들의 등장확률의 사전 확률분포를 확보하고 이를 통해서 각 사용자 개인에게 맞춤형 추천 시스템을 마련한다.

 

그리고 이러한 서비스에 대한 피드백 (추천된 관광지가 마음에 들었는지 아닌지), 어플 내에서 수집된 사용자들의 실제 선택 여행지 데이터, 어플리케이션의 트레킹 관련 커뮤니티 활성화 후 여기서 수집되는 새로운 관광지 관련 키워드 데이터 들을 활용해서 베이지안 모델을 실시간으로 업데이트하는 방안을 생각해 봤다.

 

 

 

3. 군집화를 통한 여행객 분류 

 

사실 기획 단계에서 가장 큰 문제였던 것이, 당장 우리들이 트레킹 주 소비층인 40대 이상 중년 고령층의 수요, 트레킹을 주로 다니는 MZ층의 실질적 수요를 알 방법이 거의 없었다.

 

1) 내가 만약 조사기관에 있었다면, 조사방법론에 따라 표본집단을 적절하게 선정한 후 설문 데이터를 확보해 분석

2) 부산시 관광 관계자 였다면, 한국 관광데이터 raw data, 트레킹 완보자 수료증 신청 데이터를 기반으로 예측

 

했겠지만, 우리에겐 정보를 수집할 만한 객관적 데이터가 거의 없었고, 기존에 특수 목적에 의해 수집된 설문데이터의 내용, 그리고 우리들의 여행 경험 내에서 정보를 수렴하여야 했는데, 통계학도 입장에서 이러한 개인 주관 기반의 데이터와 근거를 통한  기획과정이 영 찝찝했던것 같다.

 

통계학적 관점에서 트레킹이나 등산과 같이 특수한 목적성을 갖는 여행의 경우, 각 연령층이나 여행목적에 따라 서로 다른 군집적 특성들을 가질 것이라 예상된다. 

 

마케팅의 관점에서도 관광업계 자체가 트렌드를 따르고, 트레킹 유입 경로 역시 지인추천이 가장 많은 특성상, 초기 방문을 유도하고 이를 통해 입소문을 모으는 것이 중요하다 생각되고 이를 위해 특정 여행층을 확실하게 타겟팅 할 필요가 있다.

 

이러한 이유로 트레킹 수요층에 대한 군집분석을 통해 트레킹 수요층을 세분화하고, 여기서 우리가 유입을 획기적으로 늘릴 수 있을 만한 타겟층을 어떻게 설정할 것인가, 이러한 타겟층의 여행 증대를 위해 어떤 노력을 기울일 것인가에 대한 분석 역시 가능할 것이다.

 

 

[총평]

사실 이번 데이터 분석 공모전에서 가장 다뤄보고 싶었고, 실제로 중요하다고 생각했던 분석과제였다. 그러나 부족한 시간속에서  '크롤러 - 데이터 수집 -  자연어 전처리 - 형태소 분석' 이라는 데이터 가공과정을 제대로 정리해놓지 않아 이것 저것 수정하는 데 비효율적으로 시간을 많이 보냈던것 같다.

 

또 분석에만 시간을 전부 투자할 수 없는 상황이었기에, 명확한 솔루션으로 마무리되기 보다 현황분석에 가깝게 어설프게 마무리된 것과, 이러한 분석내용의 의미와 활용방안에 대해 별다른 성과없이 기획쪽에 넘기게 된 것들이 조원들에게도 많이 미안하고 개인적으로도 아쉬운 점이 아닌가 싶다.

 

개인적으로 추천시스템과 자연어 처리에 관심이 많아 이 부분들은 이번 공모전에서 더 다뤄볼 기회가 없더라도, 개인적 프로젝트로 계속 이어가고 싶다.

 

 


 

 

4. 시각화 & 프로토타입

 

시각화 같은 경우에는 개인적으로 알고있는 프로그램들로 크게 정리해봤다.

 

(빨강) : 활용가능 / (파랑) : 앞으로 활용해보고 싶음 / (주황) : 할 줄 알지만 개인적 불호(그렇게 안예쁨)

대시보드/활용도 구글 데이터 스튜디오, 태블로, 
Python ggplot2 (plotnine) , plotly(웹), matplotlib.pyplot, pandas_plot, seaborn_plot, geopandas(GIS)
R    plot, ggplot2, plotly(웹)

 

개인적으로 그래프를 예쁘게 그리고 싶을때, python의 경우 높은 자유도로 plt.plot을 커스텀 할 수 있고 충분히 예쁘게 꾸밀 수 있지만, 사실 편의상 태블로랑 ggplot, seaborn 의 plot을 많이 쓰는것 같다.

 

공모전 팀원중 사실 데이터 전처리와 시각화 경험이 충분히 있던 사람이 사실상 나밖에 없어서 자료 구하고, 판다스로 합치고, 그래프로 그리는 전 과정을 다 내가 해야했다(😂). 데이터를 가져오고 합치는데는 엑셀과 파이썬 판다스를 많이 활용했고, 그림을 그릴때는 디자인과 실용성에 초점을 맞춰  태블로를 통해 그렸다.

 

 

 

<열씸히 그렸으나 맘에안듬 1>

 

 

<만드는데 개고생했으나 마음에 안듬 2>

 

 

 

그러나 오랜만에 써서 그런가 태블로의 데이터 가공 기능을 활용하는데 어려움이 꽤 있었고, 태블로 내에서 처리가 힘든 부분은 파이썬 pandas를 통해서 원본 데이터 변형 후에 데이터 새로고침을 통해 갱신하는 노가다를 많이 했던것 같다. 덕분에 melt, unstack, 이중 index 등등 pandas 활용 경험을 늘렸으니 이게 이득인가 개고생인가...

 

그런데 사실 태블로에 너무 의존하는 게 어찌보면 잘 아는 프로그램으로 너무 쉽게쉽게 하는 느낌도 들고, 앞으로는 구글 데이터 스튜디오나 웹을 활용해서 더 다양하고 예쁘게 그려보고싶은 욕심이 크다.

 

 

 

 

 

 

 

 

한편 기획 초기부터 최종 결과물에 대한 프로토타입도 꼭 보여줬으면 했는데, 막상 포토샵 같은 디자인 프로그램과 담쌓고 있었기에 굉장히 막막했다.

 

결국 초딩때 무려 파워포인트로 플레시 게임을 만들었던 경력과, 나름 마우스로 에니메이션을 그릴 정도로 그림 꽤나 그리던 과거 실력을 살려 용감하게 파워포인트로 아이폰을 만들기에 이르렀으나....?? 다행히 디자인 웹 프로그램인 미리캔버스를 다뤄봤던 팀원 덕분에 정말 깔끔한 디자인의 멋진 프로토타입을 만들 수 있었다고 한다.

 

<ppt로 만든 프로토타입, 사용은 못했지만 만드는 과정이 재밌었으니 만족>

 

 


 

 

5. 최종 기획서 작성

 

노션에 정리된 우리들의 회의목록과 기획 기록내용들을 바탕으로 기획서를 작성했다. 

 

기획서 작성에도 크게 두가지를 강조하고자 했는데, 첫째는 기획서 전반을 한 사람이 작성하게 해서 전반적으로 내용이 통일성있게 하나의 내용으로 이어지도록 하고자 했고, 둘째로 우리는 기획 내용 전반을 빠삭하게 알고 있으므로 쉽게 넘어가는 내용들이 과연 처음 읽는 사람들에게도 잘 전달되는지 다같이 검증하는 과정이다.

 

기획서 작성과정은 일단 전반적 회의 내용 기록을 담당한 조원이 매일 회의 내용과 기획 내용을 바탕으로 기획서 초본을 작성한 후 계속해서 수정 및 보완해 나갔고, 중간중간 전반적인 프로젝트 진행방향이 통일성 있는지와 조금 더 근거 보강이 필요한지, 시각화가 필요한 부분들은 없는지 계속 체크해나갔다.

 

추가적으로 인원과 시간이 너무 모자라다 보니, 기획 뿐만아니라 아이디어 사업화의 실현가능성과 기대효과 등의 부분들도 기획을 맡은 쪽에서 계속 채워나가셔야 했다. 

 

 

그렇게 기획서 초본의 내용들을 하나하나 채워나갔고, 드디어 프로젝트 제출 며칠전, 최종적으로 제출양식에 맞게 최종 기획서를 작성하기 시작했다. 일단은 기획을 담당했던 조원이 기획서 초본에서 이미 제출양식을 기준으로 해 작성했기 때문에 문맥을 고려하여 기획서 내용을 채워나갔다. 글 외에도 고려할 것이 많았는데, 프로토 타입과 시각화 이미지를 어디에 어떻게 넣을지, 주석은 어떻게 달 것인지, 논문과 보고서 인용시 인용글을 어떻게 제시할 것인지에 대한 고민들도 많이 생겼다. 이러한 부가적인 일을 처리하는데 나와 다른 팀원이 붙어 기획서를 완성하고, 이를 회의를 통해 다같이 읽으며 검증및 피드백하는 과정을 거쳤다.

 

이렇게 이틀에서 삼일 정도 최종 기획서에 대한 피드백과 수정을 거치며, 우리는 공모전을 마무리해 갔던것 같다.

 

 


 

 

6. 최종 후기 및 느낀점

 

후기를 써보자면,

 

내가 그토록 원했던, 내가 하고싶은대로 주도해본 공모전이었지만, 여전히 아쉬움도 많이 남는 공모전이 아니었나 싶다. 사실 완성도가 제일 많이 아쉽다. 분석이라던지, 결과물 이라던지, 실현 시 기대효과 라던지 개인적으로 기대했던 수준만큼 결과물을 만들어내지 못했다. 이는 인적역량 문제도 있었고, 시간의 문제도 있었다고 생각한다.

 

앞으로 동일한 기회가 더 생긴다면 초반에 시간분배를 할 때, 각 파트에 대해 좀 더 객관적이고 현실적인 분배계획을 세워서 해봤으면 더 좋을것 같다. 그렇게 되면 시간도 굉장히 효율적으로 쓸 수 있고, 각 개인이 맡을 분야가 확실해지기 때문에 좀 더 본인의 결과물에 대해 책임감을 가지고 집중할 수 있지 않을까 싶다.

 

그리고 전체적인 피드백 과정도 좀 더 적극적으로 해보고 싶다. 개인적으로 완벽주의적인 성격도 있고, 내가 원하는 결과물 수준 자체가, 이 기획내용에 전문적인 사람이든 비전문적인 사람이든 상관없이 우리가 쓴 기획을 봤을때 확실히 구미가 당기고 성공할 수 있겠다는 어느정도 확신이 생기게끔 하는 정도를 원한다. 그러기 위해서는 사실 팀원들한테 성과에 대한 요구도 많이 해야되고, 나름 열씸히 한 팀원들에게 쓴소리도 많이 해야되는데, 성격상 사실 그런부분이 너무 힘들다. 이런 부분들에 있어서 확실하게 표현하고 좀 더 수준높은 결과물을 뽑아 보는게 아마 다음 목표가 되지 않을까 싶다.