Skip to content

Latest commit

 

History

History
81 lines (55 loc) · 4.58 KB

File metadata and controls

81 lines (55 loc) · 4.58 KB

토픽모델링 기반 ICT분야 빅데이터 트렌드 분석

※ 분석배경 및 필요성

  • 4차 산업혁명 및 ICT 분야의 급격한 변화로 인해 사회적으로 다양한 이슈가 발생하고 있음
  • 정부차원에서 4차 산업혁명의 핵심 기술에 대한 정책수요 증가
  • 위의 상황에서 발생한 사회적 이슈에 대해 정부출연연구기관이 어느정도 인지·분석하고 정책에 반영하고 있는지 확인할 방법이 필요함
  • 현재 정책 시행의 적시성을 객관적으로 검증하고 판별하여 미래 정책이슈를 구체적으로 예측할 수 있는 알고리즘이 필요함

※ 연구목표

국내외적으로 빠르게 변화하는 ICT 흐름을 파악하기 위해 LDA 토픽모델링 기법을 적용하여 국내 연구자들이 수행하고 있는 ICT분야 국가연구개발사업 과제정보에 대한 주요 연구 토픽과 연구 동향을 탐색한 후 이를 미래동향까지 예측이 가능한 알고리즘 구현

※ 사용기술

  • Language
    • Python R
  • Model
    • HAN LDA VAR LSTM

※ 데이터

번호 활용 데이터 형식 출처
1 국가과학기술지식정보서비스 데이터(NTIS) csv 286,028건 Url
2 국가정책연구포털 데이터(NKIS) csv 7,451건 Url
3 정보통신정책연구원 내 보고서(KISDI REPORT) csv 910건 Url
4 2023 정부 120대 국정과제목록(GOV) csv 120건 Url

※ Contents

0. NKIS자료 준비 바로가기

  • 크롤링
  • 전처리
  • EDA

1. 용어사전 구축 및 자료 업데이트 바로가기

  • 데이터 구조 변경
  • 사전 생성
  • 사전 수정 및 컴파일

2. HAN모델을 이용한 ICT분류 바로가기

  • HAN모델 학습 및 구축
  • HAN모델을 이용한 ICT분류
  • LDA모델에 사용할 TXT파일 생성
  • TXT파일을 이용한 워드클라우드

3. LDA모델을 이용한 토픽 분류 바로가기

  • LDA모델 학습 및 구축
  • LDA모델을 이용한 토픽 분류 후 분석
  • 토픽 별 텍스트 네트워크
  • 각 토픽 별 LDA모델을 통한 중분류 진행
  • 중분류 토픽 분류 후 분석

4. DTM모델을 이용한 토픽 분류 바로가기

  • DTM모델 학습 및 구축
  • DTM모델을 이용한 토픽 분류 후 분석
  • 토픽 별 텍스트 네트워크

5. VAR,LSTM모델을 이용한 트렌드 분석 바로가기

  • VAR모델을 이용한 토픽 별 분포 및 주요단어 예측
  • LSTM모델을 이용한 토픽 별 분포 및 주요단어 예측

※ 활용 방안

  • ICT의 여러 주제 별 분포를 파악하여 향후 연구 기획방향을 설정할 수 있음
  • 데이터 간 비교를 통해 각 포털 별 어떠한 토픽에 집중하고 있는지 확인이 가능하고 이에 대한 피드백이 가능함
  • 데이터 베이스 내에서 유사한 자료를 찾을 수 있는 검색 엔진 혹은 대시보드로 활용할 수 있음

※ 보완점

  • 전문적인 단어, 신조어 등 용어 사전에 존재하지 않아 실제로 문서에 등장하지만 분석에는 활용되지 않은 단어들을 활용하는 방안을 고려해야 함
  • HAN분류모델의 ICT문서의 정의 부분을 연구자 임의의 판단으로 결정하였기 때문에 이에 대한 타당성을 보완할 필요가 있음
  • 현 연구는 한국어 위주의 문서에 대한 분석이 가능하기 때문에 외국어 문서에 대한 분석도 가능하도록 보완할 필요가 있음