Skip to content

ETL process - 데이터 수집 및 전처리 #9

Description

@es3442

서울시 생활물류 [202101-202309]

  • 서울 생활물류 (출발지) 서울 자치구 - (도착지) 전국시도
  • 서울 생활물류 (출발지) 서울 자치구 - (도착지) 서울 자치구
  • 서울 생활물류 (출발지) 전국시도 - (도착지) 서울 자치구

데이터 수집
서울 열린 데이터광장에서 데이터 수집

전처리

  1. 사용하지 않는 Column 삭제
  2. 파일명, Column명 영어로 수정
    용량변화 : 150MB → 146MB

우체국 전국 시도별 우편물류 데이터

  • 시도별 우편분류 접수 및 배달정보 : [2020.01-2023.10]

데이터 수집
우정사업본부-열린경영-통계.연차보고에서 수집(웹 스크래핑 이용)

전처리

  1. 부피 null인 row에 대해 drop
  2. (접수날짜, 출발지역, 도착지역, 카테고리별로) 중량 합계, 부피 합계, 총 배송건수로 전처리
  3. 파일명, Column명 영어로 수정
    용량변화 : 69.1GB → 377MB

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type
No fields configured for issues without a type.

Projects

Status
Done

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions