0. BaseTable 만들기

Author

CGAlpha

1 데이터

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 861719 entries, 0 to 861718
Data columns (total 25 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   소관부처명      861666 non-null  object 
 1   법령명        861702 non-null  object 
 2   법령구분       861704 non-null  object 
 3   조번호        861129 non-null  object 
 4   항번호        666590 non-null  object 
 5   호번호        504904 non-null  object 
 6   조문제목       805869 non-null  object 
 7   조문         848856 non-null  object 
 8   사무판단       767124 non-null  object 
 9   사무판단근거     700871 non-null  object 
 10  사무명        60113 non-null   object 
 11  수행주체       60116 non-null   object 
 12  사무유형       60071 non-null   object 
 13  위임사무판단     761139 non-null  object 
 14  위임근거규정     5311 non-null    object 
 15  수임기관       4416 non-null    object 
 16  특행기관       93089 non-null   object 
 17  재위임사무판단    702502 non-null  object 
 18  재위임근거규정    54 non-null      object 
 19  재수임기관      13 non-null      object 
 20  위탁사무판단     758703 non-null  float64
 21  위탁근거규정     3975 non-null    object 
 22  수탁기관       3952 non-null    object 
 23  사무유형(소분류)  60114 non-null   object 
 24  기타         3 non-null       object 
dtypes: float64(1), object(24)
memory usage: 164.4+ MB
Source: MakeBaseTable.ipynb

2 데이터 전처리

2.1 설명변수(소관부처명, 법령명, 조번호, 항번호, 호번호, 조문제목, 조문)가 모두 결측치인 행 삭제

2.2 소관부처명 결측치 처리

  • 소관부처명 결측치: 45개
  • 동일한 법령에 대해서는 동일한 소관부처를 가짐
  • 이에, 다른 행 중 동일한 법령을 지닌 소관부처 파악 후 결측치 채워줌

2.3 법령명 결측치 처리

  • 조, 항, 조문 통해 법령명 찾아 삽입

2.4 법령구분 처리

  • 법령구분 결측치 처리
  • 법령구분 자료형 int로 통일

2.5 사무판단 처리

  • ’ ’ -> nan, ‘0’ -> 0 , ‘1’ -> 1, ‘0 1’ -> 2 float 형태로 변환

2.6 소관부처명 공백 처리

2.7 조문, 조문 제목 결측치 처리

  • 조문, 조문 제목 null값이면 ’0’으로 채움