Commentary on Data 임동건

news
analysis
Author

DG Lim

Published

November 20, 2023

법령 데이터를 받은 소감

도메인은 생각보다 더 중요하고, 데이터 전처리는 생각보다 더 많이 해야한다.

도메인의 중요성에 대해 다시 한 번 깨달았습니다.

법에대한 지식이 없다보니 무슨 업무를 해야 하는지에 대한 설명을 들었음에도 불구하고 law_mst.csv의 column과 안의 내용을 정확히 알 수 없어 국가 법령 정보센터에 들어가 해당 법을 확인했습니다. 셀 안의 값이 어떻게 이루어져 있는지 유추해내면서 셀 안의 값 들의 의미를 파악했습니다.


데이터 전처리의 필요성

실제 데이터를 활용하는 경우에 데이터가 Kaggle 이나 공모전에 활용하는 공공데이터 등과 같이 깔끔하지 않은 경우가 많다는 이야기를 들었습니다. law_mst.csv 파일의 경우에는 처음에는 파일에 문제가 있어 열리지 않아 여는데 상당한 시간을 들였으며 2019사무목록 최종본(인쇄용 최종)의 데이터에는 사람들이 작업한 항들이 있어서그런지 몰라도 같은 내용에 대한 뛰어쓰기나 특수 문자들이 다르게 들어간 경우를확인했습니다. 따라서 추가적인 오탈자가 있을 확률이 매우 크다고 생각합니다.따라서 오탈자를 효율적으로 확인할 방법을 생각해봐야겠다고 생각했습니다.


나아가야 방향성에 대한 고민

내가 이해한 업무에 따르면 법 조문을 보고 사무여부 파악 / 사무내용 파악 / 사무주체 파악 하는 업무로 이해했으나 정답지 역할을 하는 2019사무목록 최종본(인쇄용 최종)의 데이터는사무여부에 해당하는 내용만 있어 law_mst.csv파일을 보고 사무여부를 파악하는 모델을만들기는 힘들다는 생각이 들어 어떻게 해야하는가에 대한 고민을 하고있습니다.




Writer : 임동건