NHIS 표본코호트 v1

건보공단에 문의했더니 표본코호트 v1은 폐기된 자료라고 함. 그래서 자료를 좀 공개해 보겠음. 어떻게 구한 이 자료는 모든 자료가 있는 것은 아니었음. DB에 넣을려고 하는 과정에서 data cleaning 과정이 필요했고, 그 부분을 기술해 보고자 함. 나는 R에서 TSV 자료를 불러와서 data cleaning 을 한 다음 CSV로 저장해서 DB에서 PSQL을 통하여 저장하였음.

  • R에서 파일을 불러올 때에 , fileEncoding = “CP949”, encoding = “UTF-8” 부분이 필요함. 일부 자료에서 원래는 포함되면 안되는 한글이 있음
  • 20 테이블에서 MPRSC_ISSUE_ADMIN_ID, MPRSC_GRANT_NO 항목이 없는 경우가 있기 때문에, 추가해 주어야 함.
  • 20 테이블에서 DMD_DRG_NO, SUB_SICK, MAIN_SICK에 특수문자를 비롯한 부적절한 값들이 있음.
  • 비용과 관계된 부분은 자리수가 8이 아닌 9로 해야함.