CDM 운영 요령

PostgreSQL의 특성에 따른 문제로 추정된다. UPDATE, DELETE가 잦으면 dead tuple이 증가하여 공간을 차지한다고 한다. 이를 해결하기 위한 vacuum 과정이 있으나 일정 조건에 해당하면 동작을 한다.

CDM 포맷에 맞게 변환된 자료를 DB에 입력한다. 그리고 적절한 과정을 거쳐 분석할 수 있는 형태로 가공해야 한다. concept_id 매핑과 measurement 테이블의 data cleaning 과정이 주된 부분이다. 500GB SSD에 250GB 정도의 자료를 입력시킨다. 그 이후 강도 높은 매핑 및 클리닝 작업을 하면 dead tuple로 인한 용량 문제가 생긴다.

지난 번에는 vacuum full analyze가 먹혔는데 이번에는 용량이 매우 부족해져서 작업이 진행되지 않는다. 일단 vacuum verbose analyze로 용량을 조금 확보한 이후에 진행해 봐야 할 것 같다. 용량이 큰 녀석을 이용하는 것이 가장 손쉬운 방법이 될 것 같다.

CDM 운영에 중요한 경험을 쌓을 수 있을 것 같다.