dplyr

R에서 자료를 추출하거나 다룰 때 subset을 기반으로 사용했다. 자료가 아주 크지 않다면 느린 처리 속도는 무시할 수 있다. 하지만 시대의 흐름인 dplyr로 움직이고 있다. 오전에 프로즌 기다리면서 전에 짜두었고, 현재 진행 중인 연구 코드를 dplyr로 변환하여 보았다. 몇몇 부분은 기존의 코드를 사용할 수 밖에 없었지만, 거의 대부분 변환하였고 실행 속도는 매우 빨라졌다.

하나 까다로운 부분이 있다면 특정 결과가 1~4개 정도 있는 항목을 순차적으로 정리할 때이다. 나는 top_n()으로 정리하기는 했는데 top_n(4, )로 할 경우 1개 있는 경우도 보이고, 4개 있는 경우도 보이고, 6개 있는 경우는 4개만 보인다. setdiff()를 반복적으로 하는 것으로 일단 해결했다. 이 부분이 subset이 조금 더 편했다.