Category: R

  • Logistic

    어제 들은 R 통계강좌가 유익해서 기록으로 남김.

    로지스틱의 의미는 모른다고 할지라도 로지스틱 회귀 분석을 해야할 경우가 있다. 이변량 자료에 대한 로지스틱 회귀분석은 분류(classification) 문제이기 때문에 실제로 같은 취급을 받는다고 한다.

    선형회귀분석은 lm() 함수를 이용하지만, 로지스틱 회귀분석은 glm()을 이용한다. 그 중에서 이변량 자료를 분석하기 위해서는 glm(   , family = binomial) 을 이용하면 된다.

    모델 최적화를 위해서는 step(   ) 을 95% 신뢰 구간의 오즈를 구하기 위해서는 confint(   )를, 오즈비를 구하기 위해서는 exp(confint(   )) 을 이용한다.

    나이가 1살 증가할 때마다 오즈가 변하는 것을 a라고 한다면, 10살 증가할 때의 오즈비는 exp(10*a)가 된다고 함.

    나머지 변수를 모두 포함시키는 분석을 위해서는 glm (  ~. ) 이렇게 물결표시 다음에 ‘.’ 을 입력하면 된다.

    분석 변수가 지나치게 많아서 오류가 난다면, glm(   ,maxit =    ) 에서 큰 숫자를 입력해준다.

  • ordinal regression analysis

    예전에 R에서 ordinal regression analysis 결과를 SPSS 처럼 만들어내지 못해서 SPSS이용하여 통계 분석을 하였다. 이번 리비젼 과정에서 SPSS를 사용할 수 없었기 때문에 R에서 ordinal regression analysis를 시도할 수 밖에 없었고, 인터넷을 통하여 거의 같은 결과를 만들어내는데 성공하였다.

    우선 MASS패키지를 사용한다. 이 패키지에 포함되어 있는 polr() 함수가 기본적으로 ordinal regression analysis  에 사용하는 함수이다.

    AER 패키지를 사용한다. coef()를 통하여 hazard ratio 를 구할 수 있다. coefci()를 통하여 95% 신뢰 구간을 구할 수 있다. coeftest()를 통하여 p.value를 구할 수 있다.

     

  • Kaplan-Meier analysis에서 pairwise 비교

    그 동안 KM 분석에서 pairwise 비교 하는 것을 찾을 수 없어서 SPSS를 이용하곤 했다. 인터넷 서핑을 하다가 오늘 R 패키지를 찾았다.

    “survminer” 패키지의 “pairwise_survdiff”를 이용하면 되며, 사용법은 survdiff와 동일하다.

  • R figure 에서 글꼴 지정

    R에서 그래프를 그리고 text가 들어가야 할 때에 글꼴을 지정해야 하는 경우가 있다. 특정 서체를 사용하고 싶다면 다음의 방법이 가장 편하다.

    “extrafont” 패키지를 설치하고, font_import()를 실행시킨다. 일부 글꼴은 지나치게 많은 시간이 소요되는데, 해당 글꼴을 안써도 되면 해당 프로세스를 종료시키는 방법으로 넘어가면 된다.

    그 다음에는 fonttable()을 실행하면 등록된 글꼴을 확인할 수 있다. 그 중에서 필요한 항목은 FullName 항목이다. 이 항목을 통하여 어떤 이름으로 등록이 되어 있는지 확인해야 한다.

    이번 논문 작업에서 사용한 글꼴인 삼성명조체 M을 A라고 등록한 다음 이 글꼴을 사용할 수 있도록, par() 명령어를 이용한다.

    windowsFonts(A = windowsFont("SECMyungjo M"))
    par(, family="A")