Category: R

  • RStudio Server

    RStudio Server

    Ubuntu 가 설치되어 있는 연구실 컴퓨터에 

    RStudio Server 버젼을 설치하여 보았다.

    홈페이지 설명 그대로 진행하면

    아무런 문제 없이 설치가 될 정도로 쉽다.

    지레 겁을 먹고 설치 안할 이유 같은 건 없는 것 같다.


    RStudio Server 버젼 설치 이유는

    작업하는 컴퓨터가 여러개이다 보니 일의 흐름이

    끊어지는 것 같아서 이걸 좀 해결해 보고자 한 것이다.

    일반적인 통계작업에 고사양의 컴퓨터가 필요한 것은 아닌만큼

    비교적 사양이 떨어지는 컴퓨터에 설치해서 사용해도 좋을 것 같다.

    한 번 검사를 돌려볼려고 했는데

    공유기 설정 미비로 

    오늘은 원격지에서 확인 했다는 것에 의의를 두면 될 듯함.

  • Excel 불러오기 #2

    2009/10/01 – [공부해 봅시다/R-Project] – Excel 불러오기

    예전에도 관련 내용을 다룬 적이 있는데

    몇 일 전 모 형이 부탁한 내용을 R에서 구현해 보고자

    R에서 Excel 을 불러오는 여러 방법을 시도해 보았다.

    파일이 제대로 불러와지지 않는 것 같아서

    여러 가지 방법을 시도해 보았다.

    Excel 을 불러올 수 있는 여러 패키지 중에서

    RODBC 를 이용하는 방법도 있고

    gdata 를  이용하는 방법도 있었다.

    그런데 2가지 패키지 모두 제대로 불러와지지 않았다.

    32bit 버젼의 R에서만 동작하는 것 같기는 한데

    XLConnect 패키지를 사용하면 비교적 쉽게 불러올 수 있다.

  • plot3d() & points3d()

    plot3d() & points3d()

    Bootstrap method 적용에 맛을 들인 이후로

    보통 결과를 위의 그림처럼 평면에 그리는게 편해서 적용하고 있었다.

    plot()으로 전체 점을 찍고, 

    points()로 기존의 점을 덮어가며 색을 입히는 방법을 적용하였다.

    2D 로 점을 찍을 때에는 덮어쓰기가 가능해서 별 어려움이 없었는데,

    3D 로 점을 찍을려고 하니 덮어 쓰기가 안되었다.


    몇 시간을 고민한 끝에 내린 결론은

    rgl 패키지로 그린 3D plot 에서는 덮어쓰기가 안되는 것이었다.

    그래서 빨간점을 먼저 plot3d() 로 그린 후에

    회색 점을 points3d() 로 그려주면 가능한 것을 확인했다.

  • Monte Carlo 방법

    Monte Carlo 방법

    부트스트랩(bootstrap) 방법과 관련된 개념으로 매우 중요한 것은

    몬테카를로 방법 혹은 가정(Monte Carlo method / simulation) 이다.

    영문 위키피디아 설명에 의하면 명확한 정의는 없는 듯 하다.

    통상적으로 통용되는 뜻은

    한글 위키피디아에 있는 다음의 정의와 같은 듯 함.

    난수를 기반으로 하여 함수의 값을 확률적으로 계산하는 알고리즘

    그 위키피디아에 예로 나와 있는 원주율 구하기를 구현해 보았다.

    여러번 반복해서 관찰한 결과 

    생성한 임의의 수가 10만을 넘어가면

    크게 오차가 줄어들지 않은 것 같다.

    100만까지 구해 보았고, 100만번 했을 때 결과는

    원주율(pi)는 3.1424888 이 계산되고, 오차는 약 0.029%이다.

    여기까지는 한 번에 난수 100만개를 만들어서 구해본 결과이다.


    1000만 이상의 난수를 기반으로 pi 를 구하기 위해서는 

    메모리를 아끼는 방법이 필요하고,

    1만번 난수를 만들어서 빨간점에 해당하는 점의 갯수를 구하는 것을

    1만번 반복하는 것을 시도해 보았다.

    1억번의 계산이 끝나고 나면

    3.14181452 (0.007% 오차) 가 나온다.

    시간 많이 걸림.