사실 엄청난 삽질을 통해서 알아낸 것이기는 한데 X축에 자료의 평가 항목, Y 축에 증례를 기록하는 일반적인 방식으로 자료를 기록한 경우 R에서 자료를 편하게 불러오는 방법을 확인했다. ㅡ_ㅡ;;
read.table(“~~.csv”, header = TRUE, sep = “,”, row.names=1)
row.names 항목을 사용하면 이 부분이 Y 축의 값으로 빠져 나오게 되는데 이러면, 보통 이 값은 통계 분석이 불가능한 문자열의 나열이다. 이 부분을 제외한 나머지 값은 거의 대부분 통계적으로 처리할 수 있는 항목이어서, 자료를 편리하게 다룰 수가 있다. 특히 내가 삽질한 clustering에서 말이다. ㅡㅡ;;
주의사항으로는 당연한 것이지만, row.names 에 해당할 값에서는 중복된 값이 있어서는 안된다. Microarray 를 사용한 gene expression 자료의 경우 하나의 유전자에 대한 여러 값이 있을 수가 있고, 이럴 때 row.names 에 대항하는 항목을 유전자 이름이나, 염색체 내부의 위치 등으로 해버리면 중복된 값이 있어서 오류가 난다. 중복되는 값을 해결해야 추가 분석이 가능함.
Leave a Reply