GDC에서 TCGA 파일을 GDC data tool 을 이용해서 다운을 받으면, 파일명과 UUID를 알 수 있게 된다. 이 과정에서 manifest 파일을 얻을 수 있고, 이 파일을 열어보면 파일명과 UUID가 있다. 문제가 있다면, UUID에서 증례 번호를 직접 다운 받기가 꽤 까다롭다는 것. 수작업으로 하나씩 확인을 하는 방법도 있지만, API를 이용하면 조금은 더 용이하게 할 수 있다.
https://docs.gdc.cancer.gov/API/Users_Guide/Search_and_Retrieval/
이 링크를 따라 들어가서, 하단에 보면
https://docs.gdc.cancer.gov/API/Users_Guide/Search_and_Retrieval/#example-http-post-request
이 예시가 있다.
value 아랫줄에 보면 여러개의 목록이 있는데, 여기가 UUID에 해당하는 부분이다. 원래 다운 받은 manifest 파일에서 UUID 목록을 같은 양식으로 만들어서 바꾼다. 그리고 하단의 “size”에 UUID 갯수에 맞춰서 수정을 해준다.
파일 파일을 payload.txt 로 저장한 다음 위와 같은 명령어를 리눅스 쉘에서 입력을 하면, 원하는 정보가 있는 파일을 다운받을 수 있다.