티스토리 뷰

728x90
반응형

kaggle은 데이터를 공개하고 서로 문제를 풀면서 경쟁하고 공유하는 훌륭한 플랫폼이다.

관련한 데이터를 공부하거나 실제로 문제를 풀때 데이터를 다운로드 받게 된다. 

 

예를들어 간단한 분류기를 테스트해보기 위해서 다음 데이터를 다운로드 받을 수 있다. 

여러가지 방법이 있지만 kaggle API가 있음을 알았다. 

 

머신러닝 사례로 쉽게 인용되는 dogs vs cats 데이터를 다운받고자 하였다. 다음과 같이 경쟁페이지가 있음을 알 수 있다.

 

 

다음과 같은 명령으로 해당 데이터를 다운로드 받을 수 있다는 건데 당연히 kaggle이라는 이름의 패키지가 설치되어 있어야 한다.

$ kaggle competitions download -c dogs-vs-cats

 

kaggle api 설치 

다음 링크를 보면 자세하게 나와 있다.

https://github.com/Kaggle/kaggle-api

불러오는 중입니다...

 

$ pip install kaggle

 

kaggle.json 다운받아 설치 

 

무턱대고 여기서 다운로드 명령을 실행했는데 kaggle.json관련한 에러메시지가 다음과 같이 보인다.

 

OSError: Could not find kaggle.json. Make sure it's located in /root/.kaggle. Or use the environment method.

 

자세히 kaggle api홈페이지를 보니 api다 보니 user 정보가 들어 있는 파일인 kaggle.json을 특정 장소에 넣어주어야 한다.

먼저 kaggle 홈페이지에서 (물론 회원 가입이 되어 있어야 함)  상단 우측에  Your Profile 을 클릭후 컨텍스트 메뉴에서 My Account 를 선택한다. 

 

다음과 같이 API 란에 'Create New API Token' 버튼을 클릭하면 웹브라우저를 통해 kaggle.json 파일이 다운로드 된다.

 

 

이 파일을  ~/.kaggle/ 폴더에 저장한다.  (다음과 같이 복사한다.)

 

$ cp kaggle.json ~/.kaggle/kaggle.json

 

이제 된줄 알고 다시 복사 명령을 입력해 보면 파일에 접근이 안되므로 다음과 같이 접근이 되도록 수정한다.

$ chmod 600 ~/.kaggle/kaggle.json

 

 

다시 다운로드 명령을 수행해보니 다음과 같은 에러 메시지가 보였다.

403 - Forbidden

 

찾아보니 다음 링크에서 힌트를 얻을 수 있었다.

 

https://github.com/Kaggle/kaggle-api/issues/87

 

403 - Forbidden · Issue #87 · Kaggle/kaggle-api

kaggle competitions download favorita-grocery-sales-forecasting -f test.csv.7z 403 - Forbidden

github.com

 

단순히 데이터만 얻으려고 했는데 kaggle 시스템의 특성 상 실제 경쟁에 참여하므로 rule에 대해 인정하는 과정이 없으면 아예 API가 막히는거 같다. 그래서 해당 competition 페이지를 방문해 보면 Rules 메뉴 탭을 선택하면 다음과 같이 룰을 이해하고 받아들이는 버튼이 있다. 이 버튼을 누르면서 인정 과정을 거친다.

 

 

이렇게 하고 나서야 명령수행이 가능하다. 

$ kaggle competitions download -c dogs-vs-cats

다음과 같이 다운로드 과정이 수행됨을 알 수 있다.

 

Downloading sampleSubmission.csv to /workspace/Workspace/python/pro_dl/transfer-VGG 100%|#######################################| 86.8k/86.8k [00:00<00:00, 710kB/s]

Downloading test1.zip to /workspace/Workspace/python/pro_dl/transfer-VGG 100%|#######################################9| 271M/271M [01:17<00:00, 3.81MB/s] 100%|########################################| 271M/271M [01:17<00:00, 3.68MB/s]

Downloading train.zip to /workspace/Workspace/python/pro_dl/transfer-VGG 100%|#######################################9| 543M/543M [02:33<00:00, 3.26MB/s] 100%|########################################| 543M/543M [02:33<00:00, 3.72MB/s]

 

728x90
반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/06   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
글 보관함