<目次>
(1) Kaggleのデータセットをダウンロードする方法(API)をご紹介
(1-0) STEP0:(事前準備)Kaggleアカウント作成
(1-1) STEP1:(事前準備)パッケージのインストール
(1-2) STEP2:(事前準備)APIトークンの取得
(1-3) STEP3:サンプルプログラム(データセットダウンロード)
(1) Kaggleのデータセットをダウンロードする方法(API)をご紹介
本記事ではKaggleのデータセットをPythonプログラムからAPI経由でダウンロードする手順についてご紹介します。
(1-0) STEP0:(事前準備)Kaggleアカウント作成
data:image/s3,"s3://crabby-images/c6d88/c6d88edd7eaacb96c0d84066e2dc9437646f6c04" alt=""
data:image/s3,"s3://crabby-images/289f1/289f185338ab3dfdffa58b7be11ca55afc97b7f4" alt=""
data:image/s3,"s3://crabby-images/c2d22/c2d2226635016dddde90d34669bc40ef1d1cf6ef" alt=""
data:image/s3,"s3://crabby-images/b872b/b872bb6f573fc1d2d28ab43968dbc3419d6c4108" alt=""
↓
data:image/s3,"s3://crabby-images/e68f6/e68f6273954cea2c298edfee027c9c52b727a6f5" alt=""
data:image/s3,"s3://crabby-images/f2d10/f2d10f5582b57ce6f9711a60619b490e715afb6d" alt=""
data:image/s3,"s3://crabby-images/f244e/f244e48a6cacb7dcf97d263f2f378cd1389d6920" alt=""
(1-1) STEP1:(事前準備)パッケージのインストール
> pip install kaggle --user
data:image/s3,"s3://crabby-images/6d087/6d087f18d6e81483faf7152362c9f3e315bae735" alt=""
Running setup.py install for kaggle ... done Successfully installed kaggle-1.5.12
(1-2) STEP2:(事前準備)APIトークンの取得
OSError: Could not find kaggle.json. Make sure it's located in C:\Users\Rainbow\.kaggle. Or use the environment method.
data:image/s3,"s3://crabby-images/e8b69/e8b691388978965a39daf08ee46bd1a446e49fd5" alt=""
●STEP2-1:APIトークンの発行
(図123)
data:image/s3,"s3://crabby-images/8c2da/8c2da6ad50363fc3b27f64e21821a534302df95e" alt=""
↓
data:image/s3,"s3://crabby-images/f1166/f11663903ce26b2fcdeb897e850d50762578882e" alt=""
↓
data:image/s3,"s3://crabby-images/5bb69/5bb69282bff92952a3023a698478252aa1468d66" alt=""
●STEP2-2:kaggle.jsonの配備
data:image/s3,"s3://crabby-images/8e565/8e565e39e895a8e1830ca36352386fe10e57e339" alt=""
(1-3) STEP3:サンプルプログラム(データセットダウンロード)
from kaggle.api.kaggle_api_extended import KaggleApi import zipfile api = KaggleApi() api.authenticate() output_path = './kaggle_download_dataset/' # kaggle.com/c/dogs-vs-catsからダウンロード # train.zip / test1.zipの2つのファイルがある # './'はカレントディレクトリの意味。 api.competition_download_file('sentiment-analysis-on-movie-reviews', 'train.tsv.zip', path=output_path) api.competition_download_file('sentiment-analysis-on-movie-reviews', 'test.tsv.zip', path=output_path) # zipファイルの解凍 with zipfile.ZipFile(output_path+'train.tsv.zip', 'r') as zipref: zipref.extractall(output_path) with zipfile.ZipFile(output_path+'test.tsv.zip', 'r') as zipref: zipref.extractall(output_path)
data:image/s3,"s3://crabby-images/63c06/63c066adb1c21fdb03cef2079cfe7042700e2781" alt=""
(結果例)
Downloading train.tsv.zip to ./kaggle_download_dataset 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1.28M/1.28M [00:01<00:00, 1.25MB/s] Downloading test.tsv.zip to ./kaggle_download_dataset 100%|███████████████████████████████████████████████████████████████████████████████████████████| 494k/494k [00:00<00:00, 5.65MB/s]
data:image/s3,"s3://crabby-images/0c9fe/0c9fe5b87cdb07b721fb98470785a19edd11ce0a" alt=""
↓
data:image/s3,"s3://crabby-images/a0409/a040925014857168e655abbff535300b57fc8e13" alt=""
# tsvファイルの読込み with open(output_path+'train.tsv', encoding='utf-8', newline='') as f: for cols in csv.reader(f, delimiter='\t'): print(cols)
data:image/s3,"s3://crabby-images/e74dc/e74dc4d3987e4f80e5876c76e32638a522eef6f6" alt=""
(1-4) エラー対処:HTTP 403エラーが出た時の対処方法について
●エラー
HTTP response body: b'{"code":403,"message":"Permission \\u0027competitions.downloadData\\u0027 was denied"}'
data:image/s3,"s3://crabby-images/27d31/27d3152cb06685781eb144062f87689a07e2192d" alt=""
●原因
data:image/s3,"s3://crabby-images/3a3bc/3a3bcc943edc617eaa80faf2308d53025276e646" alt=""
●対策
data:image/s3,"s3://crabby-images/1f232/1f23247bde5d452102033b0aa4cee0cf3296f074" alt=""
data:image/s3,"s3://crabby-images/d4e4d/d4e4d0737cfe5be47e92027e66472b6f7d5904d1" alt=""