PythonのdatapackageとSQLAlchemy、SQLiteを使ってcsvデータをSELECTする

(０)目次＆概説

(１) 今回の目的
　 (１-１) 目的
　 (１-２) 前提条件
 (２) 実施手順
　 (２-０) 事前作業
　 (２-１) データ（csv）のロード
　 (２-２) エンジンの作成
　 (２-３) データファイルの作成・保存
　 (２-４) SQLのSELECT句発行
　 (２-５) サンプルプログラムと実行結果例
 (３) サンプルプログラムの補足説明
　 (３-１) from XXX import YYY
　(３-２) datapackageのPackageクラス
 (４) 用語説明
　 (４-１) Pythonのdatapackageとは？
　(４-２) SQLAlchemyとは？

(１) 目的と前提条件

(１-１) 目的

この記事ではPythonの「datapackage」と「SQLAlchemy」および「SQLite」を用いて、Web上で公開しているcsv形式のデータをSQLiteのデータファイルに保存し、それを照会する方法について紹介します。

＞目次にもどる

(１-２) 前提条件

１．Python3がインストールされていること
２．PyScripterがインストールされていること

＞目次にもどる

(２) 実施手順

データや手順などはこちらのサイトを参考に進めています。
https://datahub.io/core/s-and-p-500-companies

ここからの手順は新しくPythonのモジュールを作成して行います。

（図２０１）

(２-０) 事前作業

もし「datapackage」や「sqlalchemy」のパッケージがインストールされていない場合は事前にインストールを行います。資源はPyPIのサイトからダウンロードし、pipコマンドでインストールをします。下記はdatapackageのインストール例ですが、sqlalchemyも同様に行います。

（図２０２）
・資源ダウンロード

↓
・pipコマンドでインストール

↓
・インストール完了

パッケージのインストールの詳細な流れについて押さえたい場合は、下記の記事などもご参照ください。Pandasライブラリのインストール手順を例に淳を追って記載しています。
https://rainbow-engine.com/install-pandas-python/

＞目次にもどる

(２-１) データ（csv）のロード

datapackageパッケージのPackageクラスをインポートして、Packageのインスタンスを作成します。Packageの引数にはロードするcsvを公開しているURLを指定します。

from datapackage import Package
package = Package('https://datahub.io/core/s-and-p-500-companies/datapackage.json')

＞目次にもどる

(２-２) エンジンの作成

SQLAlchemyにおいてDB接続する際の起点となるオブジェクトを「エンジン」と呼んでいます。「エンジン」オブジェクトを作るにはsqlalchemyパッケージのcreate_engineファンクションを使います。

前半の第一引数は「Dialect」と呼ばれ「oracle」や「mysql」といったデータベースの種類を指定します。今回の例では「sqlite」を指定しており、続く「:///」の記述の後の部分はデータファイル名を指定しています。

from sqlalchemy import create_engine
engine = create_engine('sqlite:///periodic-table-datapackage_company.db')

注意点として、create_engineを実行してもDBAPIへのコネクションが張られる訳ではなく、あくまで「create_engine.execute([SQL])」や「create_engine.connect()」等のカーソルメソッドを実行する事で初めてDBAPIとの接続が行われます。

＞目次にもどる

(２-３) データファイルの作成・保存

データファイルの作成保存はdatapackageパッケージのPackageクラスの「save」メソッドを利用します。デフォルトではモジュール(.py)と同じ階層に「.db」ファイルが作成されます。

datapackage.package.Package('https://datahub.io/core/s-and-p-500-companies/datapackage.json').save(storage='sql', engine=engine)

（図２３１）
Pythonモジュールと同じ階層に.dbファイルが保存された

＞目次にもどる

(２-４) SQLのSELECT句発行

今回はcreate_engineの中にあるexecuteメソッドを実行して、引数で指定したSQLの結果を取得します。取得した結果はlist()関数でlist形式に変換し、printでコンソール出力しています。

＜参考＞create_engineのexecuteメソッドについて

print(list(engine.execute('SELECT * from constituents_csv where Name like \'%Bank%\'')))

＞目次にもどる

(２-５) サンプルプログラムと実行結果例

■サンプルプログラム
上記(２-１)～(２-４)の内容を踏まえたサンプルプログラム。

import datapackage
import sqlalchemy

def main():

    pkg = datapackage.package.Package('https://datahub.io/core/s-and-p-500-companies/datapackage.json')
    from sqlalchemy import create_engine
    engine = create_engine('sqlite:///periodic-table-datapackage_company3.db')
    datapackage.package.Package('https://datahub.io/core/s-and-p-500-companies/datapackage.json').save(storage='sql', engine=engine)
    print(list(engine.execute('SELECT * from constituents_csv where Name like \'%Bank%\'')))

if __name__ == '__main__':
    main()

■実行結果
（図２５１）
Python Interpreterのコンソールに「Bank」を社名に含む企業が表示されている。

＞目次にもどる

(３) サンプルプログラムの補足説明

上記の(２-５)で紹介したサンプルプログラムの内容について補足説明します。

(３-１) from XXX import YYY

「from XXX import YYY」は意味合い的には「import XXX.YYY」と同じですが、前者の書き方の場合をすれば使う際にいちいちXXX.YYYと書かずに省略して「YYY」で済むのでスマート。具体的には次の２つは同じ意味になります。

・書き方１

import datapackage
from datapackage import Package
[変数] = Package([引数群])

・書き方２

import datapackage
[変数] = datapackage.package.Package([引数群])

＞目次にもどる

(３-２) datapackageのPackageクラス

Packageクラスは「datapackage」パッケージの中の「package」モジュールの中にあります。

datapackageパッケージ
　∟packageモジュール
　　∟Packageクラス

Packageクラスをインスタンス化してロードしたデータを閲覧する場合は「resources」（=datapackage.package.Package.resources）などで内容を確認する事もできます（データ量が多いと大変ですが・・）。また「resource_names」（=datapackage.package.Package.resource_names）でロードしたファイルの一覧を取得できます。

＞目次にもどる

(４) 用語説明

(４-１) Pythonのdatapackageとは？

Data PackageはローカルやリモートにあるCSVやJSON形式のデータを扱う事ができるPythonパッケージです。例えば、年度別の複数ファイルに分かれたデータを読み込んでテーブルにINSERTしたりなど、データ加工のための機能が多数あります。

＞目次にもどる

(４-２) SQLAlchemyとは？

SQLALchemyはPythonのORM(Object Relational Mapper)です。
ORMとはリレーショナルデータベースとオブジェクト指向のオブジェクトとの間のデータ形式の際を吸収するための仲介役のライブラリです。ORMのライブラリを用いるとSQLを使わずに、SQLと同等の内容をオブジェクト指向言語で記載できます。

（例）

SELECT * FROM JOBS WHERE job_name = 'Engineer';
↓
var orm = require('generic-orm-libarry');
var job = orm("JOBS").where({ job_name: 'Engineer' });

＞目次にもどる