<目次>
Azure Synapse Analyticsの使い方(データ統合のやり方)
やりたいこと/概要
STEP0:前提
STEP1:Synapseのワークスペースのセットアップ
STEP2:「サーバレスSQLプール」を使った分析
STEP3:「データエクスプローラー」を使った分析
STEP4:REST APIからのデータ取得
STEP5:パイプラインとの連携
【注意】Azure Synapse Analyticsの料金について
Azure Synapse Analyticsの使い方(データ統合のやり方)
やりたいこと/概要
●やりたいこと
・Azure Synapse Analyticsの基本的な使い方を習得したい
・様々なソースのデータを結合して、データベースに投入する
●概要
・クラウドベースのデータ統合および分析サービス
・データの取り込み、管理、処理、および可視化を支援する
以降は下記のチュートリアルに沿って進めてみます。
「Get Started with Azure Synapse Analytics」
STEP0:前提
STEP1:Synapseのワークスペースのセットアップ
STEP1-1:リソースの作成
・①「Synapseワークスペースの作成」を押下
(図111)
↓
・②必要項目を入力して「確認および作成」
(図112①②)
data:image/s3,"s3://crabby-images/a8bd4/a8bd4cfab858407651840160b6a37a9908416368" alt=""
↓
・③「作成」
(図113)
data:image/s3,"s3://crabby-images/4323a/4323add3ae458a7847d0249e37393e624dea8cb0" alt=""
↓
・④「作成完了」
(図114)
STEP1-2:Synapse Studioを開く
・①「Synapse Studioを開く」
(図131)
data:image/s3,"s3://crabby-images/88c21/88c2144b87110f86485a39504a603dca72608205" alt=""
↓
・②スタジオが起動
https://web.azuresynapse.net/
(図132)
STEP1-3:データの準備(サンプル)
・①サンプルデータのサイトを開く
(図211)
data:image/s3,"s3://crabby-images/92b76/92b764a7f5a3aa1b249bf767bde7e99923121cf1" alt=""
↓
・②「Green Taxi Trip Records」を選択
(図212)
data:image/s3,"s3://crabby-images/f0088/f0088cfcae3c3adefdd3c95e2186e91eadf694ef" alt=""
↓
・③リネーム
(図213)
data:image/s3,"s3://crabby-images/b3281/b328132bcfc6edda90614606ab0a01a3103b4558" alt=""
STEP1-4:アップロード
・①「Data」→「Linked」
(図221)
data:image/s3,"s3://crabby-images/2be5d/2be5dc23add3cd3e1bba7f486b268a3ccc710439" alt=""
↓
・②ストレージを選択
(図222)
data:image/s3,"s3://crabby-images/49102/4910226c7e559676a6022b405e99b5eb630b1bc1" alt=""
↓
・③「アップロード」
(図223)
data:image/s3,"s3://crabby-images/ea243/ea2432edeeefb63d8e126f2fcf33bdbf368a497d" alt=""
↓
・④ファイル選択→「アップロード」
(図224)
data:image/s3,"s3://crabby-images/9525e/9525e5a45e96788069292bdf591e906d9901e4d0" alt=""
↓
・⑤アップロード完了
アップロード完了すると2つのURLから利用可能になる。
(構文)
https://[Data Lake Storageアカウント名].dfs.core.windows.net/users/NYCTripSmall.parquet
abfss:// [Data Lake Storage ファイルシステム名]@[Data Lake Storageアカウント名].dfs.core.windows.net/NYCTripSmall.parquet
(例)
https://rainbowsynapsestorage.dfs.core.windows.net/users/NYCTripSmall.parquet
abfss://rainbowsynapsedatastorage@rainbowsynapsestorage.dfs.core.windows.net/NYCTripSmall.parquet
STEP2:「サーバレスSQLプール」を使った分析
・①左メニュー「Develop」→「新しいSQLスクリプト」→「上位100行を選択」
上位100件
(図231)
data:image/s3,"s3://crabby-images/b251d/b251d1499c25dec66aa1677b00ef02e8cc5f30f0" alt=""
↓
・②「実行」
(図232)
↓
・③実行結果が表示される
(図233)
STEP3:「データエクスプローラー」を使った分析
STEP3-1:データエクスプローラーの「プール」作成
・①左メニューで「Data Explorer Pool」を選択
(図311)
data:image/s3,"s3://crabby-images/f01b4/f01b48eecfc50f21bd1d38976cf66ebe540b17e3" alt=""
↓
・②必要項目を入れて「確認および作成」
(図312)
data:image/s3,"s3://crabby-images/8b965/8b965c3e525fde614749815f5d5359025df1f9cc" alt=""
↓
・③「作成」
(図313)
data:image/s3,"s3://crabby-images/8d510/8d510cee6ff5b7e33f77a4f0a77dbfd8270774e0" alt=""
STEP3-2:データエクスプローラーの「データベース」作成
・①左メニューで「Data」を選択
(図321)
↓
・②必要項目を入れて「確認および作成」
(図322)
data:image/s3,"s3://crabby-images/becc8/becc896cb4453d5c99e28434cc87e0ea04d8fca0" alt=""
STEP3-3:簡単なクエリ実行(テーブル作成)
・①左メニュー「Develop」→「新しいSQLスクリプト」→「上位100行を選択」
(図331)
data:image/s3,"s3://crabby-images/30361/30361aae5a3d1e3f4a2bd0239e3156fe8a1f8c91" alt=""
↓
・②「次に接続」で作成したExplorer poolを指定、「データベースの使用」で作成したExplorer databaseを指定
(図332)
data:image/s3,"s3://crabby-images/99fb3/99fb39dffaae21b0ef7bb94bf616200f9a921cbd" alt=""
.create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
STEP3-4:簡単なクエリ実行(レコード挿入)
・①下記クエリを貼り付けて「実行」
.ingest into table StormEvents 'https://kustosamples.blob.core.windows.net/samplefiles/StormEvents.csv' with (ignoreFirstRecord=true)
(図341)
data:image/s3,"s3://crabby-images/3f396/3f3962d5236eb05a40e59f23391e700fdfd9936c" alt=""
↓
・②下記クエリを貼り付けて「実行」(結果確認)
StormEvents
| sort by StartTime desc
| take 10
(図342)
STEP4:REST APIからのデータ取得
STEP5:パイプラインとの連携
【注意】Azure Synapse Analyticsの料金について
非常に強力な分、料金も他のAzureサービスと比較すると高いので、注意が必要。