Azure Synapse Analyticsの使い方（データ統合のやり方）

投稿日：2023年8月18日更新日：2024年12月31日

＜目次＞

Azure Synapse Analyticsの使い方（データ統合のやり方）
　やりたいこと／概要
　 STEP0：前提
　 STEP1：Synapseのワークスペースのセットアップ
　 STEP2：「サーバレスSQLプール」を使った分析
　 STEP3：「データエクスプローラー」を使った分析
　 STEP4：REST APIからのデータ取得
　 STEP5：パイプラインとの連携
　【注意】Azure Synapse Analyticsの料金について

Azure Synapse Analyticsの使い方（データ統合のやり方）

やりたいこと／概要

●やりたいこと

・Azure Synapse Analyticsの基本的な使い方を習得したい

・様々なソースのデータを結合して、データベースに投入する

●概要

・クラウドベースのデータ統合および分析サービス

・データの取り込み、管理、処理、および可視化を支援する

以降は下記のチュートリアルに沿って進めてみます。

「Get Started with Azure Synapse Analytics」

https://github.com/MicrosoftDocs/azure-docs/blob/main/articles/synapse-analytics/get-started.md

＞目次にもどる

STEP0：前提

Azureのアカウントを作成済み

＞目次にもどる

STEP1：Synapseのワークスペースのセットアップ

STEP1-1：リソースの作成

・①「Synapseワークスペースの作成」を押下

（図１１１）

↓

・②必要項目を入力して「確認および作成」

（図１１２①②）

↓

・③「作成」

（図１１３）

↓

・④「作成完了」

（図１１４）

STEP1-2：Synapse Studioを開く

・①「Synapse Studioを開く」

（図１３１）

↓

・②スタジオが起動

https://web.azuresynapse.net/

（図１３２）

STEP1-3：データの準備（サンプル）

・①サンプルデータのサイトを開く

https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page

（図２１１）

↓

・②「Green Taxi Trip Records」を選択

（図２１２）

↓

・③リネーム

（図２１３）

STEP1-4：アップロード

・①「Data」→「Linked」

（図２２１）

↓

・②ストレージを選択

（図２２２）

↓

・③「アップロード」

（図２２３）

↓

・④ファイル選択→「アップロード」

（図２２４）

↓

・⑤アップロード完了

アップロード完了すると2つのURLから利用可能になる。

（構文）

https://[Data Lake Storageアカウント名].dfs.core.windows.net/users/NYCTripSmall.parquet

abfss:// [Data Lake Storage ファイルシステム名]@[Data Lake Storageアカウント名].dfs.core.windows.net/NYCTripSmall.parquet

（例）

https://rainbowsynapsestorage.dfs.core.windows.net/users/NYCTripSmall.parquet

abfss://rainbowsynapsedatastorage@rainbowsynapsestorage.dfs.core.windows.net/NYCTripSmall.parquet

＞目次にもどる

STEP2：「サーバレスSQLプール」を使った分析

・①左メニュー「Develop」→「新しいSQLスクリプト」→「上位100行を選択」

上位100件

（図２３１）

↓

・②「実行」

（図２３２）

↓

・③実行結果が表示される

（図２３３）

＞目次にもどる

STEP3：「データエクスプローラー」を使った分析

STEP3-1：データエクスプローラーの「プール」作成

・①左メニューで「Data Explorer Pool」を選択

（図３１１）

↓

・②必要項目を入れて「確認および作成」

（図３１２）

↓

・③「作成」

（図３１３）

↓

・④作成完了

（図３１４）

STEP3-2：データエクスプローラーの「データベース」作成

・①左メニューで「Data」を選択

（図３２１）

↓

・②必要項目を入れて「確認および作成」

（図３２２）

↓

・③作成完了

（図３２３）

STEP3-3：簡単なクエリ実行（テーブル作成）

・①左メニュー「Develop」→「新しいSQLスクリプト」→「上位100行を選択」

（図３３１）

↓

・②「次に接続」で作成したExplorer poolを指定、「データベースの使用」で作成したExplorer databaseを指定

（図３３２）

↓

・③クエリを貼り付けて「実行」

.create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)

↓

・④実行結果が表示される

（図３３４）

STEP3-4：簡単なクエリ実行（レコード挿入）

・①下記クエリを貼り付けて「実行」

.ingest into table StormEvents 'https://kustosamples.blob.core.windows.net/samplefiles/StormEvents.csv' with (ignoreFirstRecord=true)

（図３４１）

↓

・②下記クエリを貼り付けて「実行」（結果確認）

StormEvents
| sort by StartTime desc
| take 10

（図３４２）

＞目次にもどる

STEP4：REST APIからのデータ取得

→（手順）Azure Synapse AnalyticsでRestAPIのデータを取得する方法

＞目次にもどる

STEP5：パイプラインとの連携

→（手順）Azure Synapse AnalyticsのパイプラインからREST APIを呼び出す方法

＞目次にもどる

【注意】Azure Synapse Analyticsの料金について

非常に強力な分、料金も他のAzureサービスと比較すると高いので、注意が必要。

⇒（参考）Azure Synapse Analyticsの価格やコストの見積もりについて

＞目次にもどる