IT技術を分かりやすく簡潔にまとめることによる学習の効率化、また日常の気付きを記録に残すことを目指します。

Azure Microsoft

Azure Machine LearningでDataStoreを作成してAzure Storage File Shares（ファイル共有）のデータを操作する方法

投稿日：2023年5月24日更新日：2024年5月3日

＜目次＞

(１) Azure Machine LearningでDataStoreを作成してAzure Storage File Shares（ファイル共有）のデータを操作する方法
　 (０-１) やりたいこと
　 (１-０) STEP0：前提条件（例）
　(１-１) STEP1：ワークスペースへの接続
　 (１-２) STEP2：DataStoreの生成
　 (１-３) STEP3：DataStoreを経由したデータアクセス処理の記述
　 (１-４) STEP4：実行と結果確認

(１) Azure Machine LearningでDataStoreを作成してAzure Storage File Shares（ファイル共有）のデータを操作する方法

(０-１) やりたいこと

・Azure Machine LearningからAzure Storage File Shares（ファイル共有）のファイル（例：画像データ）に「DataStore」経由でアクセスしたい。

（図１００）

・MS公式サイトによると、DataStoreは既存のStorage AccountをAzure Machine Learningで使えるようにするための『紐づけ設定』の様な位置づけです。

（図１０１）

＞目次にもどる

(１-０) STEP0：前提条件（例）

まだの方は下記記事に沿って実施頂けたらと思います。

→（手順）Azure Machine LearningでKerasを用いたモデルを作成～公開する手順（★準備中）

●STEP0-1：Azure Machine Learning

・Azure Machine Learningのリソースが作成済

・Compute clustersも作成済

（図１１１）Compute clustersの例

●STEP0-2：Azure Storage

・Azure Storage File Shares（ファイル共有）が作成済

・上記がAzure Machine Learningと紐づいている

（図１１２）Azure Storageのファイル共有の例

＞目次にもどる

(１-１) STEP1：ワークスペースへの接続

・①下記コードをAzure Machine LearningのNotebooksのセルに入力します。

（セル値1-1）

# Handle to the workspace
from azure.ai.ml import MLClient
# Authentication package
from azure.identity import DefaultAzureCredential
credential = DefaultAzureCredential()

（セル値1-2）

# Get a handle to the workspace
ml_client = MLClient(
    credential=credential,
    subscription_id="[サブスクリプションID]",
    resource_group_name="[Azure Machine Learningのリソースグループ名]",
    workspace_name="[Azure Machine Learningのワークスペース名]",
)

（図１２１）

＞目次にもどる

(１-２) STEP2：DataStoreの生成

Azure Machine Learningのワークスペースと紐づいている既存のStorage Accountにアクセスするための「データストア」を生成します。

●STEP2-1：Azure Storage側で、SASトークンを生成

・①Azure Machine Learningと紐づくAzure Storageを開き「Shared Access Signature」ブレードを選択。

（図１２２①）

↓

・②用途に応じて必要な内容を入力

・サービス＝BLOB、ファイルを選択

・リソース＝コンテナ、オブジェクトを選択

（図１２２②）

（補足）設定の理由

⇒（参考）Azure StorageでSASトークン発行時の「使用できるリソースの種類」の意味について（★準備中）

↓

・③「SASと接続文字列を生成する」を押下

→「SASトークン」はNotebooksの実装で使うので控える。

（図１２２③）

↓

・④ファイル共有名（file_share_name）の確認

（図１２２④）Azure Storageの「ファイル共有」

この記事ではファイル共有名「code-391ff5ac-6576-460f-ba4d-7e03433c68b6」をDataStore作成時の「file_share_name」で使用します。

●STEP2-2：Azure Machine LearningのNotebooksの実装

・①下記コードをAzure Machine LearningのNotebooksのセルに入力します。

（セル値2-1）

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities._credentials import (
     AccountKeyConfiguration,
     CertificateConfiguration,
     NoneCredentialConfiguration,
     SasTokenConfiguration,
     ServicePrincipalConfiguration,
 )
from azure.ai.ml import MLClient

store = AzureFileDatastore(
    name="file_sas_example",
    description="Datastore pointing to a file share using sas token.",
    account_name="[ご自身のストレージアカウント名]",
    file_share_name="[ご自身のストレージアカウントのファイル共有名]",
    credentials=SasTokenConfiguration(
        sas_token="[ご自身のSAS Token]"
    ),
)
ml_client.create_or_update(store)

（図１３１）

（結果例）

AzureFileDatastore({
'type': , 
'name': 'file_sas_example', 
'description': 'Datastore pointing to a file share using sas token.', 
'tags': {}, 
'properties': {}, 
'id': '/subscriptions/xxxxx/resourceGroups/rainbow-machine-learning/providers/Microsoft.MachineLearningServices/workspaces/rainbow-ml-workspace/datastores/file_sas_example', 
'Resource__source_path': None, 
'base_path': '/mnt/batch/tasks/shared/LS_root/mounts/clusters/rainbow-ml-compute/code/Users/xxxxx/keras_image_classification', 
'creation_context': None, 
'serialize': , 
'credentials': {'type': 'sas'}, 
'file_share_name': 'code-391ff5ac-6576-460f-ba4d-7e03433c68b6', 
'account_name': 'rainbowmlstorage', 
'endpoint': 'core.windows.net', 
'protocol': 'https'})

＞目次にもどる

(１-３) STEP3：DataStoreを経由したデータアクセス処理の記述

●STEP3-1：Azure Machine LearningのNotebooksの実装

・①下記コードをAzure Machine LearningのNotebooksのセルに入力します。

（セル値3-1）

from azure.ai.ml import command
from azure.ai.ml import UserIdentityConfiguration
from azure.ai.ml import Input

gpu_compute_target = "[ご自身のCompute clusters名]"
custom_env_name = "keras-env"
web_path = "azureml://datastores/file_sas_example/paths/Users/[ご自身のデータ格納先パス]"

# ジョブの最新環境を取得
job_env = ml_client.environments.get(name=custom_env_name, version=str(len(list(ml_client.environments.list(name=custom_env_name)))))
# ジョブの定義
job = command(
    # 入力パラメータの設定
    inputs=dict(
        data_folder=Input(type="uri_folder", path=web_path),
    ), 
    # CPU/GPUリソース
    compute=gpu_compute_target,
    # 実行環境
    environment=f"{job_env.name}:{job_env.version}",
    # 実行対象モジュールの格納先
    code="./src/",
    # 実行対象モジュールと引数
    command="python datastore_test_get_image.py --data-folder ${{inputs.data_folder}}",
    experiment_name="datastore_test_get_image",
    display_name="datastore_test_get_image",
)
# ジョブの実行
ml_client.jobs.create_or_update(job)

CPUクラスター、実行環境、データ格納先などを指定して、データアクセス用のPythonプログラムを呼び出しする処理です。実行するとJOBが生成され、JOBメニューから状況をモニタリングできます。

また、web_pathで指定したパスは環境（Dockerコンテナ）側にもマウントされて、アクセスが可能になります。

（図１４１）

●STEP3-2：NoteBooks経由で呼び出すPythonプログラムの実装

ここで、ジョブとして実行する処理（画像の処理や、モデル学習など）を記述します。今回は疎通確認用の処理として以下を行います。

（例）引数を受け取って、画像を（Azure MLワークスペースから）取得して、環境内（Dockerコンテナ）に保存してみる

（図１４２）

・①下記コードをAzure Machine LearningのNotebooksのセルに入力します。

（サンプルプログラム）datastore_test_get_image.py

from os import listdir
import os
import argparse
import matplotlib.image as mpimg
import mlflow

print("--- 引数の取得START")
parser = argparse.ArgumentParser()
# データセットの格納場所を設定
parser.add_argument(
    "--data-folder",
    type=str,
    dest="data_folder",
    default="data",
    help="data folder mounting point",
)
args = parser.parse_args()

# Start Logging
mlflow.start_run()

data_folder = args.data_folder
print("--- 引数の取得END")

photos, labels = list(), list()
# ディレクトリ内のサブフォルダをループ
print("===== LISTDIR: "+str(listdir(data_folder)))
for sub_folder in listdir(data_folder):
    
    # サブフォルダ内の子フォルダをループ
    print("===== SUBFOLDER: "+data_folder+"/"+sub_folder)

    # data配下が「ディレクトリか？」「ファイルか？」のチェック
    if os.path.isdir(data_folder+"/"+sub_folder):
        
        # サブディレクトリの場合、その中のファイルをループ 
        for file in listdir(data_folder+"/"+sub_folder):
            # サブフォルダ内の子フォルダをループ
            print("===== FILE: "+file)
            if file.startswith('.amlignore'):
                continue
            else:
                # データを保存する
                img = mpimg.imread(data_folder +"/"+ sub_folder +"/"+ file)
                mlflow.log_image(img, str(data_folder +"/"+ sub_folder +"/"+ file))
                
    else:
        # サブフォルダ内の子フォルダをループ
        print("===== FILE: "+sub_folder)
        # データを保存する
        img = mpimg.imread(data_folder +"/"+sub_folder)
        mlflow.log_image(img, str(data_folder +"/"+sub_folder))

mlflow.end_run()

これはAzure MLのワークスペース内にある画像を、Pythonプログラム内で読み取り、機械学習の環境であるDockerコンテナ内に保存する処理です（特に意味ナシ、疎通目的）。

（図１４３）

＞目次にもどる

(１-４) STEP4：実行と結果確認

●STEP4-1：セルを順番に実行

・認証 ⇒ DataStore作成 ⇒ ジョブ作成と順番に実行していきます。

（図１４４）

●STEP4-2：結果確認

⇒Dockerコンテナ内にも、犬と猫の画像が保存されました

（図１４５）

（参考）

・①基本知識

https://learn.microsoft.com/en-us/azure/machine-learning/how-to-datastore?tabs=cli-identity-based-access%2Ccli-adls-identity-based-access%2Csdk-azfiles-sas%2Csdk-adlsgen1-identity-access

・②認証部分

https://learn.microsoft.com/en-us/answers/questions/1148536/cannot-access-azure-storage-file-shares-from-azure.html

＞目次にもどる

-Azure, Microsoft
-IT#0728

執筆者：RainbowEngine

comment コメントをキャンセル

関連記事

: Outlookで予定を自動で転送する手順をご紹介

＜目次＞ (１) Outlookで予定を自動で転送する手順をご紹介　(１-１) 概要／イメージ　(１-２) 設定手順 (１) Outlookで予定を自動で転送する手順をご紹介本記事 …

: Microsoft Azureとは？概要や特徴および利用方法についての解説

(０)目次＆概説 (１) Azureとは？　(１-１) IaaSとは？　(１-２) PaaSとは？　(１-３) IDaaSとは？ (２) Azureのデータセンター　(２-１) Azureのデ …

: Azure Cosmos DBとは？特徴や構造およびデータ形式について

＜目次＞ (１) Azure Cosmos DBとは？特徴や構造およびデータ形式について　(１-１) Azure Cosmos DBとは？　(１-２) Azure Cosmos DB …

: Azure Storageをネットワークドライブに割り当てする方法

＜目次＞ (１) Azure Storageをネットワークドライブに割り当てする方法　(１-１) Azure Storageについて　(１-２) ネットワークドライブへの割り当て手順 …

: Azureの「NSG」とは？概要と設定方法について

＜目次＞ (１) Azureの「NSG」とは？概要と設定方法について　(１-１) NSG（ネットワークセキュリティグループ）とは？　(１-２) NSGの設定内容について　(１-３) …

PREV: FitBitのAPIを使って心拍数を取得する（Python）
NEXT: Azure Machine LearningからAzure StorageのFile Shares（ファイル共有）のデータにアクセスする方法

言語 / Language

English (United States)
日本語

検索

人気記事

最新記事

アーカイブ

カテゴリー

Anaplan (2)
Apache (11)
ASP.NET (20)
C# (53)
- Xamarin (4)
C++ (32)
- Valgrind (5)
Cisco (1)
CPU (1)
Database (データベース) (5)
- SQL (2)
GitHub (12)
HTML/css (5)
IT技術 (Technology) (90)
Java (133)
- Eclipse (15)
- JFreeChart (3)
- JSP/Servlet (47)
JavaScript (23)
- jQuery (5)
JP1 (1)
Linux (41)
- CentOS (18)
Microsoft (65)
- Azure (50)
- Azure DevOps (2)
- Yammer (1)
Nginx (2)
OpenAI (4)
OracleDB (26)
PL/SQL (2)
Pleasanter (5)
Powershell (9)
Python (56)
- OpenCV (1)
- Pandas (6)
ShellScript (4)
Slack (6)
SQLServer (12)
Tomcat (21)
TortoiseSVN (7)
VB.NET (2)
VBA (13)
VisualStudio (7)
Windows Server (18)
- Hyper-V (1)
WordPress (5)
つみたてNISA (4)
コボット (1)
スキャナ技術 (Scanner) (1)
ドメイン (Domain) (6)
ネットワーク (Network) (19)
ノートパソコン (15)
- モバイルバッテリー (9)
- 電源カフェ (6)
バッチ処理 (Batch Scripts) (14)
パフォーマンスモニタ (Performance Monitor) (3)
ブレインテック (2)
レンタルサーバ (7)
作業効率化 (1)
動画編集 (2)
- AviUtl (1)
日常 (Daily Life) (64)
- ディズニー (Disney) (2)
- 旅行 (Travel) (13)
- 睡眠 (Sleep) (3)
- 結婚式 (Wedding) (1)
- 美容・健康 (Beauty&Health) (28)
未分類 (2)
機械学習 (Machine Learning) (25)
- Keras (3)
- Tensorflow (3)
英語 (English) (1)
財務会計 (Financial Accounting) (16)

Top