IT技術を分かりやすく簡潔にまとめることによる学習の効率化、また日常の気付きを記録に残すことを目指します。

Azure Microsoft

Azure Blob Storage上にあるPDFファイルをテキスト変換する方法

投稿日：2023年7月20日更新日：2024年7月15日

＜目次＞

(１) Azure Blob Storage上にあるPDFファイルをテキスト変換する方法
　やりたいこと
　 (１-０) STEP0：前提条件
　 (１-１) STEP1：Pythonモジュールの準備
　 (１-２) STEP2：環境構築
　 (１-３) STEP3：プログラムの実行

(１) Azure Blob Storage上にあるPDFファイルをテキスト変換する方法

やりたいこと

・Azure Blob Storage上にあるPDFを読み込み、その内容をAzure Form Recognizerに連携してテキストデータに変換する

（備考）

ローカルのPDFを読む場合に比べ、バイトストリームでの読込みなど少し工夫が必要

＞目次にもどる

(１-１) STEP0：前提条件

・Pythonの開発環境が準備済み（例：Visual Studio Code）

・Azureのアカウントを作成済み

・Azure StorageにPythonで疎通済

・Azure Form Recognizerのリソースを作成済

＞目次にもどる

(１-１) STEP1：Pythonモジュールの準備

ファイルは以下の3つを作ります。

・①azurestorage_pdf_to_text.py：メインモジュール

・②.env：環境変数

・③requirements.txt：必要なパッケージのインストール

●STEP1-1：①azurestorage_pdf_to_text.py

（サンプル）

import io
import os
from dotenv import load_dotenv
from azure.storage.blob import BlobServiceClient
from azure.ai.formrecognizer import DocumentAnalysisClient
from azure.core.credentials import AzureKeyCredential
# 環境変数読み込み
load_dotenv()

form_recognizer_end_point = os.environ.get('FORM_RECOGNIZER_END_POINT')
form_recognizer_key = os.environ.get('FORM_RECOGNIZER_KEY')
storage_account_name = os.environ.get('STORAGE_ACCOUNT_NAME')
storage_account_key = os.environ.get('STORAGE_ACCOUNT_KEY')
container_name = os.environ.get('CONTAINER_NAME')

# PDFファイルの解析（文字データ化）
def analyze_general_documents(stream):
    """
    binaryファイルを解析し、記載されている文字列を抽出します。
    """
    # DocumentAnalysisClientクラスのインスタンスを作成（Azure Form Recognizerに接続する）
    # →Form Recognizerのサービスを使える様にする
    document_analysis_client = DocumentAnalysisClient(
        endpoint=form_recognizer_end_point,
        credential=AzureKeyCredential(form_recognizer_key)
    )    
    # ドキュメントの解析
    poller = document_analysis_client.begin_analyze_document("prebuilt-document", stream)

    # 戻り値：AsyncLROPoller のインスタンス
    # →poller オブジェクトで result() を呼び出して、 を AnalyzeResult返します。
    result = poller.result()

    # 結果格納用の配列
    text_of_doc = []
    # 結果は「ページ単位」に分かれている
    for page in result.pages:
        # 更にその中で「行単位」に分かれる
        for line_idx, line in enumerate(page.lines):
            # 行単位に「単語」の情報を抽出
            words = line.get_words()
            for word in words:
                # リストに追加
                text_of_doc.append(word.content)

    # 配列の中身を、1つの変数に格納しなおす       
    final_text = ""
    for text in text_of_doc:
        final_text += text

    return final_text

def main():

    # BLOB名称
    # blob_name = '[ご自身のファイル名].pdf'
    blob_name = 'test.pdf'
    # BlobServiceClientオブジェクトを作成
    blob_service_client = BlobServiceClient(
        account_url=f"https://{storage_account_name}.blob.core.windows.net/",
        credential=storage_account_key
    )
    blob_client = blob_service_client.get_blob_client(container_name, blob_name)

    # Blob StorageからPDFファイルをバイトストリームとして読み込む
    stream = io.BytesIO()
    blob_client.download_blob().download_to_stream(stream)
    stream.seek(0)

    # Azure Form Recognizerに接続し、PDFを文字データに変換
    result = analyze_general_documents(stream)
    print(result)

if __name__ == "__main__":
     main()

（図１１１）

＞目次にもどる

●STEP1-2：②.env：環境変数

FORM_RECOGNIZER_END_POINT = "https://xxxxxx.cognitiveservices.azure.com/"
FORM_RECOGNIZER_KEY = "xxxxx"
STORAGE_ACCOUNT_NAME='xxxxxx'
STORAGE_ACCOUNT_KEY='xxxxxx'
CONTAINER_NAME='xxxxxxx'

（図１２１）

＞目次にもどる

●STEP1-3：③requirements.txt：必要なパッケージのインストール

→ここでは事前に定義のみして、実際のインストールは次の工程で実施します。

python-dotenv==1.0.0
azure-ai-formrecognizer==3.2.1
azure-core==1.26.4
azure-storage-blob==12.16.0

（図１３１）

＞目次にもどる

(１-２) STEP2：環境構築

●STEP2-1：仮想環境の構築

仮想環境を作っておく事で、必要なパッケージのみの最低限の環境を作れます（影響調査などしやすくなります）

> python -m venv .venv

（図２１１）

＞目次にもどる

●STEP2-2：仮想環境のアクティベート

> .\.venv\Scripts\activate

（図２１２）

＞目次にもどる

●STEP2-3：仮想環境のアクティベート

requirements.txtに必要なものは事前に記述してあるので、その内容をインストールするよう指示してます

> pip install -r requirements.txt

＞目次にもどる

(１-３) STEP3：プログラムの実行

・①実行
（構文）

> .\.venv\Scripts\python.exe [ファイルパス]\[モジュール名].py

（例）

> .\.venv\Scripts\python.exe .\pdf_to_text\azurestorage_pdf_to_text.py

（図２２１）

・②実行結果の確認
→PDFの文字内容をテキスト化できている事が確認できました。

（図２２２）

＞目次にもどる

-Azure, Microsoft
-IT#0754

執筆者：RainbowEngine

comment コメントをキャンセル

関連記事

: Azure Machine LearningでDataStoreを作成してAzure Storage File Shares（ファイル共有）のデータを操作する方法

＜目次＞ (１) Azure Machine LearningでDataStoreを作成してAzure Storage File Shares（ファイル共有）のデータを操作する方法　( …

: 右クリックで「マウント」が表示されない際の対処方法

＜目次＞ (１) 右クリックで「マウント」が表示されない際の対処方法　(１-１) 事象　(１-２) 原因　(１-３) 対策　(１-４) 用語「ISO」について　(１-５) 用語 …

: Azureの可用性ゾーンとは？概要や設定画面の例も交えてご紹介

＜目次＞ (１) Azureの可用性ゾーンとは？概要や設定画面の例も交えてご紹介　(１-１) Azureの可用性ゾーンが無い場合に起きる問題　(１-２) Azureの可用性ゾーンとは …

: AzureのAZ900の試験対策について（Microsoft Azure Fundamentals）

＜目次＞ (１) AzureのAZ900の試験対策について（Microsoft Azure Fundamentals）　(１-１) AZ900（Microsoft Azure Fund …

: Azure AD（Azure Active Directory）とは？簡単に概要をご紹介

＜目次＞ (１) Azure AD（Azure Active Directory）とは？簡単に概要をご紹介　(１-１) ひと昔の認証の仕組み（Active Directoryが無い時代 …

PREV: AWSの始め方（アカウントの作成からPythonでS3バケット操作まで）
NEXT: Gremlinとは？セットアップとHello Worldまで

言語 / Language

English (United States)
日本語

検索

人気記事

最新記事

アーカイブ

カテゴリー

Anaplan (2)
Apache (11)
ASP.NET (20)
C# (53)
- Xamarin (4)
C++ (32)
- Valgrind (5)
Cisco (1)
CPU (1)
Database (データベース) (5)
- SQL (2)
GitHub (12)
HTML/css (5)
IT技術 (Technology) (90)
Java (133)
- Eclipse (15)
- JFreeChart (3)
- JSP/Servlet (47)
JavaScript (23)
- jQuery (5)
JP1 (1)
Linux (41)
- CentOS (18)
Microsoft (65)
- Azure (50)
- Azure DevOps (2)
- Yammer (1)
Nginx (2)
OpenAI (4)
OracleDB (26)
PL/SQL (2)
Pleasanter (5)
Powershell (9)
Python (56)
- OpenCV (1)
- Pandas (6)
ShellScript (4)
Slack (6)
SQLServer (12)
Tomcat (21)
TortoiseSVN (7)
VB.NET (2)
VBA (13)
VisualStudio (7)
Windows Server (18)
- Hyper-V (1)
WordPress (5)
つみたてNISA (4)
コボット (1)
スキャナ技術 (Scanner) (1)
ドメイン (Domain) (6)
ネットワーク (Network) (19)
ノートパソコン (15)
- モバイルバッテリー (9)
- 電源カフェ (6)
バッチ処理 (Batch Scripts) (14)
パフォーマンスモニタ (Performance Monitor) (3)
ブレインテック (2)
レンタルサーバ (7)
作業効率化 (1)
動画編集 (2)
- AviUtl (1)
日常 (Daily Life) (64)
- ディズニー (Disney) (2)
- 旅行 (Travel) (13)
- 睡眠 (Sleep) (3)
- 結婚式 (Wedding) (1)
- 美容・健康 (Beauty&Health) (28)
未分類 (2)
機械学習 (Machine Learning) (25)
- Keras (3)
- Tensorflow (3)
英語 (English) (1)
財務会計 (Financial Accounting) (16)

Top