IT技術を分かりやすく簡潔にまとめることによる学習の効率化、また日常の気付きを記録に残すことを目指します。

Azure Microsoft

PDFをテキスト化する方法（Azure Cognitive Service）

投稿日：2023年7月8日更新日：2024年5月29日

＜目次＞

(１) PDFをテキスト化する方法（Azure Cognitive Service）
　やりたいこと
　概要
　 STEP0：前提条件
　 STEP1：Azureのリソース作成
　 STEP2：必要なパッケージのインストール
　 STEP3：サンプルプログラムの実行

(１) PDFをテキスト化する方法（Azure Cognitive Service）

やりたいこと

・PDFファイルをテキスト化する

＞目次にもどる

概要

・Azure Form Recognizerを使用してPDFからテキストを抽出

＞目次にもどる

STEP0：前提条件

（前提）

・Visual Studio Codeがインストール済

・Pythonの開発環境が準備済み（例：Visual Studio Code

・Azureのアカウントを作成済み

＞目次にもどる

STEP1：Azureのリソース作成

Cognitive Services または Form Recognizer リソースを作成する必要あり（以下の例はCognitive Service）

・①「Form Recognizer」を「＋作成」

（図１１０）

・②必要情報を入力して「確認と作成」→「作成」

（図１１１）

↓

（図１１２）

・③「キー」と「エンドポイント」を控える

（図１１３）

＞目次にもどる

STEP2：必要なパッケージのインストール

・①Visual Studio Codeのターミナルから、以下のコマンドを実行してパッケージをインストール。

> pip install azure-ai-formrecognizer
> pip install azure-core

（図２１１）

（図２１２）

＞目次にもどる

STEP3：サンプルプログラムの実行

（サンプルプログラム）

import logging
from azure.ai.formrecognizer import DocumentAnalysisClient
from azure.core.credentials import AzureKeyCredential

"""
概要
    PDFファイルを文字データに変換する
引数
    _io.BufferedReader: PDFファイル
戻り値
    str: PDFの文字データ
"""
END_POINT = "https://xxxxxxxxxxxx.cognitiveservices.azure.com/"
KEY = "xxxxxxxxxxxxxxxxxxxxxxxxxx"

def analyze_general_documents(binary_file, logger):
    """
    binaryファイルを解析し、記載されている文字列を抽出します。
    """
    # DocumentAnalysisClientクラスのインスタンスを作成
    # →Form Recognizerのサービスを使える様にする
    document_analysis_client = DocumentAnalysisClient(endpoint=END_POINT, credential=AzureKeyCredential(KEY))
    
    # ドキュメントの解析
    # →ドキュメントの取得方法は「ファイルから」と「URLから」の2通りがある
    # (1)ファイル形式のドキュメント
    poller = document_analysis_client.begin_analyze_document("prebuilt-document", binary_file)
    # (2)URLからドキュメントを取得
    # poller = document_analysis_client.begin_analyze_document_from_url("prebuilt-document", docUrl)
    
    # 戻り値：AsyncLROPoller のインスタンス
    # →poller オブジェクトで result() を呼び出して、 を AnalyzeResult返します。
    result = poller.result()

    # 結果格納用の配列
    text_of_doc = []
    # 結果は「ページ単位」に分かれている
    for page in result.pages:
        # 更にその中で「行単位」に分かれる
        for line_idx, line in enumerate(page.lines):
            # 行単位に「単語」の情報を抽出
            words = line.get_words()
            for word in words:
                # リストに追加
                text_of_doc.append(word.content)

    # 配列の中身を、1つの変数に格納しなおす       
    final_text = ""
    for text in text_of_doc:
        final_text += text
    
    logger.debug(f"PDF解析結果: {final_text}")

    return final_text

# スクリプトとして実行する際、Pythonは __name__ 変数に "__main__" という値を設定します。
# 一方で、他のモジュールからインポートされた場合は、モジュール名が __name__ 変数に設定されます。
if __name__ == "__main__":
    # ログメッセージの出力フォーマットを指定
    # asctime: ログレコードが作成された日時
    # name: ロガーの名前
    # levelname: ログレベルの名前
    # message: ログメッセージの内容
    logging.basicConfig(format='=== : %(asctime)s - %(name)s - %(levelname)s - %(message)s',level=logging.DEBUG)
    # 現在のモジュールの名前と同じ名前のロガーを取得する
    logger = logging.getLogger(__name__)

    # PDFファイルの読み込み
    binary_file = open("[ファイルパス].pdf", "rb")
    
    # PDFファイルの解析（文字データ化）
    result = analyze_general_documents(binary_file, logger)

・テストデータイメージ（※冒頭の2ページのみ）

（図３１２）

・実行結果

（図３１３）

（図３１１）ドキュメントの取得方法は「ファイルから」と「URLから」の2通りある

（参考）

https://learn.microsoft.com/ja-jp/azure/applied-ai-services/form-recognizer/quickstarts/get-started-sdks-rest-api?view=form-recog-3.0.0&pivots=programming-language-python

＞目次にもどる

-Azure, Microsoft
-IT#0748

執筆者：RainbowEngine

comment コメントをキャンセル

関連記事

: 「Not enough quota available」エラーがAzureで発生した際の原因／対処について

＜目次＞ (１) 「Not enough quota available」エラーがAzureで発生した際の原因／対処について　(１-１) エラーメッセージ　(１-２) 原因　(１- …

: Azure Synapse AnalyticsでRestAPIのデータを取得する方法

＜目次＞ Azure Synapse AnalyticsでRestAPIのデータを取得する方法　やりたいこと／概要　STEP0：前提条件　STEP1：リンクサービスの作成（例）　 …

: AzureのText to Speechで声のトーンを変える方法

＜目次＞ (１) AzureのText to Speechで声のトーンを変える方法　やりたいこと　(１-０) 概要　(１-１) STEP1：SSMSの設定　(１-２) STEP2 …

: AzureのAZ900の試験対策について（Microsoft Azure Fundamentals）

＜目次＞ (１) AzureのAZ900の試験対策について（Microsoft Azure Fundamentals）　(１-１) AZ900（Microsoft Azure Fund …

: Azureリソースグループの作り方の手順について

＜目次＞ (１) Azureリソースグループの作り方の手順について　(１-１) Azureリソースグループとは？　(１-２) Azureリソースグループの作成手順　(１-３) Az …

PREV: OpenAIのEmbeddingの使い方
NEXT: GitHubで「remote: Permission to XXXX denied to XXXX.」エラーが出る原因と対処

言語 / Language

English (United States)
日本語

検索

人気記事

最新記事

アーカイブ

カテゴリー

Anaplan (2)
Apache (11)
ASP.NET (20)
C# (53)
- Xamarin (4)
C++ (32)
- Valgrind (5)
Cisco (1)
CPU (1)
Database (データベース) (5)
- SQL (2)
GitHub (12)
HTML/css (5)
IT技術 (Technology) (90)
Java (133)
- Eclipse (15)
- JFreeChart (3)
- JSP/Servlet (47)
JavaScript (23)
- jQuery (5)
JP1 (1)
Linux (41)
- CentOS (18)
Microsoft (65)
- Azure (50)
- Azure DevOps (2)
- Yammer (1)
Nginx (2)
OpenAI (4)
OracleDB (26)
PL/SQL (2)
Pleasanter (5)
Powershell (9)
Python (56)
- OpenCV (1)
- Pandas (6)
ShellScript (4)
Slack (6)
SQLServer (12)
Tomcat (21)
TortoiseSVN (7)
VB.NET (2)
VBA (13)
VisualStudio (7)
Windows Server (18)
- Hyper-V (1)
WordPress (5)
つみたてNISA (4)
コボット (1)
スキャナ技術 (Scanner) (1)
ドメイン (Domain) (6)
ネットワーク (Network) (19)
ノートパソコン (15)
- モバイルバッテリー (9)
- 電源カフェ (6)
バッチ処理 (Batch Scripts) (14)
パフォーマンスモニタ (Performance Monitor) (3)
ブレインテック (2)
レンタルサーバ (7)
作業効率化 (1)
動画編集 (2)
- AviUtl (1)
日常 (Daily Life) (64)
- ディズニー (Disney) (2)
- 旅行 (Travel) (13)
- 睡眠 (Sleep) (3)
- 結婚式 (Wedding) (1)
- 美容・健康 (Beauty&Health) (28)
未分類 (2)
機械学習 (Machine Learning) (25)
- Keras (3)
- Tensorflow (3)
英語 (English) (1)
財務会計 (Financial Accounting) (16)

Top