IT技術を分かりやすく簡潔にまとめることによる学習の効率化、また日常の気付きを記録に残すことを目指します。

Azure Microsoft Python

Azure Cognitive Searchを行うPythonプログラム（ドキュメント検索）

投稿日：2023年9月22日更新日：2025年1月4日

＜目次＞

Azure Cognitive Searchを行うPythonプログラム（ドキュメント検索）
　STEP0：前提条件
　 STEP1：キーとURLの取得
　 STEP2：セマンティック検索の有効化
　 STEP3：サンプルプログラムの準備
　 STEP4：動かし方

Azure Cognitive Searchを行うPythonプログラム（ドキュメント検索）

やりたいこと

・Azure Cognitive Searchのセマンティック検索をPythonで行いたい

（備考）

通常の検索は下記を参照（セマンティック検索を使わない検索）

→Azure Cognitive Searchの使い方をご紹介（Pythonサンプルあり）

＞目次にもどる

STEP0：前提条件

以下記事に沿って「セマンティック検索」の疎通が済んでいること

→（手順）Azure_Blobでファイル検索（セマンティック検索）する方法

＞目次にもどる

STEP1：キーとURLの取得

（図１１１）

＞目次にもどる

STEP2：セマンティック検索の有効化

（図２１１）

↓

（図２１２）

＞目次にもどる

STEP3：サンプルプログラムの準備

特定のインデックスに対する検索クエリを実行する

（サンプルプログラム）

import json
import requests
import env

COG_SEARCH_URL = env.get_env_variable("COG_SEARCH_URL")
COG_SEARCH_KEY = env.get_env_variable("COG_SEARCH_KEY")

def search_data_from_azure_storage(param: str) -> dict:
    """
    セマンティック機能を使用して、指定されたコンテナに格納されている情報を検索する

    Args:
        param (str): セマンティック検索で使用する検索パラメータ。日本語のテキストを指定することができます。

    Returns:
        dict: セマンティック検索結果の辞書。検索結果に関連する情報が含まれます。
    """
    headers = {
        "api-key": COG_SEARCH_KEY,
        # "orderby": "@search.rerankerScore desc",
    }
    params = {
        "api-version": "2021-04-30-Preview"
    }
   
    query = {
        "queryType": "semantic",  # クエリのタイプを指定（セマンティック検索を実行）
        "queryLanguage": "ja-jp",  # クエリの言語を指定（日本語で検索を行う）
        "search": param,  # 検索に使用するパラメータを指定（セマンティック検索のクエリテキスト）
        "semanticConfiguration": "semantic-test",  # 使用するセマンティック構成の名前を指定
        "searchFields": "",  # 検索対象のフィールドを指定するが、空の場合は全フィールドを対象とする
        "speller": "none",  # スペルチェックの設定を指定（noneならスペルチェックを行わない）
        "answers": "extractive|count-3",  # 抽出される回答（関連テキスト）の種類と数を指定
        "captions": "extractive",  # 抽出される回答の種類を指定（この場合は抽出のみ）
        "highlightPreTag": "<strong>",  # ハイライト表示のためのタグ（前側）を指定
        "highlightPostTag": "</strong>",  # ハイライト表示のためのタグ（後側）を指定
        "select": "metadata_storage_name",  # 検索結果に含めるフィールドを指定する
        "count": True,  # 検索結果の総数を取得するかどうかを指定（Trueなら取得する）
        "top": 3,  # 検索結果から上位何件を取得するかを指定する
    }  

    response = requests.post(COG_SEARCH_URL, headers=headers, json=query, params=params)
    result = response.json()
    return result

def main():

    # リクエストのクエリパラメータ
    search_query: str = "人事" 

    # セマンティック検索の実行
    search_result = search_data_from_azure_storage(search_query)

    print("============================= 検索結果START =============================")
    print(json.dumps(search_result, indent=4, ensure_ascii=False))
    print("============================== 検索結果END ==============================")

if __name__ == '__main__':
    main()

（図３１１）

＞目次にもどる

STEP4：動かし方

以下記事を参照ください。

→（手順）サンプルプログラムの動かし方

STEP4-1：実行結果（例）

（図４１１）実行結果

（例）

============================= 検索結果START =============================
{
    "@odata.context": "https://zz-cognitive-test.search.windows.net/indexes('test-index')/$metadata#docs(*)",
    "@odata.count": 3,
    "@search.answers": [],
    "value": [
        {
            "@search.score": 0.62060714,
            "@search.rerankerScore": 0.9756317138671875,
            "@search.captions": [
“text”: “ここに検索結果のテキストが入る",
                    "highlights": ""
                }
            ],
            "metadata_storage_name": "022-032.pdf"
        },
        {
            "@search.score": 0.59651697,
            "@search.rerankerScore": 0.7617244720458984,
            "@search.captions": [
                {
                    "text": "ここに検索結果のテキストが入る",
                    "highlights": ""
                }
            ],
            "metadata_storage_name": "142_107_114.pdf"
        },
        {
            "@search.score": 0.3894356,
            "@search.rerankerScore": 0.47032928466796875,
            "@search.captions": [
                {
                    "text": "ここに検索結果のテキストが入る",
                    "highlights": ""
                }
            ],
            "metadata_storage_name": "014-023.pdf"
        }
    ]
}
============================== 検索結果END ==============================

STEP4-2：実行結果の解釈方法

（表）

@search.score	・検索クエリと各ドキュメントがどれほどマッチしているかを示すスコアです。・検索アルゴリズムによって計算され、高い値ほどクエリとのマッチ度が高い・検索結果のランキング（並び順）に使用されます。
@search.rerankerScore	・セマンティック検索のリランカー（再ランキング機能）によって計算されるスコア・リランカーは、元の検索スコアに基づいてドキュメントのランキングを調整します・検索結果の再ランキングに使用されます。
@search.captions	・セマンティック検索のキャプション抽出機能によって生成される要約です。・キャプションは、ドキュメントの内容を短く要約したものです。・検索結果の表示に役立てることができます。

＞目次にもどる

-Azure, Microsoft, Python
-IT#0780

執筆者：RainbowEngine

comment コメントをキャンセル

関連記事

: PythonのPandas使用時に発生した「UnicodeEncodeError: ‘ascii’ codec can’t encode characters～」エラーの対処方法について

(０)目次＆概説 (１) エラー対応１：UnicodeEncodeError 　(１-１) 発生状況・エラーメッセージ　　(１-１-１) エラーメッセージ　　(１-１-２) エラーとなったソース …

: fetch_openmlの使い方について

＜目次＞ fetch_openmlの使い方について　STEP1：データをダウンロードする　STEP2：データの形状を確認する　STEP3：データを加工する　STEP4：データを表 …

: Azure DevOpsのビルドパイプラインの例

＜目次＞ Azure DevOpsのビルドパイプラインの例　やりたいこと／概要　STEP0：前提条件　STEP1：Gitのリポジトリを用意する　STEP2：プロジェクトのビルド＆ …

: Python環境にpyodbcをインストールしてSQLServerに接続する手順

＜目次＞ (１) PythonにpyodbcをインストールしてSQLServerに接続する手順　(１-１) 手順１：ODBCドライバのインストール　(１-２) 手順２：pythonパッケージの導入 …

: Flaskのget_json()で400 Bad Requestエラーが出た時の原因と対処

＜目次＞ Flaskのget_json()で400 Bad Requestエラーが出た時の原因と対処　エラー内容　原因　対策　参考　余談 Flaskのget_json()で400 Bad R …

PREV: 脳波をPythonプログラムで取得して、解析できるようにしたい
NEXT: SlackボットのInteractiveメッセージとは？使い方の手順もご紹介

言語 / Language

English (United States)
日本語

検索

最新記事

アーカイブ

カテゴリー

Anaplan (2)
Apache (11)
ASP.NET (20)
C# (53)
- Xamarin (4)
C++ (32)
- Valgrind (5)
Cisco (1)
CPU (1)
Database (データベース) (5)
- SQL (2)
GitHub (13)
HTML/css (5)
IT技術 (Technology) (90)
Java (133)
- Eclipse (15)
- JFreeChart (3)
- JSP/Servlet (47)
JavaScript (23)
- jQuery (5)
JP1 (1)
Linux (43)
- CentOS (19)
Microsoft (78)
- Azure (56)
- Azure DevOps (2)
- PowerBI (5)
- Yammer (1)
Nginx (2)
OracleDB (27)
PL/SQL (2)
Pleasanter (8)
Powershell (9)
Python (68)
- OpenCV (1)
- Pandas (6)
ShellScript (4)
Slack (12)
SQLServer (12)
Tomcat (21)
TortoiseSVN (7)
VB.NET (2)
VBA (13)
VisualStudio (7)
Windows Server (18)
- Hyper-V (1)
WordPress (5)
つみたてNISA (4)
コボット (1)
スキャナ技術 (Scanner) (1)
ドメイン (Domain) (6)
ネットワーク (Network) (19)
ノートパソコン (15)
- モバイルバッテリー (9)
- 電源カフェ (6)
バッチ処理 (Batch Scripts) (14)
パフォーマンスモニタ (Performance Monitor) (3)
ビジネス (2)
ブレインテック (2)
レンタルサーバ (7)
作業効率化 (2)
動画編集 (2)
- AviUtl (1)
日常 (Daily Life) (64)
- ディズニー (Disney) (2)
- 旅行 (Travel) (13)
- 睡眠 (Sleep) (3)
- 結婚式 (Wedding) (1)
- 美容・健康 (Beauty&Health) (28)
未分類 (2)
機械学習 (Machine Learning) (30)
- Keras (5)
- Tensorflow (3)
生成AI (5)
- Claude (1)
- OpenAI (4)
英語 (English) (1)
財務会計 (Financial Accounting) (16)

Top