IT技術を分かりやすく簡潔にまとめることによる学習の効率化、また日常の気付きを記録に残すことを目指します。

IT技術 (Technology)

OpenAIのEmbeddingの使い方

投稿日：2023年7月6日更新日：2023年11月8日

＜目次＞

(１) OpenAIのEmbeddingの使い方
　 (１-１) やりたいこと
　 (１-２) 概要：OpenAIのEmbeddingとは？
　(１-３) STEP1：サンプルコードを動かしてみる（Hello World）
　(１-４) STEP2：（ユースケース例）テキストの類似度の検証

(１) OpenAIのEmbeddingの使い方

(１-１) やりたいこと

・OpenAIのEmbeddingとは？を理解する

・実際のサンプルコードを動かしてみる

・実用例として「テキストの類似度」を算出してみる

＞目次にもどる

(１-２) 概要：OpenAIのEmbeddingとは？

・自然言語処理において、単語や文章を「数値化する技術」

・単語や文章をベクトル表現できる（ベクトル空間にマッピングする）

　→類似するものは近くに配置され、異なるものは離れた位置に配置される

・EmbeddingにはGPT3モデルが使用されている

・「text-embedding-ada-002」モデルの入力トークンの上限は「8191」

・ただし、Azure Open AIの場合は入力トークンの上限は「2048」（2023年3月時点）

・「text-embedding-ada-002」モデルのベクトルは1536次元である

（参考）

https://platform.openai.com/docs/guides/embeddings/what-are-embeddings

https://openai.com/blog/new-and-improved-embedding-model

https://learn.microsoft.com/en-us/answers/questions/1188074/text-embedding-ada-002-token-context-length

＞目次にもどる

(１-３) STEP1：サンプルコードを動かしてみる（Hello World）

（前提）

・Visual Studio Codeがインストール済

・Pythonの開発環境が準備済み（例：Visual Studio Code）

・Open AIのAPIが疎通している（★）

（サンプルプログラム）

import openai
import pandas as pd

# OpenAI APIキーをセット
openai.api_key = "xxxxxxxxxxxxxxxxxxxxx"
# Modelの指定
model = 'text-embedding-ada-002'

def get_embedding(text, model=model):
    text = text.replace("\n", " ")
    result = openai.Embedding.create(
        engine=model,
        input = [text]
    )
    return result['data'][0]['embedding']

def main():
    # 入力(prompt)のデータ(PandasのDataFrame)の生成
    df = pd.DataFrame({'value': ['apple', 'banana', 'orange', 'melon']},index=['1', '2', '3', '4'])

    # APIコール
    df["embedding_vector"] = df["value"].apply(lambda x : get_embedding(x))
    # csv出力
    df.to_csv('./embedded_output.csv', index=False)

if __name__ == "__main__":
    main()

出力されたcsvは下記のようになっております。中略していますが、各行1536次元のListになっています。

（出力結果）

value,embedding_vector
apple,"[0.0077999732457101345, -0.02301608957350254, ..(中略).. , -0.015654779970645905, 0.006107009015977383]"
banana,"[-0.013975119218230247, -0.03290277719497681, ..(中略).. , -0.017215345054864883, 0.0018967173527926207]"
orange,"[0.0045590330846607685, -0.03615625947713852, ..(中略)..　, 0.00458207493647933, -0.001618703594431281]"
melon,"[-0.003729138756170869, -0.02945852279663086, ..(中略).. , -0.015612214803695679, -0.023585548624396324]"

（図１１１）

・ベクトルは1536次元

（図２１１）

（図２１２）公式ドキュメントにも記載あり

＞目次にもどる

(１-４) STEP2：（ユースケース例）テキストの類似度の検証

・Embeddingsでテキストをベクトル化すると様々な事が出来ますが、その1つが「類似度の算出」です。

・類似度が算出できると、例えばDBからQuestionに類似するAnswerを抽出する等が行えます。

・以下の2つのQAデータの類似度を確認します。

・テストデータ1のペアの方が類似度が高いため、内積のより大きな値になる想定です。

（テストデータ1）

    question_1 = 'マウスの動作がカクカクする際の対処方法を教えてください'
    answer_1 = 'マウスの動作がカクカクする場合は、マウスのドライバーを再インストールしてみてください'

（テストデータ2）

    question_1 = 'マウスの動作がカクカクする際の対処方法を教えてください'
    answer_2 = 'Windowsの更新プログラムをインストールした後は、PCを再起動してみてください'

（サンプルプログラム）

import openai
import pandas as pd
import numpy as np
# OpenAI APIキーをセット
openai.api_key = "xxxxxxxxxxxxxxxxxxxxx"
# Modelの指定
model = 'text-embedding-ada-002'

def get_embedding(text, model=model):
    text = text.replace("\n", " ")
    result = openai.Embedding.create(
        engine=model,
        input = [text]
    )
    return result['data'][0]['embedding']

def main():
    ##################### 追記START #####################
    # 入力(prompt)のデータ(PandasのDataFrame)の生成
    question_1 = 'マウスの動作がカクカクする際の対処方法を教えてください'
    answer_1 = 'マウスの動作がカクカクする場合は、マウスのドライバーを再インストールしてみてください'
    answer_2 = 'Windowsの更新プログラムをインストールした後は、PCを再起動してみてください'
    df = pd.DataFrame({'value': [question_1, answer_1]},index=['1', '2'])

    # APIコールし、ベクトルを取得
    df["embedding_vector"] = df["value"].apply(lambda x : get_embedding(x))
    # question_1のベクトル、answer_nのベクトル値を抽出
    embedding_a = df["embedding_vector"][0]
    embedding_b = df["embedding_vector"][1]
    # 内積を取得
    similarity_score = np.dot(embedding_a, embedding_b)
    print(similarity_score)
    ##################### 追記END #####################

if __name__ == "__main__":
    main()

（図２２１）question_1とanswer_1の類似度：0.9292676375112325

（図２２２）question_1とanswer_2の類似度：0.8080734745282396

（参考）

https://openai.com/blog/introducing-text-and-code-embeddings

＞目次にもどる

-IT技術 (Technology)
-IT#0747

執筆者：RainbowEngine

comment コメントをキャンセル

関連記事

: hostsファイルとは？書き換えや反映の手順をご紹介（Windows編）

＜目次＞ (１) hostsファイルとは？書き換えや反映の手順をご紹介（Windows編）　(１-１) hostsファイルとは？　(１-２) hostsファイルの主な用途　(１-３) hosts …

: APIの難しい部分を吸収し、手軽に検証するためのツール（Postman）をご紹介

＜目次＞ (１) APIの難しい部分を吸収し、手軽に検証するためのツール（Postman）をご紹介　(１-１) Postmanの概要　(１-２) Postmanの導入手順　(１-３ …

: Celonis Snapの使い方を画像や動画でご紹介（導入編）

＜目次＞ (１) Celonis Snapの使い方を画像や動画でご紹介（導入編）　(１-１) STEP1：アカウント作成（仮登録→本登録→ログイン）　(１-２) STEP2：実際にデ …

: AWSの始め方（アカウントの作成からPythonでS3バケット操作まで）

＜目次＞ (１) AWSの始め方（アカウントの作成からPythonでS3バケット操作まで）　(１-０) やりたいこと　(１-１) STEP1：AWSアカウントを作成する　(１-２) …

: Confluenceで「制限のあるコンテンツです」と表示された場合の対処

＜目次＞ Confluenceで「制限のあるコンテンツです」と表示された場合の対処　エラー① 　エラー①の原因　エラー①の対処① 　エラー②：「制限付き」が押せない場合　エラー②の原因/対策 C …

PREV: AzureのText to Speechで声のトーンを変える方法
NEXT: PDFをテキスト化する方法（Azure Cognitive Service）

言語 / Language

English (United States)
日本語

検索

最新記事

アーカイブ

カテゴリー

Anaplan (2)
Apache (11)
ASP.NET (20)
C# (53)
- Xamarin (4)
C++ (32)
- Valgrind (5)
Cisco (1)
CPU (1)
Database (データベース) (5)
- SQL (2)
GitHub (13)
HTML/css (5)
IT技術 (Technology) (90)
Java (133)
- Eclipse (15)
- JFreeChart (3)
- JSP/Servlet (47)
JavaScript (23)
- jQuery (5)
JP1 (1)
Linux (43)
- CentOS (19)
Microsoft (78)
- Azure (56)
- Azure DevOps (2)
- PowerBI (5)
- Yammer (1)
Nginx (2)
OracleDB (27)
PL/SQL (2)
Pleasanter (8)
Powershell (9)
Python (68)
- OpenCV (1)
- Pandas (6)
ShellScript (4)
Slack (12)
SQLServer (12)
Tomcat (21)
TortoiseSVN (7)
VB.NET (2)
VBA (13)
VisualStudio (7)
Windows Server (18)
- Hyper-V (1)
WordPress (5)
つみたてNISA (4)
コボット (1)
スキャナ技術 (Scanner) (1)
ドメイン (Domain) (6)
ネットワーク (Network) (19)
ノートパソコン (15)
- モバイルバッテリー (9)
- 電源カフェ (6)
バッチ処理 (Batch Scripts) (14)
パフォーマンスモニタ (Performance Monitor) (3)
ビジネス (2)
ブレインテック (2)
レンタルサーバ (7)
作業効率化 (2)
動画編集 (2)
- AviUtl (1)
日常 (Daily Life) (64)
- ディズニー (Disney) (2)
- 旅行 (Travel) (13)
- 睡眠 (Sleep) (3)
- 結婚式 (Wedding) (1)
- 美容・健康 (Beauty&Health) (28)
未分類 (2)
機械学習 (Machine Learning) (30)
- Keras (5)
- Tensorflow (3)
生成AI (5)
- Claude (1)
- OpenAI (4)
英語 (English) (1)
財務会計 (Financial Accounting) (16)

Top