IT技術を分かりやすく簡潔にまとめることによる学習の効率化、また日常の気付きを記録に残すことを目指します。

IT技術 (Technology)

LangChainでConflueneceの内容を読み込む方法

投稿日：2023年8月12日更新日：2024年11月13日

＜目次＞

LangChainでConflueneceの内容を読み込む方法
　やりたいこと
　 STEP0：前提条件
　 STEP1：事前準備
　 STEP2：Conflueneceページの読み込み
　エラー対応

LangChainでConflueneceの内容を読み込む方法

やりたいこと

・LangChainライブラリを使って、Confluenceの記事を読込みたい

→指定したスペースのConfluence記事に対して、コンテンツ（page_content）とメタデータ（metadata）を取得する。これをページごとにlistに格納して返却する。

＞目次にもどる

STEP0：前提条件

・Windows OSで試す

・Pythonの開発環境が準備済み（例：Visual Studio Code）

・LangChainの基礎理解

・ConfluenceのAPIが疎通済み

＞目次にもどる

STEP1：事前準備

・①requrements.txt

作業フォルダの配下に「requrements.txt」を作成します。

pandas==1.5.2
# Environment Variable
python-dotenv==1.0.0
# HTTP request
requests
# LangChain
langchain==0.0.163
# Confluence
atlassian-python-api
bs4
pytesseract
pdf2image
Pillow
lxml

（図１１１）

・②パッケージのインストール

ターミナルを開き、先ほど作成した「requrements.txt」に記載したパッケージをインストールするコマンドを実行します。

> pip install -r requirements.txt

（図１１２）

＞目次にもどる

STEP2：Conflueneceページの読み込み

STEP2-1：サンプルプログラムの用意

（サンプルプログラム）langchain_confluence.py

import requests
import pandas as pd
import json
import os
from dotenv import load_dotenv
from langchain.document_loaders import ConfluenceLoader
# 環境変数読み込み
load_dotenv()
user_id = os.environ.get('ATTLASIAN_ID')
password = os.environ.get('ATTLASIAN_KEY')
restapi_url = "https://rainbow-engine.atlassian.net/wiki/rest/api/space/"
base_url = "https://rainbow-engine.atlassian.net/wiki"

def get_confluence_document(confluence_space:str):
    # 概要
    #   LangChainのConfluenceローダーで、指定したスペースのページをDocumentオブジェクトで返却
    # 戻り値
    #   Documentのリスト
    # 参考
    #   https://python.langchain.com/en/latest/modules/indexes/document_loaders/examples/confluence.html
    loader = ConfluenceLoader(
        url=base_url,
        username=user_id,
        api_key=password
    )
    documents = loader.load(space_key=confluence_space, include_attachments=True, limit=50)
    return documents

def get_confluence_space():
    # 【処理①】スペース一覧を取得するAPIを呼び出し、レスポンスを取得する

    headers = {'content-type': 'application/json'}
    response = requests.get(restapi_url, headers=headers, auth=(user_id, password))
    result = response.text

    # 【処理②】レスポンスのJSONを表形式データ（DataFrame）に変形する
    json_object = json.loads(result)
    df = pd.json_normalize(json_object, record_path =['results'])
 
    # 【処理③】表形式データ（DataFrame）をtxt出力する
    df['key'].to_csv('./space_list.txt', sep=',', encoding='utf-8', header=False, index=False)

    # 【処理④】txt出力した内容を読み込み、listで返却
    target = None
    with open("space_list.txt", mode="r", encoding="utf-8") as f:
        target = f.read().splitlines()
    return target

def main():
    confluence_spaces = get_confluence_space()
    
    for space in confluence_spaces:
        documents = get_confluence_document(space)
        print(documents)

if __name__ == "__main__":
    main()

（図２１１）

（サンプルプログラム）.env

・ATTLASIAN_IDはConfluenceのログインID

・ATTLASIAN_KEYはConfluenceのAPIキーをセット

ATTLASIAN_ID='xxxxx.com'
ATTLASIAN_KEY='xxxx'

（図２１２）

STEP2-2：サンプルプログラムの実行

（図２１３①）

↓
（図２１３②）

（実行結果例）

→Confluence記事に対して、コンテンツ（page_content）とメタデータ（metadata）を取得する。これをページごとにlistに格納して返却する。

[
Document(
 page_content="xxxx",
 metadata={'title': '[記事タイトル]', 'id': '[記事ID]', 'source': '[記事URL]'}
),
～中略（以降、繰り返し）～
]

＞目次にもどる

エラー対応

備忘メモ。

事象

プログラムの実行時に以下のエラーが出た。

（エラーメッセージ）

bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

（図４１１）

原因

lxmlパッケージがインストールされていないため。

対処

requirements.txtにlxmlも追加する

＞目次にもどる

-IT技術 (Technology)
-IT#0764

執筆者：RainbowEngine

comment コメントをキャンセル

関連記事

: クラウドネイティブとは？（コンテナ、サービスメッシュ、マイクロサービス、イミュータブルインフラストラクチャ等）

＜目次＞ (１) クラウドネイティブとは？（コンテナ、サービスメッシュ、マイクロサービス、イミュータブルインフラストラクチャ等）　(１-１) コンテナ　(１-２) サービスメッシュ　(１-３) …

: ストーリーポイント（SP）とは？定義やポイントについて

＜目次＞ (１) ストーリーポイント（SP）とは？定義やポイントについて　(１-１) ストーリーポイント（SP）とは？　(１-２) ストーリーポイント（SP）の注意点　(１-３) …

: C#でテキストファイルを読み込む方法（サンプルプログラム付き）

＜目次＞ (１) C#でテキストファイルを読み込む方法（サンプルプログラム付き）　(１-１) 構文　(１-２) 事前準備　(１-３) サンプルプログラム　(１-４) ご参考：使用 …

: CRUD図とは？の例や書き方のご紹介

＜目次＞ (１) CRUD図とは？の例や書き方のご紹介　(１-１) CRUD図とは？　(１-２) CRUD図の例＆書き方　(１-３) なぜCRUD図を作るか？ (１) CRUD図と …

: APIの難しい部分を吸収し、手軽に検証するためのツール（Postman）をご紹介

＜目次＞ (１) APIの難しい部分を吸収し、手軽に検証するためのツール（Postman）をご紹介　(１-１) Postmanの概要　(１-２) Postmanの導入手順　(１-３ …

PREV: Worpdressのローカル環境（検証用）の作り方
NEXT: WordpressでPHPのアップデートを行う方法

言語 / Language

English (United States)
日本語

検索

最新記事

アーカイブ

カテゴリー

Anaplan (2)
Apache (11)
ASP.NET (20)
C# (53)
- Xamarin (4)
C++ (32)
- Valgrind (5)
Cisco (1)
CPU (1)
Database (データベース) (5)
- SQL (2)
GitHub (13)
HTML/css (5)
IT技術 (Technology) (90)
Java (133)
- Eclipse (15)
- JFreeChart (3)
- JSP/Servlet (47)
JavaScript (23)
- jQuery (5)
JP1 (1)
Linux (43)
- CentOS (19)
Microsoft (78)
- Azure (56)
- Azure DevOps (2)
- PowerBI (5)
- Yammer (1)
Nginx (2)
OracleDB (27)
PL/SQL (2)
Pleasanter (8)
Powershell (9)
Python (68)
- OpenCV (1)
- Pandas (6)
ShellScript (4)
Slack (12)
SQLServer (12)
Tomcat (21)
TortoiseSVN (7)
VB.NET (2)
VBA (13)
VisualStudio (7)
Windows Server (18)
- Hyper-V (1)
WordPress (5)
つみたてNISA (4)
コボット (1)
スキャナ技術 (Scanner) (1)
ドメイン (Domain) (6)
ネットワーク (Network) (19)
ノートパソコン (15)
- モバイルバッテリー (9)
- 電源カフェ (6)
バッチ処理 (Batch Scripts) (14)
パフォーマンスモニタ (Performance Monitor) (3)
ビジネス (2)
ブレインテック (2)
レンタルサーバ (7)
作業効率化 (2)
動画編集 (2)
- AviUtl (1)
日常 (Daily Life) (64)
- ディズニー (Disney) (2)
- 旅行 (Travel) (13)
- 睡眠 (Sleep) (3)
- 結婚式 (Wedding) (1)
- 美容・健康 (Beauty&Health) (28)
未分類 (2)
機械学習 (Machine Learning) (30)
- Keras (5)
- Tensorflow (3)
生成AI (5)
- Claude (1)
- OpenAI (4)
英語 (English) (1)
財務会計 (Financial Accounting) (16)

Top