IT技術を分かりやすく簡潔にまとめることによる学習の効率化、また日常の気付きを記録に残すことを目指します。

PythonでのWebスクレイピングについて

投稿日：2023年8月2日更新日：2024年10月15日

＜目次＞

(１) PythonでのWebスクレイピングについて
　やりたいこと
　 STEP0：概要
　 STEP1：必要なパッケージのインストール
　 STEP2：サンプルプログラムの作成（疎通編）
　STEP3：サンプルプログラムの作成（robots.txtに従う）

(１) PythonでのWebスクレイピングについて

やりたいこと

・Pythonで試してみる（迷惑を掛けない範囲で）

→そもそもWebスクレイピングとは？を知りたい方は「コチラの記事」を参照

＞目次にもどる

STEP0：概要

・PythonにはWebスクレイピングを非常に簡単に行うためのライブラリがあります。

・今回はその一つである「Beautiful Soup」を使った手順をご紹介します。

・また、モラルを守るため「robots.txt」に従ったプログラムを後半で紹介します。

＞目次にもどる

STEP1：必要なパッケージのインストール

> pip install beautifulsoup4

（図１１１）

↓

（図１１２）

＞目次にもどる

STEP2：サンプルプログラムの作成（疎通編）

まずは疎通です。ページのタイトルを取得します。

STEP2-1：サンプルプログラムの準備

import requests
from bs4 import BeautifulSoup

# ウェブページのURLを指定
url = 'http://books.toscrape.com/'

# requestsライブラリを使って、ウェブページのHTMLを取得
r = requests.get(url)

# BeautifulSoupを使って、HTMLをパース
soup = BeautifulSoup(r.text, 'html.parser')

# タイトルを取得して表示
print(soup.title.text)

STEP2-2：実行

↓以下のスクレイピングのテスト用サイト（スクレイピングを歓迎している）を使ってテスト

①Quotes to Scrape – http://quotes.toscrape.com/

②Books to Scrape – http://books.toscrape.com/

（実行結果例）

All products | Books to Scrape – Sandbox

（図２１１）

＞目次にもどる

STEP3：サンプルプログラムの作成（robots.txtに従う）

（サンプルプログラム）

import re
import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse

# ウェブページのURLを指定
url = 'http://books.toscrape.com/'
# url = 'http://books.toscrape.com/'

# 規約に従ってウェブページにアクセス可能かチェックする関数
def is_allowed_by_robots_txt(url):

    # ドメイン名を取得
    # →xxxxx.jpなど
    domain = urlparse(url).netloc

    # robots.txtの内容を取得
    robots_url = f"https://{domain}/robots.txt"
    try:
        robots = requests.get(robots_url).text
    except requests.exceptions.RequestException:
        return False

    # UserAgentを設定
    user_agent = "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    user_agent_matched = False

    # robots.txtの各行を解析
    for line in robots.split("\n"):

        # 空行またはコメント行は無視
        if not line or line.startswith("#"):
            continue

        # UserAgentが一致するかどうかを判断
        if line.startswith("User-agent:"):
            # 「User-agent: xxxxxx」のxxxxxxの部分を抽出
            user_agent_str = line.split(":", 1)[1].strip()
            # 一致の場合（robots.txtがワイルドカート or スクレイピング者のuser_agentと一致）
            if user_agent_str == "*" or user_agent_str == user_agent:
                user_agent_matched = True
            else:
                user_agent_matched = False

        # UserAgentが一致した場合のDisallowの判断
        elif user_agent_matched and line.startswith("Disallow:"):
            # Disallow: 以降のエンドポイントを抽出
            disallow_path = line.split(":", 1)[1].strip()
            # "/"の場合、全部不許可
            if disallow_path == "/":
                # 許可しない
                return False
            # "*"が含まれる場合
            elif "*" in disallow_path:
                # 「*」を「.*」で置き換え
                disallow_regex = disallow_path.replace("*", ".*")
                # 正規表現によるパターンマッチング
                if re.search(disallow_regex, url):
                    # 合致の場合：許可しない
                    return False
            else:
                # 最後の部分が一致する場合
                if url.endswith(disallow_path):
                    # 許可しない
                    return False

    # アクセスが許可されている場合はTrueを返す
    return True

# robots.txtに従ってウェブページにアクセス
if is_allowed_by_robots_txt(url):
    # requestsライブラリを使って、ウェブページのHTMLを取得
    response = requests.get(url)
    # BeautifulSoupを使って、HTMLをパース
    soup = BeautifulSoup(response.text, 'html.parser')
    # タイトルを取得して表示
    print(soup.title.text)
else:
    print('このURLへのスクレイピングはrobots.txtにより許可されていません。')

（結果例：正常系）

入力：url = 'http://books.toscrape.com/'
出力：All products | Books to Scrape - Sandbox

（図３１１）

（結果例：異常系）→スクレイピングNGのURLを指定すると、ガードが掛かる（エラーになる）事の確認。

入力：url = ‘https://doda.jp/DodaFront/View/JobSearchList/j_oc__07L/-preBtn__2/’

出力：このURLへのスクレイピングはrobots.txtにより許可されていません。

（図３１２）

＞目次にもどる

-Python
-IT#0759

執筆者：RainbowEngine

comment コメントをキャンセル

関連記事

: SlackボットのInteractiveメッセージとは？使い方の手順もご紹介

＜目次＞ SlackボットのInteractiveメッセージとは？使い方の手順もご紹介　やりたいこと／概要　STEP0：前提条件　STEP1：SlackボットでInteractiv …

: PythonでAzure Blob Storageからcsvを取得する方法について

＜目次＞ (１) PythonでAzure Blob Storageからcsvを取得する方法について　(１-１) STEP1：Pythonの依存性解決　(１-２) STEP2：Azu …

: 多クラスのロジスティック回帰をKerasで実装した例をご紹介

＜目次＞多クラスのロジスティック回帰をKerasで実装した例をご紹介　(１-１) 実装のフローとポイント　　●STEP1：モデルの定義　　●STEP2：誤差関数の定義　　●ST …

: PythonでHTTP Error 403: Forbiddenエラーが出た時の対処方法とエラーの意味について

(０)目次＆概説 (１) エラー：HTTP Error 403: Forbidden 　(１-１) 発生状況・エラーメッセージ　(１-２) 原因　(１-３) 対処方法　　(１-３-１) 修正前の …

: PythonのSQLAlchemyで「Identifier ‘XXX’ exceeds maximum length of 30 characters」エラーや「DtypeWarning: Columns (X) have mixed types.」警告が出た時の対処について

(０)目次＆概説 (１) エラー１：sqlalchemy.exc.ArgumentError 　(１-１) 発生状況・エラーメッセージ　　(１-１-１) エラーメッセージ　　(１-１-２) エラー …

PREV: Webスクレイピングとは？実施する際の注意事項について
NEXT: Bing AIのAPIを疎通（HelloWorld）

言語 / Language

English (United States)
日本語

検索

人気記事

最新記事

アーカイブ

カテゴリー

Anaplan (2)
Apache (11)
ASP.NET (20)
C# (53)
- Xamarin (4)
C++ (32)
- Valgrind (5)
Cisco (1)
CPU (1)
Database (データベース) (5)
- SQL (2)
GitHub (12)
HTML/css (5)
IT技術 (Technology) (90)
Java (133)
- Eclipse (15)
- JFreeChart (3)
- JSP/Servlet (47)
JavaScript (23)
- jQuery (5)
JP1 (1)
Linux (41)
- CentOS (18)
Microsoft (65)
- Azure (50)
- Azure DevOps (2)
- Yammer (1)
Nginx (2)
OpenAI (4)
OracleDB (26)
PL/SQL (2)
Pleasanter (5)
Powershell (9)
Python (57)
- OpenCV (1)
- Pandas (6)
ShellScript (4)
Slack (6)
SQLServer (12)
Tomcat (21)
TortoiseSVN (7)
VB.NET (2)
VBA (13)
VisualStudio (7)
Windows Server (18)
- Hyper-V (1)
WordPress (5)
つみたてNISA (4)
コボット (1)
スキャナ技術 (Scanner) (1)
ドメイン (Domain) (6)
ネットワーク (Network) (19)
ノートパソコン (15)
- モバイルバッテリー (9)
- 電源カフェ (6)
バッチ処理 (Batch Scripts) (14)
パフォーマンスモニタ (Performance Monitor) (3)
ブレインテック (2)
レンタルサーバ (7)
作業効率化 (1)
動画編集 (2)
- AviUtl (1)
日常 (Daily Life) (64)
- ディズニー (Disney) (2)
- 旅行 (Travel) (13)
- 睡眠 (Sleep) (3)
- 結婚式 (Wedding) (1)
- 美容・健康 (Beauty&Health) (28)
未分類 (2)
機械学習 (Machine Learning) (27)
- Keras (4)
- Tensorflow (3)
英語 (English) (1)
財務会計 (Financial Accounting) (16)

Top