IT技術を分かりやすく簡潔にまとめることによる学習の効率化、また日常の気付きを記録に残すことを目指します。

PythonでのWebスクレイピングについて

投稿日：2023年8月2日更新日：2024年10月15日

＜目次＞

(１) PythonでのWebスクレイピングについて
　やりたいこと
　 STEP0：概要
　 STEP1：必要なパッケージのインストール
　 STEP2：サンプルプログラムの作成（疎通編）
　STEP3：サンプルプログラムの作成（robots.txtに従う）

(１) PythonでのWebスクレイピングについて

やりたいこと

・Pythonで試してみる（迷惑を掛けない範囲で）

→そもそもWebスクレイピングとは？を知りたい方は「コチラの記事」を参照

＞目次にもどる

STEP0：概要

・PythonにはWebスクレイピングを非常に簡単に行うためのライブラリがあります。

・今回はその一つである「Beautiful Soup」を使った手順をご紹介します。

・また、モラルを守るため「robots.txt」に従ったプログラムを後半で紹介します。

＞目次にもどる

STEP1：必要なパッケージのインストール

> pip install beautifulsoup4

（図１１１）

↓

（図１１２）

＞目次にもどる

STEP2：サンプルプログラムの作成（疎通編）

まずは疎通です。ページのタイトルを取得します。

STEP2-1：サンプルプログラムの準備

import requests
from bs4 import BeautifulSoup

# ウェブページのURLを指定
url = 'http://books.toscrape.com/'

# requestsライブラリを使って、ウェブページのHTMLを取得
r = requests.get(url)

# BeautifulSoupを使って、HTMLをパース
soup = BeautifulSoup(r.text, 'html.parser')

# タイトルを取得して表示
print(soup.title.text)

STEP2-2：実行

↓以下のスクレイピングのテスト用サイト（スクレイピングを歓迎している）を使ってテスト

①Quotes to Scrape – http://quotes.toscrape.com/

②Books to Scrape – http://books.toscrape.com/

（実行結果例）

All products | Books to Scrape – Sandbox

（図２１１）

＞目次にもどる

STEP3：サンプルプログラムの作成（robots.txtに従う）

（サンプルプログラム）

import re
import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse

# ウェブページのURLを指定
url = 'http://books.toscrape.com/'
# url = 'http://books.toscrape.com/'

# 規約に従ってウェブページにアクセス可能かチェックする関数
def is_allowed_by_robots_txt(url):

    # ドメイン名を取得
    # →xxxxx.jpなど
    domain = urlparse(url).netloc

    # robots.txtの内容を取得
    robots_url = f"https://{domain}/robots.txt"
    try:
        robots = requests.get(robots_url).text
    except requests.exceptions.RequestException:
        return False

    # UserAgentを設定
    user_agent = "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    user_agent_matched = False

    # robots.txtの各行を解析
    for line in robots.split("\n"):

        # 空行またはコメント行は無視
        if not line or line.startswith("#"):
            continue

        # UserAgentが一致するかどうかを判断
        if line.startswith("User-agent:"):
            # 「User-agent: xxxxxx」のxxxxxxの部分を抽出
            user_agent_str = line.split(":", 1)[1].strip()
            # 一致の場合（robots.txtがワイルドカート or スクレイピング者のuser_agentと一致）
            if user_agent_str == "*" or user_agent_str == user_agent:
                user_agent_matched = True
            else:
                user_agent_matched = False

        # UserAgentが一致した場合のDisallowの判断
        elif user_agent_matched and line.startswith("Disallow:"):
            # Disallow: 以降のエンドポイントを抽出
            disallow_path = line.split(":", 1)[1].strip()
            # "/"の場合、全部不許可
            if disallow_path == "/":
                # 許可しない
                return False
            # "*"が含まれる場合
            elif "*" in disallow_path:
                # 「*」を「.*」で置き換え
                disallow_regex = disallow_path.replace("*", ".*")
                # 正規表現によるパターンマッチング
                if re.search(disallow_regex, url):
                    # 合致の場合：許可しない
                    return False
            else:
                # 最後の部分が一致する場合
                if url.endswith(disallow_path):
                    # 許可しない
                    return False

    # アクセスが許可されている場合はTrueを返す
    return True

# robots.txtに従ってウェブページにアクセス
if is_allowed_by_robots_txt(url):
    # requestsライブラリを使って、ウェブページのHTMLを取得
    response = requests.get(url)
    # BeautifulSoupを使って、HTMLをパース
    soup = BeautifulSoup(response.text, 'html.parser')
    # タイトルを取得して表示
    print(soup.title.text)
else:
    print('このURLへのスクレイピングはrobots.txtにより許可されていません。')

（結果例：正常系）

入力：url = 'http://books.toscrape.com/'
出力：All products | Books to Scrape - Sandbox

（図３１１）

（結果例：異常系）→スクレイピングNGのURLを指定すると、ガードが掛かる（エラーになる）事の確認。

入力：url = ‘https://doda.jp/DodaFront/View/JobSearchList/j_oc__07L/-preBtn__2/’

出力：このURLへのスクレイピングはrobots.txtにより許可されていません。

（図３１２）

＞目次にもどる

-Python
-IT#0759

執筆者：RainbowEngine

comment コメントをキャンセル

関連記事

: PythonでSQLAlchemyを使ってOracleDBに接続する際に遭遇したエラーとその対処方法

本記事は次の記事の続編です。 (下記記事の手順を実行する際に遭遇したエラーについての備忘録) PythonでSQLAlchemyを使ってOracleDBに接続する方法 (０) 目次 (４) エラー対応 …

: PythonでAPI呼び出す時のヘッダー、ボディの指定方法について

＜目次＞ (１) PythonでAPI呼び出す時のヘッダー、ボディの指定方法について　(１-１) 記事の概要　(１-２) ①「ヘッダー」の指定方法　(１-３) ②「ボディ」の指定方 …

: OpenAIで返答するSlackボットで「会話履歴」を加味する方法

＜目次＞ OpenAIで返答するSlackボットで「会話履歴」を加味する方法　やりたいこと　前提条件　概要　サンプルプログラム　動かし方 OpenAIで返答するSlackボット …

: Azure DevOpsからAzure App Serviceへ自動デプロイする最短CI/CD構築ガイド

＜目次＞ Azure DevOpsからAzure App Serviceへ自動デプロイする最短CI/CD構築ガイド　この記事のねらい　STEP1：前提準備　STEP2：サービス接続の作成　ST …

: Pythonの「Import “requests” could not be resolved from source Pylance」エラーの原因と対処について

＜目次＞ (１) Pythonの「Import “requests” could not be resolved from source Pylance」エラーの …

PREV: Webスクレイピングとは？実施する際の注意事項について
NEXT: Bing AIのAPIを疎通（HelloWorld）

言語 / Language

English (United States)
日本語

検索

最新記事

アーカイブ

カテゴリー

Anaplan (2)
Apache (11)
ASP.NET (20)
C# (53)
- Xamarin (4)
C++ (32)
- Valgrind (5)
Cisco (1)
CPU (1)
Database (データベース) (5)
- SQL (2)
GitHub (13)
HTML/css (5)
IT技術 (Technology) (90)
Java (133)
- Eclipse (15)
- JFreeChart (3)
- JSP/Servlet (47)
JavaScript (23)
- jQuery (5)
JP1 (1)
Linux (43)
- CentOS (19)
Microsoft (76)
- Azure (54)
- Azure DevOps (2)
- PowerBI (5)
- Yammer (1)
Nginx (2)
OpenAI (4)
OracleDB (27)
PL/SQL (2)
Pleasanter (8)
Powershell (9)
Python (68)
- OpenCV (1)
- Pandas (6)
ShellScript (4)
Slack (12)
SQLServer (12)
Tomcat (21)
TortoiseSVN (7)
VB.NET (2)
VBA (13)
VisualStudio (7)
Windows Server (18)
- Hyper-V (1)
WordPress (5)
つみたてNISA (4)
コボット (1)
スキャナ技術 (Scanner) (1)
ドメイン (Domain) (6)
ネットワーク (Network) (19)
ノートパソコン (15)
- モバイルバッテリー (9)
- 電源カフェ (6)
バッチ処理 (Batch Scripts) (14)
パフォーマンスモニタ (Performance Monitor) (3)
ビジネス (2)
ブレインテック (2)
レンタルサーバ (7)
作業効率化 (2)
動画編集 (2)
- AviUtl (1)
日常 (Daily Life) (64)
- ディズニー (Disney) (2)
- 旅行 (Travel) (13)
- 睡眠 (Sleep) (3)
- 結婚式 (Wedding) (1)
- 美容・健康 (Beauty&Health) (28)
未分類 (2)
機械学習 (Machine Learning) (30)
- Keras (5)
- Tensorflow (3)
英語 (English) (1)
財務会計 (Financial Accounting) (16)

Top