注目キーワード
  1. Photoshop
  2. Python
  3. Raspberry Pi
  4. Arduino

Pythonスクレイピングを使って自分のサイトを解析してみる

  • 2020年9月8日
  • 2020年11月20日
  • Python

この記事は「Python」を使ったスクレイピングの学習ログを残したものです。

Windows10環境でPythonをどうやって動かしたか

Pythonファイルはどうやって、どこにつくったか

パッケージのインストールは何が必要か

など自分が分からなかったこと、及び学んだことをまとめています。

 

スクレイピングを学習・復習する際に役立てればと思います。

それではスタートです。

コマンドプロンプト側での準備

Pythonのインストールが終了している前提で、Windows検索窓から「コマンドプロンプト」もしくは「cmd」と打ち込み「コマンドプロンプト」を実行させます。

python-scraping1

 

スクレイピングで必要な外部ライブラリを読み込む

コマンドプロンプトを実行させたら、スクレイピングで必要な外部ライブラリを読み込んでいきます。

今回はWebスクレイピングの象徴である「Requests」と「BeautifulSoup」を使用しました。

 

Webサイトの情報を取得するRequestsのインストール

pip install requests

 

HTMLの解析に使用するBeautifulSoupのインストール

pip install beautifulsoup4

 

インストールが終了したらライブラリの準備は完了です。

 

スクレイピング用のPythonファイルを作成する

続いてはスクレイピング用にPythonファイルを作成していきます。

 

PythonでHTMLを解析してデータ収集している?スクレイピングが最初からわかる「Python2年生」

を参考に当サイトの記事を読み込んでみることにしました。

 

Pythonのソースコードは以下のように記述。

# ライブラリの読みだし
import requests
from bs4 import BeautifulSoup

# 自分のサイトの記事を取得して解析する
my_url = "https://○○○○○○"

html = requests.get(my_url)
soup = BeautifulSoup(html.content, "html.parser")

# 見出しの文字列を表示
for element in soup.find_all("h2"):
    print(element.text)

 

自分は「TeraPad」というメモソフトを使用し、拡張子を「.py」に変えてPythonファイルを作成しました。

またファイル名は「test.py」としています。

 

ここで1つだけ問題が発生したので、これも書き留めておきます。

「TeraPad」の「文字コード」は自分がHTMLを勉強しているときに変えた

のかもしれませんが「SHIFT-JIS」になっていたのでコマンドプロンプト側で

Non-UTF-8 code starting with ‘\x83’

というエラーがでてしまいました。

 

これは文字コードを「UTF-8」へ直してください。というエラーだったので「TeraPad」側から

表示>オプション>文字コード

と進み保存文字コードをUTF-8に設定して解決しました。

python-scraping-terapad

 

コマンドプロンプト側でPythonファイルを実行

プログラムが書けたので、実行していきます。

コマンドプロンプト側で実行するPythonファイルのパスへ階層を移動します。

今回作成したPythonファイルは

C:/code

に保存したのでここからPythonファイルを呼び出していきます。

コマンドプロンプト側で

cd C:/code

と入力してEnterを押します。

 

続いて、

python test.py

と入力して記述したPythonファイルを実行させます。

すると

python-scraping-cmd

のように無事目的のタグを表示することができました。

 

また当サイトでは、IBM Watsonを使ったPythonによる「画像分析」なども紹介しているので興味がある方は挑戦してみてください。

[Graspy:AI初心者向け講座感想]IBM Watsonを使った画像分析・Python

 

お疲れ様でした。

python-scraping-top
学びに関する情報をチェック!