例えばAmazonの商品一覧やTwitterコメント一覧から情報を収集、加工してリスト化したい場合があります。このような作業は「スクレイピング」と言われますが、今回はスクレイピングツールの中でも簡単にスクレイピングが実施できる「Octoparse(オクトパース)」をご紹介します。OctoparseはWebサイトのURLを指定してウィザードに従うだけで、簡単にスクレイピングができるツールです。
Octoparseの使い方
ユーザー登録
Octoparseを使うにはユーザー登録が必要です。はじめに登録しておきましょう。サイトの右上にある「無料」トライアルをクリックします。
ログイン画面が表示されます。下記の「新規アカウント登録」のリンクをクリックします。
登録画面が表示されますので、メールアドレス、ユーザー名、パスワードなどの情報を入力して「登録する」をクリックします。
入力したメールアドレス宛に以下のようなメールが届きます。メール内の「メールアドレスを認証する」をクリックします。
これでユーザー登録が完了です。フリープランか有料プランのトライアルが選択できますが、今回は「フリープランのお試し」をクリックしましょう。
インストール
製品のダウンロード画面が表示されますので続けてダウンロードしましょう。現在は「8.1 Beta」が最新ですのでこちらをクリックします。
Windows版、Mac版が用意されていますのでお使いの端末に合わせて選択します。今回はWindows版をダウンロードします。
製品のインストーラがダウンロードされます。ダウンロード後、exeファイルを起動するとインストール場所の選択画面が表示されます。インストーラの場所を指定して「次へ」をクリックします。
以下の画面が表示されればインストール完了です。「完了」をクリックします。
スクレイピングを実行する
インストール後はOctoparseを起動してスクレイピングを行いましょう。ユーザー登録時に入力したユーザー名とパスワードでログインします。「パスワードを記憶」を入れておくと記憶してくれます。さらに、「次回から自動でログイン」を入れておくと次回からログイン情報の入力も省略できます。
ダッシュボードが表示されます。アマゾンやTwitterからスクレイピングしたい場合はテンプレートも用意されていますが、URL欄を入力することでその他のサイトでもスクレイピングが実行できます。’(今回はWebCliサイトのスクレイピングをします。)ホームページのURLを入力して「抽出開始」をクリックします。
Webサイトが表示されます。「ワークフローを編集」より手動でスクレイピングの設定を行うこともできますが、一覧系の画面であれば自動で解析してリストを取得する設定を行うことが可能です。自動設定したい場合は「Webページを自動識別」をクリックします。
解析完了後は、下側に抽出データのプレビューが表示されますので、問題なく取得できているか確認してください。(WebCliの例では、アプリの一覧が取得できていれば成功です。)問題ない場合は「ワークフローを作成」をクリックします。スクロールが必要な長いページの場合は「スクロールダウンを設定する」また、「次へ」ページのようなボタンがある場合は「ページネーションを設定する」をONにしておきましょう。
左側に自動生成されたワークフローが表示されます。もし手動で調整したい場合はワークフロー欄よりアクションの追加など修正することも可能です。設定完了後でスクレイピングを実行する場合は「保存して実行」をクリックします。
実行方法の選択画面が表示されます。フリープランではローカルのみですが、プレミアムプランであればOctoparseのクラウドサーバー上で実施も可能です。また、クラウドの場合は実行スケジュールを設定することが可能です。今回は「ローカルで抽出」を選択します。
スクレイピングが実行されますのでしばらく待ちましょう。もし実行を中断したい場合は「停止」ボタンをクリックします。
実行が完了すると以下の画面になります。「データをエクスポート」をクリックします。
データの保存形式を選択します。Excel、CSV、HTMLの他、SQL ServerかMySQLのテーブルデータとして保存も可能です。今回は「Excel」を選択して「はい」をクリックします。
Excelの保存ダイアログが表示されますので、保存場所とファイル名を指定して「保存」をクリックします。
Excelファイルにエクスポートされます。完了後は以下の画面になりますので「ファイルを開く」をクリックしましょう。
これでExcelファイルが表示されました。取得したデータがそのままExcel表として出力されています。
以上がOctoparseの使い方でした。Webサイトから情報を収集して加工するスクレイピングツールは他にもありますが、OctoparseはURLを指定し、後はウィザードに従うだけで簡単に実行できることが特徴です。スクレイピングを初めての方でも簡単に行うことができますのでぜひお使いいただいてはいかがでしょうか。
Octoparseの価格
無料でもご利用いただけますが、無料版では抽出できるデータが10000件、作成できるタスクが10までの制限があります。有料プランでは抽出データが無制限になり、タスク数も増加できる他、クラウド上での実行やスケジュール実行が可能となります。スタンダードプランは月75ドル、プロフェッショナルプランは月209ドルとなります。その他、大規模向けのエンタープライズプランやワークフローの設定やデータ抽出の代行を行ってくれるプランなども用意しています。これらのプランについては運営会社にお問い合わせください。
Octoparseのサイト情報
URL:https://www.octoparse.jp/
運営会社:Octopus Data Inc.
Octoparseの評判
レビューを書く | |
確かに使いやすいが、たくさんのWebスクレイピングツールが現れる今現在、ScrapeStormとか、より便利なスクレイピングツールもありますよね。
スクレイピング需要が高い有名サイトはテンプレートが用意されていてなかなか便利、知識ゼロでデータ収集ができる点は魅力的だと思います。