いろいろな言語でSeleniumを使う方法を紹介します。ここでは「C#」で検索したときの検索結果1ページ目のタイトルとurlを抜き出します。このとき、広告は無視します。単純にリンクだけを抜き出そうとすると検索結果とはぜんぜん関係ないものも取得されてしまうので少しだけ工夫します。

HTMLを調べてみると検索結果の部分はこのようになっています。実際はもっと複雑ですが、不必要な部分は省略して単純化しています。

“sw-Card Algo”となっている部分が通常の検索結果です。この部分が”sw-Card Ad js-Ad”であれば広告であり、”sw-Card AnswerChiebukuro”であれば知恵袋へのリンクです。

そのため<div class=”sw-Card Algo”>と</div>の間を抜き取って、それぞれのhref属性の部分がurl、<h3>と</h3>の間がページのタイトルということになります。

C#の場合

最初にNuGetで以下をインストールしておきます。

そのあと

Pythonの場合

seleniumがインストールされていない場合はインストールしておきます。chrome用のseleniumドライバが必要ですが、C#編の実行ファイルがあるフォルダにchromedriver.exeがあるので、これをPythonのソースファイルがあるフォルダと同じフォルダにコピーしておきます。

VBA

これまで使ったことがなかったので大苦戦。