perlでHTMLのscrapingをするときの問題点
scrapping: HTMLなんかから必要な箇所の情報だけを抜き取ること
もちろん正規表現を使ってごにょごにょと俺はなんでこんなことをやっているんだ的な時間を過ごせば解決することではあるんだけども、それだとWebサイトがちょっとデザイン変更しただけであっという間に使えなくなってまたごにょごにょといじらなきゃいけなくなってしまう。
…ってのはさんざん言われてる話なので解決策は既にいくらでもあるものだと思っていたんだけど、「cpanからモジュールを入れたそのままの状態では」日本語が使えないなどの点からなかなかうまい方法が見付かりませんでしたよという話。見落としてるだけかもしれないけどね。
以下、試してみたperlのCPANモジュール。
もちろん正規表現を使ってごにょごにょと俺はなんでこんなことをやっているんだ的な時間を過ごせば解決することではあるんだけども、それだとWebサイトがちょっとデザイン変更しただけであっという間に使えなくなってまたごにょごにょといじらなきゃいけなくなってしまう。
…ってのはさんざん言われてる話なので解決策は既にいくらでもあるものだと思っていたんだけど、「cpanからモジュールを入れたそのままの状態では」日本語が使えないなどの点からなかなかうまい方法が見付かりませんでしたよという話。見落としてるだけかもしれないけどね。
以下、試してみたperlのCPANモジュール。
- HTML::TokeParser
- HTML::TokeParser::Simple
- HTML::Parser
- HTML::Parse
- HTML::DOM
- HTML::TreeBuilder::XPath
[続きは失われました。後ほど編集いたします。]
トラックバック(0)
このブログ記事を参照しているブログ一覧: perlでHTMLのscrapingをするときの問題点
このブログ記事に対するトラックバックURL: http://pascal.iobb.net/diary/mt-tb.cgi/12

コメントする