perlでHTMLのscrapingをするときの問題点

| | コメント(0) | トラックバック(0)
scrapping: HTMLなんかから必要な箇所の情報だけを抜き取ること

もちろん正規表現を使ってごにょごにょと俺はなんでこんなことをやっているんだ的な時間を過ごせば解決することではあるんだけども、それだとWebサイトがちょっとデザイン変更しただけであっという間に使えなくなってまたごにょごにょといじらなきゃいけなくなってしまう。

…ってのはさんざん言われてる話なので解決策は既にいくらでもあるものだと思っていたんだけど、「cpanからモジュールを入れたそのままの状態では」日本語が使えないなどの点からなかなかうまい方法が見付かりませんでしたよという話。見落としてるだけかもしれないけどね。

以下、試してみたperlのCPANモジュール。
  • HTML::TokeParser
  • HTML::TokeParser::Simple
  • HTML::Parser
  • HTML::Parse
  • HTML::DOM
  • HTML::TreeBuilder::XPath
[続きは失われました。後ほど編集いたします。]

トラックバック(0)

このブログ記事を参照しているブログ一覧: perlでHTMLのscrapingをするときの問題点

このブログ記事に対するトラックバックURL: http://pascal.iobb.net/diary/mt-tb.cgi/12

コメントする

このブログ記事について

このページは、pascalが2007年11月 9日 12:00に書いたブログ記事です。

ひとつ前のブログ記事は「Willcom、11/5からad-esのアカデミックパックを発売開始」です。

次のブログ記事は「perlで日本語を含むHTMLのscrapingをしてみる」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.01