不特定のWebページから主要コンテンツを抽出したい

ちょっとやりたいことがあって,不特定のWebページから主要コンテンツのみを抽出したくて色々試してる.

機会学習は難しそうだから,とりあえず単純に文章構造をうんちゃらこんちゃらして主要コンテンツっぽいのだけ抜き出すをやってみた.

コンテンツだけ抜き出したいテスト, < http://labs.skycat.me/test/ >

ノイズが結構混じったりしてるけど,そこら辺は適当に捨てれば使えるかなぁ.

ただ,あんまり試してないんで多分取れない割合のが多いと思う.
適当にクロールしながら試してみよう.

調べればもっといい手法やらがあったりするんだろうけど,僕の頭じゃ理解できそうにないので無理矢理オレオレ手法で行こうと思う.
自分を無駄にして自分でやることが大切なのだ!(そんなわけないけど)

対象が企業のサイトの予定なので,文章構造をうんちゃらこんちゃらするだけで,なんとかならないかなぁ...

暇な時に修正していこう..

Androidアプリの方もアップデートしなくちゃとは思うけど,規模大きくやりすぎて今の完成度が中途半端なところなので,全部終わらせてからアップデートしようと思う..

ゲームもいくつが案が浮かんできたから作りたいけど,それが終わるまで我慢.

取り敢えず,ハラ減ったので飯を食べます.

Tags: ,

コメントを残す