2chクローラを書き直したので再稼働してみた

空回りしてた2chクローラ止めた。 — そらねこ (@skycat_me) April 12, 2014 データサイズは3板(嫌儲/ニュー速/VIP)を6ヶ月くらいで約16.9GBだった。タラちゃん騒動が落ち … 続きを読む


不特定のWebページから主要コンテンツを抽出したい

ちょっとやりたいことがあって,不特定のWebページから主要コンテンツのみを抽出したくて色々試してる. 機会学習は難しそうだから,とりあえず単純に文章構造をうんちゃらこんちゃらして主要コンテンツっぽいのだけ抜き出すをやって … 続きを読む


MeCabの辞書にはてなキーワードを追加するスクリプトを書いた

アクセス解析見てたら、検索エンジンから404に飛んでた人が結構いたので、 以前(サーバデータ消えるまで)、公開してた記事を復活させるよー。 まずはMeCab関連のこいつから。 すこしずつ戻していきますん。 ・経緯 基本辞 … 続きを読む