日別アーカイブ: 2009 年 3 月 16 日

テキストの抽出

現在、大きなカテゴリーでしか分類されていない。 分類するためには、必要な項目だけでいい。 たくさんあるトピックスのファイル。 タイトルと本文だけを取り出すことを考える。

topicsをどうしよう。

ダウンロードしたトピックス。 まずは、リストファイルから見てみる。 タイトルがずらずらずら。 時系列(降順)にならんでいる。 一応、ここを見れば、一覧がとれそう。