2006年6月25日

要約と「地の文」

 FORUM×ATOSに要約を表示する機能を追加した。一覧表示画面で使用するほか、メタデータの「概要」にも使うことができる。フォーラムのトップページで最新の発言の概要をコンパクトに表示できるようにして「思わず続きを読みたくなるデザイン」にしたいという目論見もある。

 既に定着している書式を活用して「地の文」を取り出し、段落・文の長さに着目しながら冒頭部分の要約を生成する。ブログにおける「続きを読む」に相当する「テキストの分割」ができればよいのであり、全体を適切に要約した要約になっている必要はない。

続きを読む
posted by tht at 21:24 | コメント (0) | トラックバック (0) | imolist!

2006年6月25日

ソフトウェアの時代と職人、あるいはMeister

 以前にFORUM×ATOSで書いた話だが、最近のあらゆる「乗り物」は、かなりの部分がソフトウェアで制御されている。

 そのソフトウェアが暴走するといかに恐ろしいか思い知らされる事故が起きた。港区でのエレベーター事故である。

 同種の事故を防ぐには、設計から保守まで情報が共有される必要がある。一つの製品を一貫して扱う「職人」としてメーカーが機能することはできないだろうか。

 内部仕様は公開しないまま「WHQLテスト」や「ロゴプログラム」で連携するMicrosoftとハードウェアベンダーの関係が参考になりそうだ。決して手の内を見せない師匠と切磋琢磨するたくさんの弟子たち。一見すると非合理的だが、実は非常に合理的なのではないか。

続きを読む
posted by tht at 14:06 | コメント (0) | トラックバック (0) | ながめよみのすすめ

2006年6月25日

Re:ブログ解読 解読とはそういうことだったのか

 5月、6月の「ブログ解読」は、さっと読んだまま切り抜きもせずに時間が経ってしまった。今さら古新聞の山をひっくり返す気もないので、簡潔に感想を書いておきたい。

続きを読む
posted by tht at 14:02 | コメント (0) | トラックバック (0) | ながめよみのすすめ

2006年6月6日

反復度によるキーワード抽出と関連文書列挙

 昨年秋よりフォーラムの機能強化に手をつけており、既に引用関係索引「imolist!」を作っている。

 今回は簡単なテキストマイニングに挑戦してみた。以下、参考にした資料を紹介しながらメモ的に記す。私自身のオリジナルなアイデアは(まだ)ほとんど含まれていないので、ウェブサイトや掲示板をお持ちの方が同じ方法を試行されることはまったく構わない。

 先に要点だけまとめておくと、「漢字とカタカナ」から成る語句を抽出、「反復度」を求めて重み付けを行ない、キーワードや関連する記事を表示するというもの。結果として「自然言語によるクエリ」に近いものができた、今後は自動要約も…という話である。

続きを読む
posted by tht at 22:31 | コメント (0) | トラックバック (0) | imolist!

2006年6月6日

専門化と一般化のさじ加減

 最近の新製品の中で「これは!」と思ったのに紹介記事がいまいちでがっかりしたケース。

・BUFFALO製品ニュース「フロッピー感覚で使えて、配布メディアとしても便利なUSBフラッシュメモリ」(4月12日)

・同、製品情報
 http://buffalo.jp/products/catalog/item/r/ruf-q16_4p/

・インプレス PC Watch「円盤型USBメモリ「バッファロー RUF-Q16/4P」を試す」(4月27日)

 あくまで一般論であるが、IT系のニュースサイトには「必ず長所と短所を併記せねばならない」という「強迫観念」のようなものが感じられる。長所だけを書いていると客観性がないと思われる、とでも思っているのだろうか。とはいえ、目先の適当な短所を書いて客観性を装うというのは許されることではない。

※「誉めるのは難しい」とよく言われるが、それは物事の性質や背景がわからないと評価ができないからだ。そういう意味では、「批判するだけなら誰でもできる」というのは正しくない。気に入らないからケチをつけるというのは誰にでもできるが、的確な批判をするのは難しい。

 こういう「マニア向け雑誌」の感覚を引きずったつまらない部分でIT系のニュースサイトは損をしているように思う。読者の呼び込みにも広告の売り上げにもそこそこ成功しているのだろうが、専ら娯楽的な扱いをし続けているのは気になるところだ。これだけITが普及している時代に、「マイコン」が「ホビー」だったころの感覚そのままでいては時代錯誤だろう。

 いわば「表舞台に立てるメディア」には成りきれていないといったところか。既存の新聞はガンジガラメの用語統制と厳しい紙面の制約(をサイト上に持ち込んでいる)のせいで、知っている人にとっても知らない人にとっても(結果として)わけのわからない記事になってしまいがちだ。こういう雑誌由来のサイトに頑張ってもらうほかないのだが。

※日経のサイトは例外的で、開発者や識者へのインタビュー記事など読み応えのある記事も多い。答えるほうにも「日経なら…」という気持ちが起こるのだとしたら、ネームバリューと言うものにも意味がある。まずは会ってもらえて語ってもらえなければ、記事にもできないのだから。

続きを読む
posted by tht at 19:18 | コメント (0) | トラックバック (0) | 未分類