« error while loading shared libraries: /usr/lib/libk5crypto.so.3: cannot read file data: invalid argument | メイン | 犯人は電源タップだ! »

2008年4月22日

コンテンツ評価アーキテクチャ

カテゴリ:インターネット

 最近、検索エンジンの根幹であるコンテンツ評価アーキテクチャを揺るがすような事例を良く目にする。その中心は以下の3つではないだろうか。

1.自動コンテンツ生成
2.リンク売買
3.各種スパム

日々増え続けているブログの内の4割がスパムといった発表もあるけど、確かにここのところ検索結果のトップに表示されるサイトが不適切な割合が増えているような気がする。また、トラックバック系の機能を実装している情報サイトについても、明らかなスパム(全くの無関係)や広義の意味のスパム(トラックバックの意義についての考え方の相違における「関連性を重視する考え方。 」に属するもの、または関連性が薄いものも含む)によるトラックバックの割合が半数を超えていることが少なくなく、既にコンテンツを提供している側としてはメリットがある機能とは思えない状況になっている。

 ただ、3.に属するトラックバックスパムに関しては多くの検索エンジンがSEO的な評価を与えておらず検索エンジンにとってはそれほど重要なものではないかもしれない。また、2.に属するものについても既に検索エンジン側で対策が始められていると考えられており(あくまで主観ですが)、克服は近いかもしれない。

 しかし問題は1.だ、これは判断がやっかいだ。最近よく見るパターンは、情報サイトやニュースサイト、果ては個人のブログのコンテンツ(テキスト)をコピーし、自動的に同様のコンテンツを大量に生成、結果的に検索結果にこれらが表示される事例だ。これは、残念ながら自動的に検出することが極めて困難であると考えられる。
 確かに、テキスト部分の評価で同様のコンテンツであると判断することは出来るかもしれない。しかし、それらを評価しないと判断した場合、それらにオリジナルが含まれるという問題が発生する。時間軸を極めて厳密に得ることが出来れば、これらの問題は解決できそうだが現時点では極めて困難ではないだろうか。

 と、書いてはみたけど、具体的な解決策は思い浮かばない。Googleを代表とする検索エンジンがどのような対策を出してくるか、または長期にわたり広義のスパム(3.に1.を包含したもの)に苦しむことになってしまうか、興味深く観察したい。

 個人的にはリンクポピュラリティベースではない新たなコンテンツ・ページ評価アルゴリズムが発明されると思う。ホワイトリスト的な考え方に近い。が、各検索エンジンより先にそれを軸に出来るサービスのクリエイトを目論み中、、、。コンテンツ→ページ→サイト→ネット上の人格→リアル人格。

* すげー、過度に書いてますけど、とっくにGoogleは克服してたりして、、、
** 今気付きましたが、「そんなんじゃクチコミしないよ。」著者の河野さんのブログWadoo?のエントリ&コメント欄でかなり近い話しが書いてあった。まー、自分のこのエントリも河野さんのエントリに触発されて書いたんですけどねぇ、参考になるなぁ



投稿者 ymkx : 2008年4月22日 18:45 |