[D1-3]検索キーワードとコンテキストとの相関に基づく検索文書のリランキング
長谷川隆明(NTTサイバースペース研究所)
・サーチエンジンの検索精度の向上
・ユーザの検索意図の推定の難しさ、サーチエンジンに入力される検索語は1・2語
・モバイル検索利用の急増、モバイルのコンテンツ充実・端末の高速化
・モバイルについては、PCで利用できるようなPageRankやリンク情報の解析がしづらい、リンク情報に頼らない方法が必要
・従来手法、適合性フィードバック(人手によるもの、検索キーの拡張及び修正)、検索質問拡張(シソーラスやオントロジーの利用、相互情報量の利用、でもCGMへの適用は容易ではない)、ログ情報の利用
・アプローチ、対象範囲を限定した検索キーワードとの相関、固有表現の利用(固有表現抽出精度が実用的に)
・提案手法、検索質問とコンテキストの相関、相互情報量に基づく文書のスコアリング、文書のリランキング
・コンテキストの定義、対象とする固有表現、対象とする範囲
・文書のスコアの計算、(ノイズの)フィルタリング
・文書のリランキング、検索キーワードの出現頻度(スコア1)、検索キーワードと共起する単語との相互情報量(スコア2)、検索キーワードと共起する固有表現の相互情報量に基づくスコア(スコア3)
・実験
・今後の課題、手がかりに出来る情報をさらに抽出すること、固有表現抽出の再現率の向上、手がかりに出来る複合語の選別
[D1-4]Wikipediaエントリに対応するトピックのブログサイト検索
・ブログ空間へ索引付け
・検索対象をブログ記事ではなくブログサイトとする(同一著者によって書かれたブログ記事の集合、特定のトピックに対してまとまった情報量、豊富な口コミ情報
・ブログ空間へのアクセスにWikipediaを使用する、適切な粒度でブログ空間にアクセスできる
・従来型ブログ検索サービスの欠点、被リンク数の多いブログを取り上げてしまう、つまり既に人気度の高いブログのみヒットしてしまう
・関連研究
・TRECの2007年blog Distillationタスク
・Web情報検索のためのBlog情報に基づくトラスト値の
・ブロガーの熟知度に基づいたブログランキング方法の提案
・特定トピックのブログサイト検索、特定トピックについて書かれたブログサイト、トピックの出現回数が多い順に
・評価実験、Yahoo!Web検索APIをつかって日本語・英語のブログホストを対象に、キーワードはWikipediaから様々な分野で選定
・ブログサイトの検索、キーワード出現数
・結果、そのとぴっくについてかなり詳しく書いている著者が上位に上がる、アフィリエイトなどのサイドカラムの情報がノイズに(プロフィール、好きなものリストなど)、ブログサイトの記事数の違い、そのトピックの記述回数は少ないがそのトピックについて書かれたブログサイト、表記のゆれ
・課題、本文抽出、検索質問拡張、表記ゆれの対処
・検索質問拡張、検索質問拡張語の候補、