情報処理学会第71回全国大会
2009.3.12
立命館大学BKC
[情報検索(1)]
座長 岩山 真(日立)
5P-2 Web文書における効率的な情報発信源特定手法
○見市高一,鈴木 優,川越恭二(立命館大)
・情報の伝播
・参照元の明記されていない文書
・発信源の特定
・Web文書のクラスタリング、更新日時の絞り込み、発信源を特定
・キーワード、閲覧URLを入力→検索結果収集→収集した文書のクラスタリング→類似クラスタを特定→更新日時で絞り込み→発信源URL群を特定
・Web文書のクラスタリング、同一結果の取得、階層的手法、Ward法
・文書の形態素解析、特徴語抽出、文書ベクトル作成、Ward法適用、最も類似したクラスタを特定、源文書を特定
・更新日時比較、閲覧Web文書の更新日時以前に更新されたWeb文書のみを大層
・評価実験、Yahoo!Japanキーワード検索上位500件、クラス多数10個、更新一時の閾値3日
・再現率、網羅性
・適合率、精度
・従来手法より提案手法によってよりWeb文書の絞り込みに成功
・発信源特定精度の向上
・「内定 取り消し」:F値の低下、発信源となるWeb文書数の多さ
・「日本 景気」:F値が低い値、発信源となるWeb文書数の少なさ
・課題、キーワード入力を不要に、クラスタリング手法の検討、各種数値を変化させて評価実験、より大規模な評価実験
※クラスタリング手法を調べよう
※確かに、更新日時をHTTPヘッダから取ってると、ブログとかでコメントとか受けると変化しちゃうよねぇ、静的文書ならアリなのかもしれないけど、ああ、ニュースサイトが情報源だった場合ね
※情報源を絞らない、派生情報への付加価値を認めるべき? でも、それはこの研究の領域じゃないよねぇ
※伝搬情報のネットワーク化、それは面白いね
5P-3 Web検索ログに基づく複数の関連度を利用した情報ニーズ検索支援方法の提案
○柳 阿礼,徳永幸生,杉山 精(芝浦工大),杉崎正之,望月崇由(NTTレゾナント)
※NTTレゾナント 技術マーケティング部
・Web検索システム
・検索語群に利用者の情報要求の生の声が潜んでいる
・販売戦略やマーケティングなどに生かせる
・検索語と情報ニーズ、検索行動における法則性、出来事・ブーム・人間の行動との照らし合わせ、検索行動の意味を獲る
・利用者の検索行動の分析、検索語の検討・入力、結果の評価、Webページの閲覧、これの繰り返し
・閲覧時には時間が掛かる、時間間隔に特徴がある
・検索の使用時間間隔
・関連度の算出と特性の考察
・時間間隔関連度、assoc関数
・特徴ベクトルによるcos関連度の算出、共起度合い
・2種類の関連度の考察
・地名は様々な単語と一緒に検索される
・時間間隔関連度を用いると、追加検索語候補となる検索語群が獲られる
・cos関連度は、検索置換語候補
・関連度可視化システム
・多くの地域に共通の情報ニーズ、宿泊に関すること、鹿児島は別
・多くの地域に共通だが、表現方法が異なる情報ニーズ、交通手段(地域性)、デパート(ブランド名)
・地域に特有の情報ニーズ、固有名詞、名物
・料理に関する検索は、金曜日と土曜日とで異なる特徴がある、金曜日は料理を作らないだとか、週末に近づくにつれて弁当のレシピの検索数が増加
※前も聴いたよなぁ、違う人だけど
※現時点のものって、この時間間隔関連度とか使ってるかなぁ
※アレだよな、この手の話しって、それをどうやって利用者に提示するのか、たぶんビジュアルとでもユーザビリティーとも違う話だと思う部分、意外とそこがネックだったりするよなぁ。たぶん、それは研究する人が違うんだろうね。面白いし役に立ちそうだけど、活かし方が難しいとか
5P-4 Web閲覧履歴の共有による検索効率改善のためのグループ形成手法の提案
○山口雄大,新美礼彦,小西 修(はこだて未来大)
※今度は履歴共有
・既に誰かが調べているかも、うまく探した人の履歴情報
・グループでウェブの探索を効率化する検索共有インタフェース
・興味・関心の似ているグループに対象
・本研究はユーザグループを特定しない
・グループ形成手法、検索タスクグループの自動生成手法
・ベクトル空間法、類似度を求める
・特徴キーワードの抽出、名刺の抽出、特徴キーワードの精選(ノイズ除去、2グラム・3グラム、不要語フィルタリング)
・特徴キーワードのスコア算出、tf-idf、検索タスク集合におけるキーワードの出現頻度、キーワードの重み
・検索タスクグループの自動形成、類似度の高いクラスターを次々統合、類似度の閾値で統合を完了
・評価実験、再現率平均0.85、適合率1.0
・課題、個人のWeb閲覧履歴を検索目的別に自動分類する手法の確定
※確かに適合率100%って、、、評価実験の設定がよくわかんないからなぁ、ああ、本人も十分意識してるのね
5P-5 時系列情報を用いた研究リソース共有・推薦システム
○真木 努,越智洋司,井口信和(近畿大)
・研究活動、テーマ選択・決定、遂行、成果発表・蓄積
・研究リソース探索活動
・研究リソースの特徴、永続的な増加傾向、研究成果の時間的特徴
・検索エンジン・検索サイトの多様化
・研究支援ポータルサイト、rPortal
・研究リソース選定支援、時系列情報を用いたリソース推薦
・荷重移動平均法による近似ARIMAモデルを用いたトレンド推定、将来性のあるリソース、リソース時系列の非定常性
・ARIMAモデル、非定常な時系列データから将来の予測値を算出
・荷重移動平均法、WMA、ココのデータに重みをつけ、その時期に近い値を予測
・荷重移動平均法を用いたモデル近似
・近似ARIMAモデルによるトレンド推定
・協調フィルタリングによる類似リソース推薦、時系列毎に重み付け
・プロファイルの時系列分割と入力行列の作成、ユーザ間の類似度算出、jけいれつを考慮した類似リソース推薦
・時系列定常性を考慮したリソース推薦
※うーんとね、さっぱりです、、、まぁ、理論部分だしなー、これがすらーっと理解できる人達ってすごいよなぁ
5P-6 検索キーワードに応じて適切な検索APIを選択するメタ検索システムの開発
○小西隆太,上原子正利,小柳 滋(立命館大)
※メタ検索、適切な検索か
・膨大なテキスト、マルチメディアデータ
・画像検索、地図検索、特定のコンテンツに特化した検索エンジンの登場、ユーザ負担の増加
・メタ検索、検索キーワードの提示、検索結果のクラスタリング(分類)
・システムが自動で行うメタ検索システム、複数の検索APIを自動選択、複数の検索結果を1ページ上に自動配置
・関連単語の生成、検索APIの選択と結果の配置
・関連単語の生成、ユーザ履歴(Yahoo!関連単語検索)、コンテンツ解析(スニペット解析)、辞書(Wikipedia)
・検索APIの選択と結果の配置、各検索APIに関係の強い単語をあらかじめ登録、各検索APIとの関連度の数値化
・デモ、PLEASE-NAME-ME
※これは面白い
・課題、システムの完全実装、システムの評価、システムの拡張
※どこを突っ込んだらいいのかなぁ、けっこーちゃんと出来てるだけに、全部突っ込みが入れられそう。その中でも、関連単語生成の詳細部分と、インタフェース部分かな、もうちょっと工夫して色々見せられそう
※期間限定でデモ http://www.cpsy.cs.ritsumei.ac.jp./dogooder/
5P-7 局所的IDFを用いた検索結果の再ランキング手法
○平川雄三,鈴木 優,川越恭二(立命館大)
・従来手法、TF-IDFによる問い合わせの重みを用いた再ランキング手法
・問題、どの文書においても同一の問い合わせは同一の重要度(IDF)、文書の重要度が問い合わせの出現頻度(TF)に依存、文書に適切な重要度を付与することが困難
・提案手法、文書の内容を考慮した問い合わせの重要度を用いて検索結果の文書を再ランキング、文書の内容をチェック
・文書分野をYahoo!カテゴリの各カテゴリとする
・文書とカテゴリの類似度を算出、文書を類似度が最も高いカテゴリに所属させる
・分野を考慮した単語の重要度算出、特定の分野に集中して出現している単語はその分野において一般的で重要な単語
・局所的IDFと大域的IDFを用いて分野を考慮した単語の重要度を算出
・文書に対する重要度付与、重要度順に検索結果の文書を再ランキング、問い合わせの出現頻度は低くても問い合わせの関連が強い文書が提示
・考察、不正解文書が依然上位にランキング、問い合わせの出現頻度による重みが強く反映されたことが原因
・課題、文書重要度算出式の改良、システムの処理速度向上、多角的な視点による文書重要度付与
※局所的IDFとカテゴリの2点だね、評価実験の数が少なすぎて結果の評価は何とも言えない気がする、もっと多くのキーワードでの結果を見てみたい
5P-8 適合性フィードバックにおけるユーザ負担の軽減
○石本将洋(芝浦工大)
・Web検索
・適合性フィードバック、ユーザに適合・不適合を判断させる
・ユーザ負担の軽減、評価文書数を減らす、評価文書長を短くする
・適合性フィードバックに適したスニペットの生成
・提示したスニペットに対する、適合・不適合を与える
※結局負荷が、、、
・重要語を含むスニペットを生成、TF-IDFの重要語、検索語
・実験、適合率向上、誤評価率低下、ただ、重要文評価が無いものは悪化
・検索語を全く含まないスニペットのWebページはユーザに不適合と判断された可能性が高い
・提案スニペットは誤評価を招きやすい
・適合性の評価、負担
※当然
・重要文の評価、負担は約半数、適合率の向上と負担に関しては相関関係がある
・ユーザ負担の軽減は提案手法では不十分
※ユーザが意識して評価するってのはダメだよなぁ