2009年3月12日

情報検索(2)/ビジネス応用

[ReTweet This!] カテゴリ:情報処理学会第71回全国大会

情報処理学会第71回全国大会
2009.3.12
立命館大学BKC


[情報検索(2)]
  座長 佐藤 貴子(横浜国大)

6P-1 URLを用いた検索結果の分類手法
○山下真理子,鈴木 優,川越恭二(立命館大)

・検索結果をわかりやすく提示するために、Web文書の内容に基づいて分類
・文書内容を用いた分類、分類精度高いが、文書数の増加で処理時間が膨大に
・Web文書のURLに着目、URLにはWeb文書を表す文字列が含まれる
・URLから特徴ベクトル作成(トライグラム)、特徴ベクトル間の距離に基づいた分類、Ward法クラスタリング
・特徴ベクトルの作成、URLのトライグラム、トライグラムの出現回数を要素とする特徴ベクトルを作成
・Ward法を用いた距離算出、階層型クラスタリング、クラス果敢の距離算出に平方和(データのばらつき具合)
・平均特徴ベクトルの算出
・クラスタ内の平方和算出
・距離算出とクラスタ統合
・課題、URL仁加えタイトルや要約を組み合わせた分類精度、処理時間の変化をチェックする

※うぬー、URLの文字列、、、結構奥が深い部分だよなぁ。でもって、処理時間の評価ってのはどうなんだろ

6P-3 ネットワーク解析を可能とするトピックマップデータベースの構築
○栗原優樹,木村昌臣,山崎恭史,細谷岳志(芝浦工大)

・トピックマップ、トピック・関連・出現
・ある事柄に関係ある事柄についての情報を見つける
・トピックマップの大規模化
・トピックマップ問い合わせ言語、
・関係性のトピック群の取得及び挿入・削除処理が行えるトピックマップデータベースの構築
・トピックマップクラスタ解析の適用
・統計ソフトRのspinglass.community関数
・tolog
・トピックマップ情報の挿入・削除
・db4o、オブジェクト指向データベース
・課題、クラスタ解析の精度向上、マルチユーザ、更新機能、大規模なもの

※さっぱりですよ、ちんぷんです、トピックマップデータベース

6P-4 モバイル検索ログを用いた年代別固有名詞データベースによる年代推定
○佐野勝浩,徳永幸生,杉山 精(芝浦工大),尾下順治,星川剛彦(エフルート)

・デモグラフィック情報、年代、性別、地域、職業、家族構成
・広告などで利用
・ユーザの入力が必要、プライバシー・個人情報の保護、取得は困難
・モバイル検索ログに着目
・年代推定法、男性アイドルの検索、ドラマの検索が多い、それらの特徴から
・どのように対応づけるか
・年代別固有名詞DB、年代毎に知っている可能性の高い固有名詞から構成される
・DBの作成法、年ごとに話題になった固有名詞、趣味嗜好が形成される年を12才~
・音楽分野に限定、Wikipediaを利用
・流行ワードの除外、20代以降特有じゃない、全域に有効
・アダプティブ方式、最近検索されている20代以降特有の固有名詞を推定に加える
・推定実験、モバイル検索ログ音楽ジャンル4ヶ月間、4947名のユーザ、20代以降は2519名
・課題、推定法の実現方法に検討の余地
・推定法を補完する新たな手法の検討

※なんか再現率こんなのでいいんか?

-----------

[ビジネス応用]
  座長 奥  雅博(NTT)

6N-5 分散したコンピュータによるURIとコンテンツ発信証明手法の検討
○永井俊行,坪川 宏(東京工科大)

・情報発信を行った事実を記録することが困難、いつ情報が初公開されたか曖昧、短期間の発信や改変の跡が残らない
・関連手法、Web魚拓、Webページの存在証明サービス
・コンテンツのアクセス元が限定的
・分散したコンピュータでコンテンツが発信されていた事実を記録
・公証ノード
・クライアントが公証ノードから収集する情報、クライアントのコンテンツへのアクセス権の考慮、対象ホストへの過負荷の防止機構
・収集する情報、対象のコンテンツ、コンテンツを取得した公証ノードの識別子、どのようにコンテンツを得たのかの情報、情報の真正性を示すため、公証ノードの電子署名
・コンテンツの変換処理、クライアントが元の情報を理解不能、情報同士の一致比較が可能、ブロックハッシュ化
・課題、今後はさらに詳細を検討し、実装・評価を行う

※途中から急激に訳が分からなくなってきた

6N-6 ネット上のコミュニティ発見と特徴把握法
○田口貴裕(東京工科大)

・マーケティング活動
・これからは消費者が情報発信する時代、CGM
・企業はそれらを活用したい
・企業側でアクセスしてきた人物が所属するSNSのコミュニティを特定、コミュニティ探索
・Web広告などの最適化などに
・コミュニティ発見の件は余りない、コミュニティ間の関連に着目した研究は多い
・課題、ルートコミュニティの発見、企業サイトにアクセスしてきた人物が所属するコミュニティ、リンクを辿ってきたリファラなどで発見
・ルートコミュニティの特徴把握法、共通に所属する人が多いコミュニティ、関連度の高いコミュニティ
・mixiを実験対象、擬似iPhoneサイト
・ルートコミュニティは複数ある、PC・インターネットカテゴリが中心、
・関連度の高いコミュニティ、ルートコミュニティ以外にも
・課題、精度を高めたい、コミュニティにいる人が見込み顧客的なのか

※んー、まー、当然的な話しだよね、もっとアナログだけどふつーの会社ならみんなやってるはず
※これ、もっとシステムの完成度を高めてmixiが実装したら、mixiが戦略的に広告販売が出来るようになりそう

6N-7 多段決定木構築による属性選択法を用いたクレジットカードの不正利用検出システムの提案
○峰岸達也,新美礼彦,小西 修(はこだて未来大),伊勢昌幸(インテリジェントウェイブ)

※アプローチがよくわかんない
・決定木アルゴリズムで属性を選択
・データマイニングによる不正利用の検出
・様々なアルゴリズムでの分析、不正利用モデルを発見、警告を行う
・カードの全ての属性ではなく、少ない属性で分析を行いたい
・クレジットカード利用データから決定木を構築
・決定木
・ACE Plus
・Weka、情報利得ともとにしたC4.5アルゴリズム
・最終的に27属性
・ステップワイズ法
・不正検知数は既存手法より悪くなる
・が、被害額は上位6階層までのもので最も大きくなる(精度が良くなる)

※そこまでしても計算量を減らすべきなんだろうか? 精度を高めることが最優先のような木がするんだけど

6N-8 閲覧者の嗜好を考慮したWeb文章への広告挿入手法の提案
○鈴木督史,鈴木 優,川越恭二(立命館大)

・コンテンツ連動型広告、Google Adsense、文書を解析して関連広告を表示
・課題点、格闘ゲーム好き、Web文書の内容からゲームに関連する広告が挿入されたが、興味対象に適合しない
※ゲームというキーワードだけでは広い
・利用者の指向を抽出して利用する
・閲覧文書に関連する閲覧者の嗜好の抽出が必要
・ソーシャルブックマークのタグ付け、閲覧者の嗜好の分類が文書集合群としてあらわれる
・提案手法、閲覧者の興味対象に関する広告を挿入、閲覧文書の内容と閲覧者の嗜好を利用、嗜好抽出のためにSBM利用者のタグを利用
・実験、情報系のSBM、情報系のコンテンツ
・が、TFIDF法との比較、出来ないくらい提案手法もTFIDFも悪い
・SBMの数が多ければ多いほど、(主観的に)正しく抽出されている
・課題、広告呼び出し方法の改善、評価手法

※というか、、、そんな簡単じゃないってことだよなぁ
※Googleがやるとすれば、検索キーワードだとか過去の閲覧から嗜好的なものを抜き出してマッチさせることは可能だよな
※若年層でのSBM利用、あり得るかも
※というわけで、ある意味、期待を越える結果だったとも言えるよ、、、難しいって

投稿者 ymkx : 2009年3月12日 18:36 |

情報検索(1)

[ReTweet This!] カテゴリ:情報処理学会第71回全国大会

情報処理学会第71回全国大会
2009.3.12
立命館大学BKC


[情報検索(1)]
  座長 岩山  真(日立)

5P-2 Web文書における効率的な情報発信源特定手法
○見市高一,鈴木 優,川越恭二(立命館大)

・情報の伝播
・参照元の明記されていない文書
・発信源の特定
・Web文書のクラスタリング、更新日時の絞り込み、発信源を特定
・キーワード、閲覧URLを入力→検索結果収集→収集した文書のクラスタリング→類似クラスタを特定→更新日時で絞り込み→発信源URL群を特定
・Web文書のクラスタリング、同一結果の取得、階層的手法、Ward法
・文書の形態素解析、特徴語抽出、文書ベクトル作成、Ward法適用、最も類似したクラスタを特定、源文書を特定
・更新日時比較、閲覧Web文書の更新日時以前に更新されたWeb文書のみを大層
・評価実験、Yahoo!Japanキーワード検索上位500件、クラス多数10個、更新一時の閾値3日
・再現率、網羅性
・適合率、精度
・従来手法より提案手法によってよりWeb文書の絞り込みに成功
・発信源特定精度の向上
・「内定 取り消し」:F値の低下、発信源となるWeb文書数の多さ
・「日本 景気」:F値が低い値、発信源となるWeb文書数の少なさ
・課題、キーワード入力を不要に、クラスタリング手法の検討、各種数値を変化させて評価実験、より大規模な評価実験

※クラスタリング手法を調べよう
※確かに、更新日時をHTTPヘッダから取ってると、ブログとかでコメントとか受けると変化しちゃうよねぇ、静的文書ならアリなのかもしれないけど、ああ、ニュースサイトが情報源だった場合ね
※情報源を絞らない、派生情報への付加価値を認めるべき? でも、それはこの研究の領域じゃないよねぇ
※伝搬情報のネットワーク化、それは面白いね

5P-3 Web検索ログに基づく複数の関連度を利用した情報ニーズ検索支援方法の提案
○柳 阿礼,徳永幸生,杉山 精(芝浦工大),杉崎正之,望月崇由(NTTレゾナント)

※NTTレゾナント 技術マーケティング部
・Web検索システム
・検索語群に利用者の情報要求の生の声が潜んでいる
・販売戦略やマーケティングなどに生かせる
・検索語と情報ニーズ、検索行動における法則性、出来事・ブーム・人間の行動との照らし合わせ、検索行動の意味を獲る
・利用者の検索行動の分析、検索語の検討・入力、結果の評価、Webページの閲覧、これの繰り返し
・閲覧時には時間が掛かる、時間間隔に特徴がある
・検索の使用時間間隔
・関連度の算出と特性の考察
・時間間隔関連度、assoc関数
・特徴ベクトルによるcos関連度の算出、共起度合い
・2種類の関連度の考察
・地名は様々な単語と一緒に検索される
・時間間隔関連度を用いると、追加検索語候補となる検索語群が獲られる
・cos関連度は、検索置換語候補
・関連度可視化システム
・多くの地域に共通の情報ニーズ、宿泊に関すること、鹿児島は別
・多くの地域に共通だが、表現方法が異なる情報ニーズ、交通手段(地域性)、デパート(ブランド名)
・地域に特有の情報ニーズ、固有名詞、名物
・料理に関する検索は、金曜日と土曜日とで異なる特徴がある、金曜日は料理を作らないだとか、週末に近づくにつれて弁当のレシピの検索数が増加

※前も聴いたよなぁ、違う人だけど
※現時点のものって、この時間間隔関連度とか使ってるかなぁ
※アレだよな、この手の話しって、それをどうやって利用者に提示するのか、たぶんビジュアルとでもユーザビリティーとも違う話だと思う部分、意外とそこがネックだったりするよなぁ。たぶん、それは研究する人が違うんだろうね。面白いし役に立ちそうだけど、活かし方が難しいとか

5P-4 Web閲覧履歴の共有による検索効率改善のためのグループ形成手法の提案
○山口雄大,新美礼彦,小西 修(はこだて未来大)

※今度は履歴共有
・既に誰かが調べているかも、うまく探した人の履歴情報
・グループでウェブの探索を効率化する検索共有インタフェース
・興味・関心の似ているグループに対象
・本研究はユーザグループを特定しない
・グループ形成手法、検索タスクグループの自動生成手法
・ベクトル空間法、類似度を求める
・特徴キーワードの抽出、名刺の抽出、特徴キーワードの精選(ノイズ除去、2グラム・3グラム、不要語フィルタリング)
・特徴キーワードのスコア算出、tf-idf、検索タスク集合におけるキーワードの出現頻度、キーワードの重み
・検索タスクグループの自動形成、類似度の高いクラスターを次々統合、類似度の閾値で統合を完了
・評価実験、再現率平均0.85、適合率1.0
・課題、個人のWeb閲覧履歴を検索目的別に自動分類する手法の確定

※確かに適合率100%って、、、評価実験の設定がよくわかんないからなぁ、ああ、本人も十分意識してるのね

5P-5 時系列情報を用いた研究リソース共有・推薦システム
○真木 努,越智洋司,井口信和(近畿大)

・研究活動、テーマ選択・決定、遂行、成果発表・蓄積
・研究リソース探索活動
・研究リソースの特徴、永続的な増加傾向、研究成果の時間的特徴
・検索エンジン・検索サイトの多様化
・研究支援ポータルサイト、rPortal
・研究リソース選定支援、時系列情報を用いたリソース推薦
・荷重移動平均法による近似ARIMAモデルを用いたトレンド推定、将来性のあるリソース、リソース時系列の非定常性
・ARIMAモデル、非定常な時系列データから将来の予測値を算出
・荷重移動平均法、WMA、ココのデータに重みをつけ、その時期に近い値を予測
・荷重移動平均法を用いたモデル近似
・近似ARIMAモデルによるトレンド推定
・協調フィルタリングによる類似リソース推薦、時系列毎に重み付け
・プロファイルの時系列分割と入力行列の作成、ユーザ間の類似度算出、jけいれつを考慮した類似リソース推薦
・時系列定常性を考慮したリソース推薦

※うーんとね、さっぱりです、、、まぁ、理論部分だしなー、これがすらーっと理解できる人達ってすごいよなぁ

5P-6 検索キーワードに応じて適切な検索APIを選択するメタ検索システムの開発
○小西隆太,上原子正利,小柳 滋(立命館大)

※メタ検索、適切な検索か
・膨大なテキスト、マルチメディアデータ
・画像検索、地図検索、特定のコンテンツに特化した検索エンジンの登場、ユーザ負担の増加
・メタ検索、検索キーワードの提示、検索結果のクラスタリング(分類)
・システムが自動で行うメタ検索システム、複数の検索APIを自動選択、複数の検索結果を1ページ上に自動配置
・関連単語の生成、検索APIの選択と結果の配置
・関連単語の生成、ユーザ履歴(Yahoo!関連単語検索)、コンテンツ解析(スニペット解析)、辞書(Wikipedia)
・検索APIの選択と結果の配置、各検索APIに関係の強い単語をあらかじめ登録、各検索APIとの関連度の数値化
・デモ、PLEASE-NAME-ME
※これは面白い
・課題、システムの完全実装、システムの評価、システムの拡張

※どこを突っ込んだらいいのかなぁ、けっこーちゃんと出来てるだけに、全部突っ込みが入れられそう。その中でも、関連単語生成の詳細部分と、インタフェース部分かな、もうちょっと工夫して色々見せられそう
※期間限定でデモ http://www.cpsy.cs.ritsumei.ac.jp./dogooder/

5P-7 局所的IDFを用いた検索結果の再ランキング手法
○平川雄三,鈴木 優,川越恭二(立命館大)

・従来手法、TF-IDFによる問い合わせの重みを用いた再ランキング手法
・問題、どの文書においても同一の問い合わせは同一の重要度(IDF)、文書の重要度が問い合わせの出現頻度(TF)に依存、文書に適切な重要度を付与することが困難
・提案手法、文書の内容を考慮した問い合わせの重要度を用いて検索結果の文書を再ランキング、文書の内容をチェック
・文書分野をYahoo!カテゴリの各カテゴリとする
・文書とカテゴリの類似度を算出、文書を類似度が最も高いカテゴリに所属させる
・分野を考慮した単語の重要度算出、特定の分野に集中して出現している単語はその分野において一般的で重要な単語
・局所的IDFと大域的IDFを用いて分野を考慮した単語の重要度を算出
・文書に対する重要度付与、重要度順に検索結果の文書を再ランキング、問い合わせの出現頻度は低くても問い合わせの関連が強い文書が提示
・考察、不正解文書が依然上位にランキング、問い合わせの出現頻度による重みが強く反映されたことが原因
・課題、文書重要度算出式の改良、システムの処理速度向上、多角的な視点による文書重要度付与
※局所的IDFとカテゴリの2点だね、評価実験の数が少なすぎて結果の評価は何とも言えない気がする、もっと多くのキーワードでの結果を見てみたい

5P-8 適合性フィードバックにおけるユーザ負担の軽減
○石本将洋(芝浦工大)

・Web検索
・適合性フィードバック、ユーザに適合・不適合を判断させる
・ユーザ負担の軽減、評価文書数を減らす、評価文書長を短くする
・適合性フィードバックに適したスニペットの生成
・提示したスニペットに対する、適合・不適合を与える
※結局負荷が、、、
・重要語を含むスニペットを生成、TF-IDFの重要語、検索語
・実験、適合率向上、誤評価率低下、ただ、重要文評価が無いものは悪化
・検索語を全く含まないスニペットのWebページはユーザに不適合と判断された可能性が高い
・提案スニペットは誤評価を招きやすい
・適合性の評価、負担
※当然
・重要文の評価、負担は約半数、適合率の向上と負担に関しては相関関係がある
・ユーザ負担の軽減は提案手法では不十分

※ユーザが意識して評価するってのはダメだよなぁ


投稿者 ymkx : 2009年3月12日 12:27 |

2009年3月11日

Web応用

[ReTweet This!] カテゴリ:情報処理学会第71回全国大会

情報処理学会第71回全国大会
2009.3.11
立命館大学BKC

[Web応用]
  座長 大平 雅雄(奈良先端大)

3X-1 実世界におけるユーザの位置や目的を考慮した自律的ブックマーク交換手法の提案
○伊東寛修,高田秀志(立命館大)

・偶発的な情報発見
・現在は、偶発的には発見できない情報が増加
・様々な情報機器間での情報流通
・街角メモリ、個人端末、街頭端末、携帯端末、ICカード
・ここでは携帯端末・PDA等を対象に
・携帯端末間における自律的ブックマーク交換と状況による整理
・一定時間以上Bluetoothの通信範囲にいるとき、公開ブックマークを保有しているユーザがいた場合、その情報を受信することが出来る、スケジュールや位置情報からブックマーク内にタグを自動付与
・交換したブックマークの、ユーザの状況に対する適合性と有用性はある程度の相関関係があることが分かった
・ただ、無関係なものもある
・そこで、ユーザの位置や目的を考慮したブックマーク交換
・集まったブックマークをランキングし、同じイベント参加者に対して提示
・ブックマーク、ユーザにとって役立つ情報が保存される、ユーザ本人のブログはWebサイトがある
・ユーザの興味や目的に沿ったブックマークが保持されている
・同じ目的を持ったユーザの集まり、似た興味を持っている、興味や目的に合ったブックマークが多く集まる
・多くの人が登録しているWebサイトほど集団の目的に近い
・同じ目的で集まったユーザ同士のブックマーク交換、位置や目的によるタグ
・予備調査、はてなブログとブックマークを利用し、同じイベントに参加した人達のブックマークを集計、Google Tech Toalに参加した12人
・課題、手法の具体化、検証方法の検討、実装検証実験

※内容としては面白いけど、実装が難しそうだな、是非ともはてなと組んでみてはどうだろうか

3X-2 コンテンツ管理システムにおける柔軟なグループ管理機構の開発
○小久保勇太,早川栄一(拓大)

・グループにおけるCMSの利用が有効
・既存のCMSの問題点、多様性を持つグループを扱うことが出来ない、権限周りの設定が出来ない
・多様性を持つグループの定義方法の確立、柔軟なグループ管理機構を開発
・グループを指向したCMS、グループ管理機構
・グループ管理機構、グループ、権限、柔軟なグループ管理(追加、権限)、専門的な知識を必要としない(Webインタフェース)
・Ajaxを使用
・グループ作成・再編成が柔軟
・矛盾発生をチェック
・グループ定義、多様なグループに対応する、
・グループ管理機構、MVC、モデルはプラグイン
・モデルはCMSに組み込むことが出来るプラグイン
・グループ定義ファイル、XML
・グループを指向したCMSの設計
・実装、Ruby on Rails、MySQL
・関連研究、SKIP、グループ同士が独立している、グループの柔軟な変更が不可
※知ってたか
・課題、寄り複雑な構成を持つグループへの対応、グループ管理機構をWebサービス化、Ruby on Rails以外への対応

※完全にグループが中心の話しになってるよね、これまでソフトの利用の仕方で対応しちゃっていたけど、柔軟すぎるとまとまらない気もしなくもない、実際の集団でも起きうる話しなんだと思うけど

3X-3 プログラミング講義のためのWebベース演習動向解析システム
○石井 優,井上亮文,星  徹(東京工科大)

・プログラミングの授業に特化した、授業支援システム
・講師1人に学生が200人
※実習じゃないよね?
・Webベース演習動向解析システム
・演習時の学生の行動を可視化
・授業資料中のソースのコピー、マウスの動作の停滞
・講義用のHTMLファイルにjsを埋め込む、マウスの動きをキャッチ
・デモ
※結局、付きっきりになる必要があるのでは、、、
・Webサービス、Webブラウザを通して利用
・特徴、導入コストが少ない、学生側への負担が少ない、学生の行動が把握できる
・運用実験、130名程度の学生、プログラミング基礎演習、学生には知らせず
・資料のURL、選択文字列、位置、時間、環境情報
・コピー漏れが分かる、問題点が事前に講師側に伝わる
・コピーする範囲で、理解できてるかどうかを把握できる
・解説のコピー、模範的行動をつかむ
・試験範囲のコピー、試験対策
・講師・学生に負担を課すことなく、授業改善

※やっぱ、講師の負担が増えるか減るか難しいところだな、でも、全く情報が無かったことを考えれば価値はあるだろう
※取ったデータから、ある程度、何が起きているのかを提示できるといいね(意見から)

3X-4 協調的創造活動支援のためのWebサービス構築方式
○井上剛志,小嶋弘行(広島工大)

・協調的知識業務支援へのWebサービスの適用
・関連業務情報の効率的収集支援、知識の蓄積・検索・共有、非定型業務への適用試作(今回は文献調査)
・創造活動支援サービスコンポーネント、GoogleによるWeb文書検索、Namazuによるローカル文書検索、Wikipediaによる辞書検索、RFIDを利用した紙検索、要約抽出システムPosumなど
・情報組織化共有システム、業務知識の表形式による検索機能、ローカル文書検索エンジン
・文書内用語の意味把握のための辞書機能
・これらのサービスコンポーネントをオブジェクト化
※うーぬ、一般的な話しが中心だなぁ、システム構成が特殊だったら面白いんだろうけど
・実装
※表形式ってクロス検索のことか
・GetSenによる文の要約、でも、連携というか自分でフォームから入力
・課題、RFIDタグ利用による紙文書情報の探索、必要なコンポーネントをユーザが任意に選ぶことが出来るように

※なんだろね、Webサービスの話しにウェイト置きすぎ、協調的創造活動支援についてもっと深くきりこんでもらいたい、というかそこをやらないと研究にならないのでは

3X-5 Webページの注目点共有による遠隔会話支援ツール「指差しチャット」の提案
○宮本翔平,下出裕也,桑原和宏(立命館大)

※ああ、これはイメージできるなぁ
・失語症者途の会話
・遠隔会話支援
・ビデオチャット(Skype)+コンテンツ
・指さしで出来るようにタッチパネルを
・会話の際の話題としてWebページを用いる
・失語症者にとって多くの情報提供は負担、必要な情報のみを提供したい
・指さしチャット、会話用のツールを容易に実装
・デモ
・動作の同期/非同期の切り替え、イベント一つ一つにおいて同期非同期を決める
・SyncElement、JSクラス、HTMLのエレメントに対してイベントを追加でき、その際に呼ばれる関数が両者で呼ばれ動作が同期
・会話用ツール「はい・いいえ」、選択肢、お絵かき、これもSyncElementで実装
・選択肢ツール、失語症者側からの意志表示
・実装、DWR、サーバプッシュの実装
・地図・動画など、SyncElemtntが利用しにくい場合、下位レイヤー(JS)経由で動作
・今後、実際に失語症者との会話実験を行う

※ブラウザ画面を同期できるってのは便利だなぁ

3X-6 利用者の行動支援を考慮した地域SNS連携マップの開発
○曽我和哉,窪田 諭,市川 尚(岩手県大),佐々木敬志(滝沢村),阿部昭博(岩手県大)

・地域SNSがコミュニケーションツールとして注目を浴びている
・地域SNSに地図機能は必須である
・有用性の課題、操作性の課題
・コミュニケーション活性化のため地図機能の連携
・行動エリアの設定、設定したエリアから効果的な情報収集、個人とNPOでそれぞれ設定
・操作性、より地図機能を利用しやすくする
・移植性の向上、特定のSNSに寄らない
・SNSエンジンに、行動エリア機能・位置棟高機能を乗っける、本システムのDBは分ける、Google MAP API
・行動エリア機能、よく利用する道を設定、よく利用する施設や店舗を設定、自宅設定、通勤通学先設定
・行動エリアの算出と情報抽出
・行動エリアのライン(矩形)、行動エリアのライン
・位置情報投稿機能、地図から直接投稿、コミュニティ毎の地図作成機能、日記からの投稿(日記に位置情報)、ポイントへのコメント(地図上のポイント)
・システム使用、OpenPNE2.12.0、PHP、MySQL、Google MAP API
・評価、岩手県滝沢村、42名の参加者を対象
・運用の役割、役割分担をユーザに対して行う
・67のポイントが投稿される、コミュニティ12、日記22、よく利用するポイント33
・子供を守る情報、初心者向け交流、イベント情報
・17名からアンケート回答
・有用性
・行動エリア機能、肯定的、投稿数が少なく検証は出来ていない、運用体制を明確にする投稿数増加
・位置情報投稿機能、肯定的意見が6割越え
・操作性、マニュアル・講習会の不備、行動エリアマップの画面を大きく表示する
・システム全体、感性
・移植性、OpenPNE2、OpenPNE3プラグイン、OpenSNP API、
・今後、滝沢村SNSとして本格運用

※使ってみたいかも

3X-7 異なる言語を用いる設計チームのための要求仕様定義支援システム
○脇屋 達(千葉工大),Moulin Claude,Wouters Laurent(Compie`gne University of technology),真部雄介,藤田 茂,菅原研次(千葉工大)

・非同期作業、時差の問題
・同期作業
・言語グリッドサービスを通して、チャット、Argo UMLを翻訳
・折り返し翻訳、原文から翻訳大賞の言語への翻訳、および翻訳された言語から原文の言語への翻訳、翻訳精度のチェック
・UML翻訳、ダイアグラム→分解→テキストの集合→翻訳→テキストの集合→組み立て→ダイアグラム
・UML内の翻訳ミスの発生、翻訳前にオントロジーフィルター→調整テキストの集合を加え、翻訳後の組み立て前にオントロジーによるチェックを行う
・課題、専門用語の共有(上記のオントロジーフィルターの実装)

※オントロジー構成とかは、こういった特定領域では効果が期待できそうだなぁ

3X-8 言語グリッドを用いた自治体窓口の多言語コミュニケーション支援システム
○ 黒澤久美(千葉工大),Wouters Laurent(Compie`gne University of technology),真部雄介(千葉工大),Moulin Claude(Compie`gne University of technology),菅原研次(千葉工大)

・自治体窓口での、外国人による問い合わせの増加
・自治体のWebサイトなどの翻訳
・Webページの他言語翻訳機能、他言語チャット機能、辞書連携による翻訳精度向上機能、翻訳キャッシュ、翻訳ハイライト
・言語グリッド、NICTと京大
・言語サービスでの翻訳と自治体用語辞書の適用
・問題点、大規模テキスト翻訳時における、言語グリッド処理の遅延・タイムアウト
・グリッド時間、システム時間、グリッド時間平均76秒偏差10秒(日英)、187秒偏差17秒(日仏)、グリッド時間が掛かってる、キャッシュの実装
・問題点、翻訳精度、翻訳されていない単語、WEB-Transer・J-Server、辞書連携による翻訳精度向上
・問題点、利用者の文化的な違い、意味的な違い、「住民票」フランスにはその概念がない、他言語チャット機能とハイライト機能で支援

※言語グリッドの翻訳精度がびみょーすぎる、ああ、精度追求じゃないんだねそのプロジェクトは
※辞書での性能改善も限界があるだろうなぁ

3X-9 ワイヤレス生体センサを用いたライフログの取得とWebシステムの提案
○田中雄士(武蔵工大),井上 豊,幸島明男,車谷浩一(産総研),諏訪敬祐(武蔵工大)

※これは面白そうだ、取られたくないけど(笑)
・人の行動をデジタル情報化して記録するライフログ
・1975年に提唱される
・医療診断・健康管理への応用
※ああ、そっちか、それは有用だ
・取得したログを有効利用するための工夫
・取得したライフログを公開するWebシステム、ワイヤレス生体センサの取得記録
・生体センサ、RF-ECG、心電位・3次元加速度・体温、CSV形式で取得
・それらのデータをPCでファイルをアップロード、BBSへ、ネットユーザが閲覧
・生体データの取得実験、基礎実験(施設内における基本的動作に対して)、応用実験(買い物目的で行動)
・センサの誤検知? 筋肉の動きを心電位として誤認している
・課題、計測とアップロードの同時処理、携帯端末でのシステム構築

※ああ、セキュリティ的な部分も考えてはいるのね

投稿者 ymkx : 2009年3月11日 16:40 |

2009年3月10日

Webマイニング

[ReTweet This!] カテゴリ:情報処理学会第71回全国大会

情報処理学会第71回全国大会
2009.3.10
立命館大学BKC

[Webマイニング]
座長 鈴木 伸崇(筑波大)

2P-2 Webページからの人物に関する位置情報の抽出
○高守雄也,上田 洋,村上晴美(大阪市大)

・人名検索、位置情報をゲット
・人名検索の増加、同姓同名人物の自動分類
・多くはクラスタリング手法を用いた分離
・人物を表す適切な位置情報を一つ取得
・Webページには住所が含まれていないことがあるので、ランドマークも抽出
・検索エンジンのランキング上位ページから候補
・Yahoo!ローカルサーチAPIを用いた一座標取得、ランドマークは正式名称じゃない場合があるので、検索類推
・住所抽出ヒューリスティック
・ランドマーク抽出ヒューリスティック
・正式名称の推定、ランドマーク名で検索して一番上位のものから不要語を除去
・一字削除、住所が詳しすぎると住所から位置情報が取得できない
・Webページの上位10件がベスト
・住所、頻度(語間距離)、提案手法がベスト
・課題、精度の改善、語間距離アルゴリズムの改善、住所・ランドマーク抽出ヒューリスティックの改善、不要語辞書の利用、ページ数が多い人物への他手法の検討、インタフェース改善

※位置に落とすというのは意味があると思う、が、実は別の問題を引き起こしそうだなぁ

2P-3 テキストアートの言語に依存しない抽出法
○林 和幸,小熊 光,鈴木徹也(芝浦工大)

・テキストアート、アスキーアートのことだね
・テキストの形態素解析や読み上げでは障害となる
・テキストアート抽出法、テキストアート識別法
・AAスキャン、2チャンネルを対象として抽出ソフトウェア、記事全体がテキストアートかどうか識別
・類似研究、谷岡らの研究、日本語に特化した方法
・既存手法の問題点、特定言語依存、抽出範囲が広い
・言語依存しないテキストアートの抽出
・機械学習により識別機を作成、テキストアート部分のみの抽出
・窓幅wの走査、縮小処理
・窓幅wの走査、テキストをw行ずつの範囲で捜査
・テキストアート識別機、H=同じ文字が連続して2回現れる回数・行数、B=行数、S=バイト数
・縮小処理、テキストアート候補範囲には前後に非テキストアートがついている
・英語・日本語で実験
・機械学習アルゴリズムC4.5で決定木を作成
・縮小処理を行わないと窓幅が大きくなると減少

※んー、なんかよくわかんない、
※テキストアートの除去、それは確かに使える

2P-4 主観評価に基づくタグ重み付けによるblog話題遷移点の抽出
○谷内幸憲,徳永幸生,杉山 精(芝浦工大),杉崎正之,望月崇由(NTTレゾナント)

・情報整理の試み
・SBM、レコメンド、キーワード検索、単語出現頻度の視覚化
・局所的な情報の自動処理
・ブログにおける話題の移り変わりを抽出・視覚化
・ブログスレッド、トラックバックによる繋がり
※むー、トラックバックか、、、
・トラックバックが続いていく最中に話題が切り替わるタイミングを抽出
・話題遷移点の抽出
・話題遷移点検出モデル
・話題遷移点より上位のエントリの単語をチェック
・話題性の増加を検出
・辞書の追加とノイズフィルタリング
・形態素解析辞書の追加、Wikipediaの見出し語を辞書として追加
・フィルタリング、名詞に限定
・基点エントリー、Matzにっき
・抽出数が少ないという問題点があった
・話題性評価式の改良、文書構造からの情報抽出、HTMLを用いた評価式
・単語の含まれるタグの補正値
・話題語のタグの出現率、a、pタグが多いが、それはHTML全般に言われること
・そのあたりを考えるとh、strongタグがおおい
・insタグがノイズの要因になるらしい
・時系列バネモデル法、横が時間軸、縦がバネモデル法、未実装
・話題語の抽出精度が悪い、話題語は抽出できてるけどノイズが多い
・話題遷移点はまずまず
・課題、重複・ノイズの除去、話題遷移点のずれ、死角か部分の詳細検討

※トラックバックってそんなに続くのかなぁ、、、単純に被リンク的な形で繋いだ方が数字がたくさん取れそう
※でも、なかなか面白い話しだと思う

2P-5 ニュース記事の主題に着目したニュース収集・理解支援に関する研究
○上村紘輝,東 基衞(早大)

・一本当たりの記事の情報量が少ない
・ニュース記事の収集・理解支援、関連記事の提示
・現状の関連記事は、様々な内容の記事が混在
・記事には複数の主題候補語がある
・タイトルと第一分に特徴語が出現する割合が多い
・長期的興味(以前から頻繁に)、一時的興味(普段あまり目にすることがない語)、潜在的興味(一時的興味に関係の深い語)
・ユーザプロファイルを生成
・主題候補抽出部、プロファイル生成部
・興味抽出部、それぞれの興味値を算出
・潜在的興味の関連度は低い、それ以外は90%前後
・課題、記事に含まれる複合語の考慮、潜在的興味語の適合率の向上

※んー、これもまたイメージがわかないなぁ
※話し的には有用だと思うんだけど、、、

2P-6 犯罪予告の早期自動発見手法に関する研究
○山本雄平,中村健二,田中成典,寺口敏夫,大谷和史(関西大)

・総務省では犯罪予告検知ソフトの開発費を2009年度予算で要求に盛り込む
・予告.in
※これは人手だよね完全に、これもCGMか
・掲示板を自動検出
・システムにより自動的に犯罪予告を判別
・犯罪予告文書をSVM学習
・犯罪予告学習機能、犯罪予告語辞書(6つの分類)
・犯罪予告特徴抽出機能(15種類の特徴、人名だとか、場所だとか、時間だとか)
・本文特定、リンクリストの除去、HTML構造で最も文章が多い部分を本文として抽出
・掲示板判定処理、掲示板特有のURL→本文が掲示板特有のHTML構造、二つ組み合わせる
・犯罪予告文書抽出処理
・犯罪予告文書判別処理
・スレッドの作成者かどうか
・掲示板の検出精度、適合率0.52(実際に分類された情報の正しさ)、再現率(正しい情報の内実際に分類された情報の割合)0.83、F値0.64
・犯罪予告の検出精度、適合率0.78、再現率0.93、F値0.85
・課題、犯罪予告教師データの充実、隠語の対応

※掲示板であるかどうかって重要なのかなぁ?

2P-7 日本語ブログ空間におけるスパムブログ発見手法の提案
○寒河江明博,勝野裕文(電機大)

・スパムブログ、コピーブログ、ワードサラダ、リンクスパム
・日本語ブログの4割がスパムブログ
・Kolari et al[2.3]→Bag-of-Words
・日本語ブログ空間を対象、ブログ解析SVM学習、スパム分類
・ブログの評価指標、RSSに記載されている内容を評価
・エントリ本文の抽出、ブログの領域はdivやidで区切られている、class・id属性値から本文特定、rssのdescriptionと各領域の類似度抽出
・Bag-of-Words、ブログ本文中の単語を特徴量とする
・特徴語集合、学習データ中に出現する単語に対して、スパムブログ・通常のブログで出現頻度をチェック、スパムブログの特徴語を生成
・ブログのメタ情報、RSS+HTML解析で取り出した情報を定量評価
・スパムブログの判定基準、機械生成、コピー、アダルト
・特徴語集合のサイズが300の時が最も高い、でも全ての領域で0.9前後
・ブログのメタ情報は、特徴量数を増やすと評価値は上昇傾向、15項目全て用いるのがmax
・Bag-of-Anchors、ブログ中のアンカーテキストの単語
・課題、長期運用に向けた再学習機構を取り入れる、スパムの変化に対する柔軟なブログ評価

※意外といい感じに出せるんだね
※コピーブログをどうやって導き出したんだろ? → Bag-of-Wordsは有効に働かないので、メタ情報で導き出す

2P-8 ソーシャルブックマークにおけるスパムの検出
○宗片健太朗(電機大),福原知宏(東大),山田剛一,絹川博之(電機大),中川裕志(東大)

※今度はSBM
・Buzzurl、delicious、はてなブックマーク
・WebとSBM空間
・スパム除去のため、SBMの情報を収集とスパム判別
・スパムブックマークの定義、アフィリエイトサイトへの誘導、商用サイトへの誘導
・行っているユーザをスパマ
・スパマの特徴、ブックマーク登録者がそのユーザのみのブックマーク(1userBM)の割合が多い、ぶくっマーク数に対してタグが多い、ブックマークにつけているタグの数がほぼ一定、ブックマークしているページのドメインが連続して同じ
・SBMデータベース、ユーザID、ユーザ名、ブックマーク登録数、タグ数、1userBMの数割合
・はてなブックマークのRSSをクロールしデータ収集
・73703ユーザの内1000を目視でチェック、スパマは88
・1userBMの割合が50%越えで、0.9以上の精度再現率
・現時点では単独のスパマが多いけど、複数スパマで協力されるとアウト、複数アカウントの取得などの対策を取られる可能性がある
・今後の課題、対象を増やす、他の特徴で分析、スパムの自動検出
※1userBMはいいアイデアだと思ったけど、本人も理解しているとおりの話しだよね、、、ああ、腹立たしい

2P-9 携帯電話のセッション推定に基づくアクセスログの補完について
○中村正人,柿元宏晃,近藤圭佑,大囿忠親,新谷虎松(名工大)

・Cookie、JavaScriptを利用できない
・アクセス毎にIPアドレスが変更する可能性
・リファラが出さない
・端末IDを取得可能
・携帯電話からのアクセスのログは、PCのそれよりも情報量が少なく、アクセス解析手法が異なる
・既存手法、セッションID管理(サーバ、リバースプロキシ、パケットキャプチャ)、Webビーコン形(画像埋め込み)
・アクセス解析ツールとして、ユニークユーザの計測、ページ遷移のトレース、これを実装
・PC向けアクセス解析ツールで携帯電話のアクセス解析を行うための支援システムの構築
・携帯電話のアクセスログを補完、セッションの判別、リファラの推定、
・端末の識別、セッション毎にIDを発行
・端末IDが利用可能な場合、端末IDとセッションIDの対応付けを行う
・端末IDが利用できない場合、キャリアとユーザエージェントを利用、セッションIDをURLに付加、IPアドレス帯域によりキャリア識別、同一セッション中に一貫性の確認を行う
・ログの補完、セッションID等取得できる情報をデータベースに保持
・データベースの情報を元に通常のアクセスログを生成
・リファラ推定、セッション情報を元にする、アクセス統計に基づく推定
・ページへのアクセスに対してリファラ情報を蓄積、統計情報のページ遷移確率に基づき、リファラを補完
・実装、apacheのモジュールで実装、静的ファイルに対応、環境変数で渡す
・Webビーコン形アクセス解析ツールへの適用、JSでクライアントの情報を収集imgタグによりサーバに送信
・考察、複数セッションを同一視する可能性、端末IDが利用できないときの話し
※んー、最後のWebビーコンの話がよくわからんのぉ
※なんか、ページ構造の解析をするとリファラ可能性のあるものが調べられる気がする


投稿者 ymkx : 2009年3月10日 18:52 |

情報検索・評価分析

[ReTweet This!] カテゴリ:情報処理学会第71回全国大会

情報処理学会第71回全国大会
2009.3.10
立命館大学BKC

[情報検索・評価分析]

1S-2 CGMからの評価表現辞書の自動作成に関する基礎研究
○瓜谷芳樹,中村健二,田中成典,高橋亨輔,寺口敏生,田中裕一(関西大)

・商品の評判、Web状から自動的に収集・分類、そして可視化
・評価表現辞書、良い・悪い・すごい・かるい、など
・しかし評価対象によって意味合いが異なる
・Web状の文書の解析には、新しい評価語・評価対象
・評価対象ごとの属性と評価語からなる評価表現をWeb上の文章から取得する研究
・目的1、自動で幅広い評価対象に対応した辞書の作成
・目的2、評価対象が持つ属性の類似性に注目して語数を確保
・評価表現辞書書作成機能
・各評価対象に関する評価表言語数を増加
・CGMコンテンツから評価表現辞書を作成、評価表現登録数の確認
・価格.comのノートパソコンのクチコミデータを元
・バックライトとかバッテリとかを抽出
・結果、1処理で15975件抽出、しかし評価表現として利用価値のない表現もあった
・結果、幅広い評価対象に対して語数を確保、評価対象を純粋な文字列として区別している、同音異義語に対応できない
・キーボードとか、パソコンと音楽が対象なので評価表現が混ざる
・今後、同音異義語問題、利用価値のある評価表現の抽出手法など

1S-3 タグ付けツールによる評判情報コーパスの作成支援
○唯野良介,嶋田和孝,遠藤 勉(九工大)

・評判分析
・価格.com、amazon、はてなダイアリー
・評価情報を対象とした処理・分析
・知識の獲得、コーパス辞書の構築、評価表現抽出
・目的、人手による評価情報コーパスの構築
・問題、コストが高い、コーパスの質の高さ
・タグ付け支援システムの構築
・DSのレビュー
・評価項目を考慮したタグ付け
・コスト削減&効率性、アノテータ間のタグ付けの一致度
・評価項目と関連する表現の強調表示
・タグ付き事例の提示、類似表現には同じ種類のタグがつくと予想
・提示事例
・類似事例・別文書・自分の過去のタグ突き事例
・同一文書からのタグ付き事例、他アノテータ-のもの
・GUI&色づけが一番作業時間が短い
・提示することによって作業時間は掛かってしまうが、一致率は向上
・Webを用いたドメイン推定、検索エンジンを用いて単語のドメインを推定
・ドメイン推定、熱中度、グラフィック、音楽など、それに対する手がかり語
・結果として評価項目の推定にも適用可能、満足度が割り当てられる確率が高い

1S-4 宿泊施設レビューにおける評判の要約と評価基準の重要度を用いたランキング
○小宮山博之,太原育夫(東理大)

・旅行計画、宿泊場所決定、Webで調べる
・レビューを参考
・レビュー、1000件以上のものもあり全部読めない
・その為、レビューを要約
・要求を満たす対象に早くたどり着けるランキング
・評判の要約とランキング
・抽出部と検索部
・抽出部、レビューからの評判情報の抽出、カテゴリ分類
・検索部、検索クエリに基づいた宿泊施設群のランキング、AHP(重要度算出)
・抽出部、レビューからの評判情報抽出、ヒョウ雨版情報抽出に用いる6つのルール[杉木 07]
・評判情報のカテゴリ分類、項目、対象・項目・評価を元に分類
・楽天トラベルの評価項目を利用
・検索部、AHP(重要度算出)、行成分対烈成分で評価基準一組ずつをそれぞれ比較して数値入力、一対比較行列が埋まったら固有ベクトルを求める、
・スコア、評判情報の重要度と、宿泊料金のスコア計算に含む、安い方が高い
・考察、元のレビュー文書より要約の方がより指示された、提案手法の要約は利便性が高い
・ランキング評価、提案手法のランキングは妥当性が高い

※これはアリだな、使えそう
※値段が安い方がスコアを上げる、、、これ、確かに突っ込みどころだよなぁ。安いのに越したことはないけど、言い切るのは危険だよなぁ、で、案の定突っ込みが、、、
※スコアに入れる評価軸ってのを色々見るといい感じ
※そうか、評判情報で値段以外の評価軸が入ってきてるのね、じゃあ、値段については評判情報としては取ってないのかなぁ? 「料金が安いです」みたいなの多いよね

1S-5 学習項目オントロジーとの対応付けを用いた情報工学教材の検索
○田古島太郎,西尾太佑,杉本 徹(芝浦工大)

・大学講義資料のWeb上での公開
・Web上にある狭隘情報のデータベースを作成、ユーザの学びたい事柄に基づく教材検索を行うシステム構築
・検索時に学習項目オントロジーを介する
・教材、Web上で公開されているPDFファイルやpptファイル
・学習項目オントロジー、学習項目との対応付け、教材情報データベースを作成
・ユーザの入力からも学習項目オントロジーと対象オントロジーから、学習項目の対応付けを行う
・学習項目オントロジー、教材ページの学習内容に関する体系化知識、学習内容の階層関係や関連性、学びたい事柄とマッチングさせやすくなる、知識はJ07
・J07のデータ構造化、オントロジーを作成
・Web上からの教材ページの収集、科目名をクエリーにする、教材ページからのキーワード抽出を行う、TF-IDFでランキング付け
・教材ページと学習項目の対応付け、教材ページから学習項目オントロジーと照合、学習項目名、トピックス、学習成果などでポイント付け、上位3件を対象教材とする
・対象オントロジー、専門用語に関する知識、上位下位概念
・入力文の解析と変換、形態素解析、名刺の抽出、同義語辞書による語の追加、ノイズ語(17コの名詞)の削除、対象オントロジーを用いて語の追加(上位概念など)、学習項目名やトピックス・学習成果でポイント付け
・適合率51%、再現率72%
・今後の課題、関連する教材ページや、先修後修の関係にある教材ページも一緒に出力する、教材の追加

※確かに上位概念をどこまで含むかだよなぁ、クイックソートでアルゴリズムを上位概念で含めると、どんどん広がって行っちゃうようなぁ
※オントロジーの使用可否、やってないー

1S-6 日中英ニュース記事比較のための収集と検索
○斉藤雄介,山田剛一,絹川博之(電機大),中川裕志(東大)

・同一内容の記事について、異なる意見の記事、各国による考え方捉え方の違い(北京オリンピックの話しとか)
・各国間の報道のされ方や見方の相違を発見・抽出を支援
・他言語ニュースの収集と検索、索引化ファイル作成
・Webstemmer、ニュース記事の自動収集、タイトル・本文抽出
・ニュースサイトリンク集を利用
・形態素解析、chasen、ICTCLAS、Monty Tagger
・TermExtractでスコア算出、他の連結して複合語を為すような単語こそ、文中の核となる概念を表す
・一旦全ての言語を英語に翻訳、英語が世界標準語である・辞書が充実している、単語単位で翻訳、言語によって文章単位の翻訳システムがない、もしくは精度が不十分
・和英EDICT、中英CEDICT
・Wikipediaを利用した辞書、新語・人名は翻訳しづらい、随時更新される
・Wikipediaの他言語リンクを利用
・多義語の曖昧性の解消
・索引化・検索、Apache Luceneを使用
・検索ランキング計算、TF-IDF、ベクトル空間モデルを用いた計算法
・実験考察、世界共通に報道されている記事が少ない、、、国内ニュースが大半、大ニュースのみ
※だめじゃん
・意味が同じでも、表現方法が複数ある、訳語を一つに特定することが難しい
・課題、インタフェースの改良、多義語の翻訳方法の改良

※いい感じかと思ったら、結果が出てないねぇ。なんだろなー、ニュースサイト固有表現的な辞書が必要なのかなぁ、なんか、見出しだけで結構マッチすると思うんだけど、、、
※海外欄のみにするとか、ああ、それじゃぁ自国のニュースが取り出せないか

1S-7 曖昧な情報要求に対する分類と推薦を用いた検索支援
○和田洋祐(芝浦工大)

・情報検索の有用性
・検索と探索、提案
・しかし、どんな情報が欲しいのかを明確に伝えられないと期待した情報を得られない
・情報要求が持つ曖昧さ、目的の曖昧さ+クエリの曖昧さ、ユーザがその分野に詳しくない、要求が詳細化されていない、インターネットで使われている意味との差
・曖昧さの解決が必要
・進化的探索による対処、ユーザの要求の明確化(探索範囲の変化)、対象分野の知識の増加(キーワードの詳細化)
・検索課程・検索結果の可視化、次に何を検索するかの推薦
・関連研究、キーワードマップ、クラスタリング、どちらも1回の検索行動に対して昨日、連続した検索の中では対応していない
・関連研究、条件設定、キーワード推薦
・提案手法、キーワードマップでユーザの検索課程を可視化、キーワードマップを基準にユーザへの検索戦略を推薦
・キーワードマップの合成では、忘却率を用いる
・広げる、共起する語の類似性から候補を作成
・期待される効果、検索の効率化、検索の質の変化
・今後の課題
・システム、インタフェース設計、検討した機能の妥当性
・実験のデザイン

※っていうか、実験まで到達していないのか、、、
※結構、インタフェースが難しいんじゃないかなぁ、より複雑化してしまうやも
※面白い研究だとは思うけどなぁ、キーワードマップ

1S-8 ユーザの検索意図を考慮したクラスタリング検索システム
○小部山知伸,東 基衞(早大)

・ユーザ個々の検索意図を汲む、及びWebコンテンツの自動分類を行う検索システムが求められている
・対象、報告書・論文作成、調べ物をしているとき、情報の比較キーワードに関する深い情報を求める
・キーワード形vsクラスタリング形
・ユーザの検索意図に適したコンテンツを複数獲得する
・Clusty、検索結果を自動分類する既存システム
・クラスタリングにフィードバックを利用した研究
・問題点、文章の特徴表現に乏しい、フィードバック情報の不足
・頻出語の影響を抑える、適合不適合コンテンツの関連コンテンツを利用、不要クエリをフィードバックに利用
・特徴語抽出、コンテンツベクトル算出式、全文・タイトル・サマリから考慮
・適合・不適合コンテンツからユーザの検索意図を把握し、提案クエリ、不要クエリを提示
・算出式、同一ドメイン・リンク先コンテンツを考慮
・クエリ候補補正、2回目以降の推薦において、ユーザの興味変化から既に推薦されたクエリは有用性が低いと考える
・コンテンツベクトル補正式
・類似度計算によるクラスタ形成
・実験、従来よりクエリ適合数約20%あっぷ、コンテンツ適合率も提案手法が最も高い
・課題、クエリ推薦手法の改良、提案クエリ・不要クエリのフィードバック手法の改良

※イメージできないなぁ、実装が


投稿者 ymkx : 2009年3月10日 12:35 |