情報検索（2）／ビジネス応用

情報処理学会第71回全国大会
2009.3.12
立命館大学BKC

[情報検索（2）]
　　座長　佐藤　貴子（横浜国大）

6P-1 URLを用いた検索結果の分類手法
○山下真理子，鈴木　優，川越恭二（立命館大）

・検索結果をわかりやすく提示するために、Web文書の内容に基づいて分類
・文書内容を用いた分類、分類精度高いが、文書数の増加で処理時間が膨大に
・Web文書のURLに着目、URLにはWeb文書を表す文字列が含まれる
・URLから特徴ベクトル作成（トライグラム）、特徴ベクトル間の距離に基づいた分類、Ward法クラスタリング
・特徴ベクトルの作成、URLのトライグラム、トライグラムの出現回数を要素とする特徴ベクトルを作成
・Ward法を用いた距離算出、階層型クラスタリング、クラス果敢の距離算出に平方和（データのばらつき具合）
・平均特徴ベクトルの算出
・クラスタ内の平方和算出
・距離算出とクラスタ統合
・課題、URL仁加えタイトルや要約を組み合わせた分類精度、処理時間の変化をチェックする

※うぬー、URLの文字列、、、結構奥が深い部分だよなぁ。でもって、処理時間の評価ってのはどうなんだろ

6P-3 ネットワーク解析を可能とするトピックマップデータベースの構築
○栗原優樹，木村昌臣，山崎恭史，細谷岳志（芝浦工大）

・トピックマップ、トピック・関連・出現
・ある事柄に関係ある事柄についての情報を見つける
・トピックマップの大規模化
・トピックマップ問い合わせ言語、
・関係性のトピック群の取得及び挿入・削除処理が行えるトピックマップデータベースの構築
・トピックマップクラスタ解析の適用
・統計ソフトRのspinglass.community関数
・tolog
・トピックマップ情報の挿入・削除
・db4o、オブジェクト指向データベース
・課題、クラスタ解析の精度向上、マルチユーザ、更新機能、大規模なもの

※さっぱりですよ、ちんぷんです、トピックマップデータベース

6P-4 モバイル検索ログを用いた年代別固有名詞データベースによる年代推定
○佐野勝浩，徳永幸生，杉山　精（芝浦工大），尾下順治，星川剛彦（エフルート）

・デモグラフィック情報、年代、性別、地域、職業、家族構成
・広告などで利用
・ユーザの入力が必要、プライバシー・個人情報の保護、取得は困難
・モバイル検索ログに着目
・年代推定法、男性アイドルの検索、ドラマの検索が多い、それらの特徴から
・どのように対応づけるか
・年代別固有名詞DB、年代毎に知っている可能性の高い固有名詞から構成される
・DBの作成法、年ごとに話題になった固有名詞、趣味嗜好が形成される年を12才～
・音楽分野に限定、Wikipediaを利用
・流行ワードの除外、20代以降特有じゃない、全域に有効
・アダプティブ方式、最近検索されている20代以降特有の固有名詞を推定に加える
・推定実験、モバイル検索ログ音楽ジャンル4ヶ月間、4947名のユーザ、20代以降は2519名
・課題、推定法の実現方法に検討の余地
・推定法を補完する新たな手法の検討

※なんか再現率こんなのでいいんか？

-----------

[ビジネス応用]
　　座長　奥　　雅博（NTT）

6N-5 分散したコンピュータによるURIとコンテンツ発信証明手法の検討
○永井俊行，坪川　宏（東京工科大）

・情報発信を行った事実を記録することが困難、いつ情報が初公開されたか曖昧、短期間の発信や改変の跡が残らない
・関連手法、Web魚拓、Webページの存在証明サービス
・コンテンツのアクセス元が限定的
・分散したコンピュータでコンテンツが発信されていた事実を記録
・公証ノード
・クライアントが公証ノードから収集する情報、クライアントのコンテンツへのアクセス権の考慮、対象ホストへの過負荷の防止機構
・収集する情報、対象のコンテンツ、コンテンツを取得した公証ノードの識別子、どのようにコンテンツを得たのかの情報、情報の真正性を示すため、公証ノードの電子署名
・コンテンツの変換処理、クライアントが元の情報を理解不能、情報同士の一致比較が可能、ブロックハッシュ化
・課題、今後はさらに詳細を検討し、実装・評価を行う

※途中から急激に訳が分からなくなってきた

6N-6 ネット上のコミュニティ発見と特徴把握法
○田口貴裕（東京工科大）

・マーケティング活動
・これからは消費者が情報発信する時代、CGM
・企業はそれらを活用したい
・企業側でアクセスしてきた人物が所属するSNSのコミュニティを特定、コミュニティ探索
・Web広告などの最適化などに
・コミュニティ発見の件は余りない、コミュニティ間の関連に着目した研究は多い
・課題、ルートコミュニティの発見、企業サイトにアクセスしてきた人物が所属するコミュニティ、リンクを辿ってきたリファラなどで発見
・ルートコミュニティの特徴把握法、共通に所属する人が多いコミュニティ、関連度の高いコミュニティ
・mixiを実験対象、擬似iPhoneサイト
・ルートコミュニティは複数ある、PC・インターネットカテゴリが中心、
・関連度の高いコミュニティ、ルートコミュニティ以外にも
・課題、精度を高めたい、コミュニティにいる人が見込み顧客的なのか

※んー、まー、当然的な話しだよね、もっとアナログだけどふつーの会社ならみんなやってるはず
※これ、もっとシステムの完成度を高めてmixiが実装したら、mixiが戦略的に広告販売が出来るようになりそう

6N-7 多段決定木構築による属性選択法を用いたクレジットカードの不正利用検出システムの提案
○峰岸達也，新美礼彦，小西　修（はこだて未来大），伊勢昌幸（インテリジェントウェイブ）

※アプローチがよくわかんない
・決定木アルゴリズムで属性を選択
・データマイニングによる不正利用の検出
・様々なアルゴリズムでの分析、不正利用モデルを発見、警告を行う
・カードの全ての属性ではなく、少ない属性で分析を行いたい
・クレジットカード利用データから決定木を構築
・決定木
・ACE Plus
・Weka、情報利得ともとにしたC4.5アルゴリズム
・最終的に27属性
・ステップワイズ法
・不正検知数は既存手法より悪くなる
・が、被害額は上位6階層までのもので最も大きくなる（精度が良くなる）

※そこまでしても計算量を減らすべきなんだろうか？　精度を高めることが最優先のような木がするんだけど

6N-8 閲覧者の嗜好を考慮したWeb文章への広告挿入手法の提案
○鈴木督史，鈴木　優，川越恭二（立命館大）

・コンテンツ連動型広告、Google Adsense、文書を解析して関連広告を表示
・課題点、格闘ゲーム好き、Web文書の内容からゲームに関連する広告が挿入されたが、興味対象に適合しない
※ゲームというキーワードだけでは広い
・利用者の指向を抽出して利用する
・閲覧文書に関連する閲覧者の嗜好の抽出が必要
・ソーシャルブックマークのタグ付け、閲覧者の嗜好の分類が文書集合群としてあらわれる
・提案手法、閲覧者の興味対象に関する広告を挿入、閲覧文書の内容と閲覧者の嗜好を利用、嗜好抽出のためにSBM利用者のタグを利用
・実験、情報系のSBM、情報系のコンテンツ
・が、TFIDF法との比較、出来ないくらい提案手法もTFIDFも悪い
・SBMの数が多ければ多いほど、（主観的に）正しく抽出されている
・課題、広告呼び出し方法の改善、評価手法

※というか、、、そんな簡単じゃないってことだよなぁ
※Googleがやるとすれば、検索キーワードだとか過去の閲覧から嗜好的なものを抜き出してマッチさせることは可能だよな
※若年層でのSBM利用、あり得るかも
※というわけで、ある意味、期待を越える結果だったとも言えるよ、、、難しいって