情報検索・評価分析

情報処理学会第71回全国大会
2009.3.10
立命館大学BKC

[情報検索・評価分析]

1S-2 CGMからの評価表現辞書の自動作成に関する基礎研究
○瓜谷芳樹,中村健二,田中成典,高橋亨輔,寺口敏生,田中裕一(関西大)

・商品の評判、Web状から自動的に収集・分類、そして可視化
・評価表現辞書、良い・悪い・すごい・かるい、など
・しかし評価対象によって意味合いが異なる
・Web状の文書の解析には、新しい評価語・評価対象
・評価対象ごとの属性と評価語からなる評価表現をWeb上の文章から取得する研究
・目的1、自動で幅広い評価対象に対応した辞書の作成
・目的2、評価対象が持つ属性の類似性に注目して語数を確保
・評価表現辞書書作成機能
・各評価対象に関する評価表言語数を増加
・CGMコンテンツから評価表現辞書を作成、評価表現登録数の確認
・価格.comのノートパソコンのクチコミデータを元
・バックライトとかバッテリとかを抽出
・結果、1処理で15975件抽出、しかし評価表現として利用価値のない表現もあった
・結果、幅広い評価対象に対して語数を確保、評価対象を純粋な文字列として区別している、同音異義語に対応できない
・キーボードとか、パソコンと音楽が対象なので評価表現が混ざる
・今後、同音異義語問題、利用価値のある評価表現の抽出手法など

1S-3 タグ付けツールによる評判情報コーパスの作成支援
○唯野良介,嶋田和孝,遠藤 勉(九工大)

・評判分析
・価格.com、amazon、はてなダイアリー
・評価情報を対象とした処理・分析
・知識の獲得、コーパス辞書の構築、評価表現抽出
・目的、人手による評価情報コーパスの構築
・問題、コストが高い、コーパスの質の高さ
・タグ付け支援システムの構築
・DSのレビュー
・評価項目を考慮したタグ付け
・コスト削減&効率性、アノテータ間のタグ付けの一致度
・評価項目と関連する表現の強調表示
・タグ付き事例の提示、類似表現には同じ種類のタグがつくと予想
・提示事例
・類似事例・別文書・自分の過去のタグ突き事例
・同一文書からのタグ付き事例、他アノテータ-のもの
・GUI&色づけが一番作業時間が短い
・提示することによって作業時間は掛かってしまうが、一致率は向上
・Webを用いたドメイン推定、検索エンジンを用いて単語のドメインを推定
・ドメイン推定、熱中度、グラフィック、音楽など、それに対する手がかり語
・結果として評価項目の推定にも適用可能、満足度が割り当てられる確率が高い

1S-4 宿泊施設レビューにおける評判の要約と評価基準の重要度を用いたランキング
○小宮山博之,太原育夫(東理大)

・旅行計画、宿泊場所決定、Webで調べる
・レビューを参考
・レビュー、1000件以上のものもあり全部読めない
・その為、レビューを要約
・要求を満たす対象に早くたどり着けるランキング
・評判の要約とランキング
・抽出部と検索部
・抽出部、レビューからの評判情報の抽出、カテゴリ分類
・検索部、検索クエリに基づいた宿泊施設群のランキング、AHP(重要度算出)
・抽出部、レビューからの評判情報抽出、ヒョウ雨版情報抽出に用いる6つのルール[杉木 07]
・評判情報のカテゴリ分類、項目、対象・項目・評価を元に分類
・楽天トラベルの評価項目を利用
・検索部、AHP(重要度算出)、行成分対烈成分で評価基準一組ずつをそれぞれ比較して数値入力、一対比較行列が埋まったら固有ベクトルを求める、
・スコア、評判情報の重要度と、宿泊料金のスコア計算に含む、安い方が高い
・考察、元のレビュー文書より要約の方がより指示された、提案手法の要約は利便性が高い
・ランキング評価、提案手法のランキングは妥当性が高い

※これはアリだな、使えそう
※値段が安い方がスコアを上げる、、、これ、確かに突っ込みどころだよなぁ。安いのに越したことはないけど、言い切るのは危険だよなぁ、で、案の定突っ込みが、、、
※スコアに入れる評価軸ってのを色々見るといい感じ
※そうか、評判情報で値段以外の評価軸が入ってきてるのね、じゃあ、値段については評判情報としては取ってないのかなぁ? 「料金が安いです」みたいなの多いよね

1S-5 学習項目オントロジーとの対応付けを用いた情報工学教材の検索
○田古島太郎,西尾太佑,杉本 徹(芝浦工大)

・大学講義資料のWeb上での公開
・Web上にある狭隘情報のデータベースを作成、ユーザの学びたい事柄に基づく教材検索を行うシステム構築
・検索時に学習項目オントロジーを介する
・教材、Web上で公開されているPDFファイルやpptファイル
・学習項目オントロジー、学習項目との対応付け、教材情報データベースを作成
・ユーザの入力からも学習項目オントロジーと対象オントロジーから、学習項目の対応付けを行う
・学習項目オントロジー、教材ページの学習内容に関する体系化知識、学習内容の階層関係や関連性、学びたい事柄とマッチングさせやすくなる、知識はJ07
・J07のデータ構造化、オントロジーを作成
・Web上からの教材ページの収集、科目名をクエリーにする、教材ページからのキーワード抽出を行う、TF-IDFでランキング付け
・教材ページと学習項目の対応付け、教材ページから学習項目オントロジーと照合、学習項目名、トピックス、学習成果などでポイント付け、上位3件を対象教材とする
・対象オントロジー、専門用語に関する知識、上位下位概念
・入力文の解析と変換、形態素解析、名刺の抽出、同義語辞書による語の追加、ノイズ語(17コの名詞)の削除、対象オントロジーを用いて語の追加(上位概念など)、学習項目名やトピックス・学習成果でポイント付け
・適合率51%、再現率72%
・今後の課題、関連する教材ページや、先修後修の関係にある教材ページも一緒に出力する、教材の追加

※確かに上位概念をどこまで含むかだよなぁ、クイックソートでアルゴリズムを上位概念で含めると、どんどん広がって行っちゃうようなぁ
※オントロジーの使用可否、やってないー

1S-6 日中英ニュース記事比較のための収集と検索
○斉藤雄介,山田剛一,絹川博之(電機大),中川裕志(東大)

・同一内容の記事について、異なる意見の記事、各国による考え方捉え方の違い(北京オリンピックの話しとか)
・各国間の報道のされ方や見方の相違を発見・抽出を支援
・他言語ニュースの収集と検索、索引化ファイル作成
・Webstemmer、ニュース記事の自動収集、タイトル・本文抽出
・ニュースサイトリンク集を利用
・形態素解析、chasen、ICTCLAS、Monty Tagger
・TermExtractでスコア算出、他の連結して複合語を為すような単語こそ、文中の核となる概念を表す
・一旦全ての言語を英語に翻訳、英語が世界標準語である・辞書が充実している、単語単位で翻訳、言語によって文章単位の翻訳システムがない、もしくは精度が不十分
・和英EDICT、中英CEDICT
・Wikipediaを利用した辞書、新語・人名は翻訳しづらい、随時更新される
・Wikipediaの他言語リンクを利用
・多義語の曖昧性の解消
・索引化・検索、Apache Luceneを使用
・検索ランキング計算、TF-IDF、ベクトル空間モデルを用いた計算法
・実験考察、世界共通に報道されている記事が少ない、、、国内ニュースが大半、大ニュースのみ
※だめじゃん
・意味が同じでも、表現方法が複数ある、訳語を一つに特定することが難しい
・課題、インタフェースの改良、多義語の翻訳方法の改良

※いい感じかと思ったら、結果が出てないねぇ。なんだろなー、ニュースサイト固有表現的な辞書が必要なのかなぁ、なんか、見出しだけで結構マッチすると思うんだけど、、、
※海外欄のみにするとか、ああ、それじゃぁ自国のニュースが取り出せないか

1S-7 曖昧な情報要求に対する分類と推薦を用いた検索支援
○和田洋祐(芝浦工大)

・情報検索の有用性
・検索と探索、提案
・しかし、どんな情報が欲しいのかを明確に伝えられないと期待した情報を得られない
・情報要求が持つ曖昧さ、目的の曖昧さ+クエリの曖昧さ、ユーザがその分野に詳しくない、要求が詳細化されていない、インターネットで使われている意味との差
・曖昧さの解決が必要
・進化的探索による対処、ユーザの要求の明確化(探索範囲の変化)、対象分野の知識の増加(キーワードの詳細化)
・検索課程・検索結果の可視化、次に何を検索するかの推薦
・関連研究、キーワードマップ、クラスタリング、どちらも1回の検索行動に対して昨日、連続した検索の中では対応していない
・関連研究、条件設定、キーワード推薦
・提案手法、キーワードマップでユーザの検索課程を可視化、キーワードマップを基準にユーザへの検索戦略を推薦
・キーワードマップの合成では、忘却率を用いる
・広げる、共起する語の類似性から候補を作成
・期待される効果、検索の効率化、検索の質の変化
・今後の課題
・システム、インタフェース設計、検討した機能の妥当性
・実験のデザイン

※っていうか、実験まで到達していないのか、、、
※結構、インタフェースが難しいんじゃないかなぁ、より複雑化してしまうやも
※面白い研究だとは思うけどなぁ、キーワードマップ

1S-8 ユーザの検索意図を考慮したクラスタリング検索システム
○小部山知伸,東 基衞(早大)

・ユーザ個々の検索意図を汲む、及びWebコンテンツの自動分類を行う検索システムが求められている
・対象、報告書・論文作成、調べ物をしているとき、情報の比較キーワードに関する深い情報を求める
・キーワード形vsクラスタリング形
・ユーザの検索意図に適したコンテンツを複数獲得する
・Clusty、検索結果を自動分類する既存システム
・クラスタリングにフィードバックを利用した研究
・問題点、文章の特徴表現に乏しい、フィードバック情報の不足
・頻出語の影響を抑える、適合不適合コンテンツの関連コンテンツを利用、不要クエリをフィードバックに利用
・特徴語抽出、コンテンツベクトル算出式、全文・タイトル・サマリから考慮
・適合・不適合コンテンツからユーザの検索意図を把握し、提案クエリ、不要クエリを提示
・算出式、同一ドメイン・リンク先コンテンツを考慮
・クエリ候補補正、2回目以降の推薦において、ユーザの興味変化から既に推薦されたクエリは有用性が低いと考える
・コンテンツベクトル補正式
・類似度計算によるクラスタ形成
・実験、従来よりクエリ適合数約20%あっぷ、コンテンツ適合率も提案手法が最も高い
・課題、クエリ推薦手法の改良、提案クエリ・不要クエリのフィードバック手法の改良

※イメージできないなぁ、実装が