[A5-1] QAシステムにおける質問数の推定と質問タイプの同定 (pp.1001-1004) ○望月裕介, 八木淳紀, 韓東力 (日大)
・SVM
・課題
・様々な入力文への対応
・質問タイプ同定の実用化
[A5-2] 照応解析を含む質問応答用テストコレクションの構築と評価 (pp.1005-1008) ○白地隆弘, 森辰則 (横浜国大)
・質問応答システム
・質問文、補完文生成、質問応答システムによる回答の取得
・照応解析を含む質問応答システム無いの各モジュールを詳細に評価し、失敗解析を容易にする
・照応解析に関する新たな問題点を発見したい
[A5-3] Web文書を情報源とする記述的な回答が可能な質問応答システム (pp.1009-1012) ○佐藤充, 石下円香, 森辰則 (横浜国大)
・factoid型質問応答、人名・地名・数量などを問う
・non-factoud型、定義/理由/方法などを問う、回答が長くなる
・解の適切性、尺度1内容の関連性、尺度2記述スタイルが適切か
・質問の方分類を行わない、Yahoo!知恵袋をQ&Aコーパスに、質問が入力された時点で、記述スタイルが類似する質問をコーパスから収集、
・疑問詞を中心とする語の7-gramの一致度の度合いを類似度とする、記述スタイルのみに注目するため、無関係な語を品詞に変換
・χ二乗値が高い2-gramを特徴表現として取り出す
・質問文中のキーワードを3つずつ組み合わせて、結果の要約のスニペット内の頻度の高いキーワード
・質問文中のキーワード、質問内容の関連語、回答の特徴表現
・ベースライン、型分類を行わないキーワードと関連語、型分類を行うタイプ
・定義型質問よりもそれ以外の質問において、より有効
・失敗要因、キーワード抽出、文書検索、解抽出、
・課題、解候補のスコアリング方法の改良、入力された質問文とコーパス中の質問文の類似度計算法の見直し、回答の信頼度の考慮
[A5-4] factoid型質問応答における異なるWeb検索エンジンの組合せの効果 (pp.1013-1016) ○金井明, 佐藤充, 石下円香, 森辰則 (横浜国大)
・複数の異なるWeb検索エンジンがWebQAに使用できる
・QAにおける、複数の異なるWebSEを組み合わせることによる効果を研究
・質問文解析、検索エンジン回答、パッセージ抽出、文照合、解生成、擬似投票
・解候補に対する原スコア
・スコア計算におけるA*探索に基づく探索制御
・探索制御の枠組みにおける擬似投票手法
・ことなるWeb 検索エンジンの出力結果を組み合わせることにより、情報源の多様性を増すことが出来る、結果として求解精度向上
・GooとGoogleの組み合わせは微妙、gooはgoogleの検索エンジンを使用しているので、結果として多様性が得られていない、また、不正解の解候補が両方に出るため不正解が上位に気安くなる
・評価実験から、検索結果が出てから解候補を組み合わせる方が効果的、組み合わせるエンジンの数を増やした方が効果的
・検索エンジン毎によってカテゴリなどの得意不得意の傾向がありますか? カテゴリなどでは見えないけど、アルタビスタ単体ではダメだけど、他と組み合わせると結果がかなり向上する
・250件も取ってこないと結果が出ないの? 件数を増やしすぎるとMRRが下がる。でも、結果としてもう少し少ない方の数字のMRRを調べてもらいたい
・AltaVistaはYahooに買収されているので、GooとGoogleの組み合わせと同じような結果が出るはずなんだけど?
[A5-5] 質問応答システムMetisの回答精度向上-検索フェーズの改良を中心として- (pp.1017-1020) ○久保田裕章, 平塚飛将, 吉川ひかる, 松田源立, 原田実 (青学大)
・Metis
・質問文解析、キーワード抽出・同意語展開、知識文検索、意味解析Sage、グラフ照合、知識分の順位付け、回答抽出、回答表示
・質問内容に沿った意味制約を与えることで、正確な照合
・疑問詞のない質問文への対応、疑問ノードの主辞の概念IDと質問タイプの意味制約の類似度が最も高いノード
・YES/NO文への対応
・キーワード抽出法の改善、WebとローカルDBでキーワード抽出方法を分ける
・ローカルDBにおける、インデキシング。語と深層格(語の役割)をペアにしたIndexを作成
・正統を含まない知識文検索の排除、深層格を含めたキーワード検索
・色々細かい改良をして、回答抽出精度の改善がなされた
[A5-6] Web検索エンジンを用いたWhy型質問応答システム (pp.1021-1024) ○田村元秀, 村上仁一, 徳久雅人, 池原悟 (鳥取大)
・Web上の文書は増加してるけど、新聞記事に比べ、各文書の信頼性が低い
・「なぜ」「どうして」を問うWhy型質問応答システムを試作と評価
・質問文、質問文解析、情報検索、会頭候補抽出、会頭候補ランキング、回答文
・質問文解析、質問文の言い換え、質問文は疑問語の位置をもとに3つに分類、、、
・情報検索、検索エンジンGoogleにキーを加えスニペットを抽出
・回答候補抽出、スニペットと会頭候補抽出PTとのマッチング、通常、複数の回答候補を得る
・回答候補ランキング、概要分の名支出限頻度から名詞頻度テーブルを作成して、スコアリングに使用
・回答候補間違いが56%、無いのが20%超
・評価無しは、検索結果が存在しないか、回答候補が存在しない
・評価D、回答候補ランキングの失敗
・改善手法、検索キーワードのスリム化(従属節の名詞&主節とする)、名詞頻度テーブルの最適化(扱う質問の種類に合わせて最適化することが必要、定頻度削除、スコア加算、スコア減算、名詞限定)
・改善結果、Aは10%から20%、でもDは56%から48%、無しは22%から18%、やはり簡単にはいかないねぇ。まあ、悪化してるわけじゃないから価値はある
・別解を正解としていなかった点、別解を考慮することで累積検索率は64%
・今思ったんだけど、スニペットってそこまで信頼しちゃっていいのかなぁ、、、あ、近い質問が、、、
・本文を取ってくると時間が掛かる、、、えーーーーー
・本文はノイズが多い、、、うーーーーーん
[A5-7] パターンマイニングを用いて「なぜ」に答えるシステム (pp.1025-1028) ○磯崎秀樹, 東中竜一郎 (NTT)
・なぜ「なぜ」か、計算機の文章読解能力・推論能力の向上に貢献したい、原因表現が重要・多様かつ微妙
・IJCNLP-2008での手法、原因表現のパターンを人手で作らずコーパスからマイニング(EDRコーパスのcauseタグ)、質問回答セットから機械学習した関数で候補を採点
・段落の方が成績がいいのは、段落は長いので正解をどこかに含む可能性が高い、段落は少ないのででたらめに選んでも当たりやすい。でも、ユーザーとしては、長い文章を読むのが大変、長くてまとはずれな回答は印象が悪い(笑)
・パターンマイニングにBACTを利用、単なる頻度ではなく分類の観点から有効なパターンが得られると思われた、ただBACTの出力する各種スコアは使わない
・回答候補の採点を質問回答セットから機械学習した採点関数で行う
[A5-8] WWW検索エンジンを用いた質問文内の用語特定手法 (pp.1029-1032) ○北條奈緒美, 獅々堀正幹, 北研二 (徳島大)
・質問文内の語句が形態素辞書に未登録の場合、形態素解析により過分割されてしまう
・学習フェーズ、用語候補語の生成、特徴量の抽出
・用語特定フェーズ、用語候補語の生成、特徴量の抽出
・文章を形態素解析し、N-gram形態素列を生成、それらを用語候補語とする
・生成された用語候補語に対して、特徴量を抽出する
・継続度、前後の形態素がどの程度継続しているかを示す度数
・品詞、文字種、用語候補語の長さ
・6つの特徴量ベクトル
・漢字の連続からなる語句で過剰連結が見られる、漢字の連続でない語句は一つの単語として用いられることがおおい、一方漢字の連続からなる語句は形態素の間に付属語を含めて用いられる。区切りを明確にする必要性
・区切りに対して、前向き継続度、後ろ向き継続度を求める
・課題、よる有効な特徴量の導入、漢字の連続の語句に対する用語特定精度の向上