言語処理学会第14回年次大会【A4:Web応用】

[A4-4] 自動生成された検索ディレクトリ「鳥式」の現状 (pp.729-732) ○鳥澤健太郎, 隅田飛鳥, 野口大輔, 風間淳一 (JAIST)
・入力されたトピックに関連深い語を提示
・ディレクトリはWeb上の情報から自動生成、トピックは128万語(Wikipediaから機械的なものが多い
・きた、アオブダイ
・2階層構造、シソーラスレベルと様相レベル
・様相特定レベル、『もの・こと』の『利用・対処』の行為、そのことの準備の行為がある。それらにトラブル、具体的方法、ツール/材料、が関わる
・トレストイン田町が題材

[A4-5] ブログ記事の商品カテゴリへの自動マッピング (pp.733-736) ○河野洋志, 柴田知秀, 黒橋禎夫 (京大)
・JICFSカテゴリ、商品を一元的に管理するデータベースシステム
・Webテキストからの語の抽出
・名詞、未定義語、複合名詞を抽出、また高頻度語を削除
・JUMANの代表表記でゆれを解消
・商品カテゴリの自動マッピング
・0カテゴリ、商品への関連性が低い記事
・不適当なカテゴリ特徴語、形態素解析の誤り、カタカナ語の問題、多義語の問題
・関連研究、CGMから話題を抽出し、関連する広告を配信するシステム[増沢ら 2007]

[A4-6] Webページの情報発信者の同定とその関係の抽出 (pp.737-740) ○加藤義清, 乾健太郎 (NICT), 黒橋禎夫 (NICT/京大)
・特定の立場による言説が支配的になり、他の少数意見を圧倒する現象も見られる
・情報の信頼性の判断が重要
・Web情報分析システムWISDOM、発信者×意見の分析
・Webページの情報発信者分析、情報の信頼性の判断、情報発信者分析は「誰が」を分析
・情報発信構成、サイト運営者・情報発信者、情報発信タイプ、情報発信者クラス
・情報発信タイプ、単一発信者、所属発信者、掲載、引用、サービス、複合
・情報発信者項、組織項、個人項(発信者クラス、名前、職業・肩書き、所属組織項)
・最初にサイト運営者を見つけて、それを格に他の発信者を見つける
・情報発信者名はページの先頭あるいは末尾に
・HTMLをDOM化、DOMツリーでメインじゃない部分を取り出す
・発信者名候補の中からサイト運営者を選択
・ランキングモデルを機械学習により構築
・Ranking SVM
・TFよりは上回る
・ブログなどサイト運営者の名前がハンドル名の場合に、誤っていることが多い
・ブログを抜くと精度が上がっている、ブログは精度が低い、、、
・課題、ブログや掲示板からの抽出

[A4-7] 人名の曖昧性解消評価型プロジェクト WePS (pp.741-744) ○関根聡 (NYU), Javier Artiles, Julio Gonzalo (UNED)
・Web PeopleSearch
・検索エンジンのクエリの30%は人名
・90000の名前を100ミリオンの人たちがシェア
・Zoominfo
・Spock
・System、HTML to TEXT、Pre-process、NE、Features、Span、Similarity、Clustering、Threshold、Duplication、Notes
・Future
・WWW,IR,ML,DM communities includeしたい
・Survey on Attributes 16こ
・http://nlp.uned.es/weps

[A4-8] Nグラム検索エンジン -Google日本語7グラムを使って- (pp.745-748) ○関根聡 (NYU)
・コーパスベース知識工学(昨年のNLPのワークショップ)
・近傍コンテキストを使った知識獲得(LSP、クラスタリング、ブートストラッピング)
・上位下位関係抽出、固有表現間関係抽出、固有表現辞書、同義語抽出、位置的情報抽出、主観表現抽出、イベント抽出
・コーパスサイズ(大規模なコーパスほど望ましい、ただパターンマッチングに長い時間が掛かる)
・速度向上、Googleを使えばいい(使用回数制限)、検索エンジンを作る(大規模開発が必要)
・Nグラムに対する検索(N=5-9)、任意のワイルドカードを含むNグラムの検索、頻度とワイルドカードの中身を返す、実質1秒以内で結果を生成、1台のPC-Linux,Mem4G,HDD500G
・XのYはとてもZ、色々出てくる
・XのYはとってもZ、とかにすることももちろんできす
・実装、逆インデックスとトライ構造、逆インデックスは高頻度単語に対して非常に遅い
・トライ構造、木構造(順序に依存)、ワイルドカードを扱いにくい
・すべての可能なワイルドカード位置の組み合わせ、5gram=>32,7gram=>128(Index=17TB)
・工夫
・1.サフィックスを縮退、開始位置を任意にする(7gram=>35,4.7TB)
・2.更新が不必要なため、子ノードは配列に格納(2.9TB)
・3.単一末尾の削除、NgramIDへのみ格納(0.5TB)
・トライの分割(メモリ対応)
・Mmapで必要なときにデータをロードさせる
・Google日本語Nグラム第1版の7グラム、200億文から抽出、頻度20以上、5.7億異なり
・トライインデックス、各トライに9億ノード、490GB
・関連研究、バイオ遺伝子配列検索、IR(Approximation Match)、Lucene、なんてのもある
・改良点・問題点
・任意数のワイルドカード、柔軟な検索要求、形態素解析の問題(日本語特有)、小頻度パターンの問題、幅広いコンテキストを見たい。インデックスの作成(4-8GBマシンで4-5month、64GBマシンで1week以内)
・公開(著作権、費用、方法?)