言語処理学会第14回年次大会【A4:Web応用】 @ 予定は未定であって決定ではない

2008年3月20日

言語処理学会第14回年次大会【A4:Web応用】

[A4-4] 自動生成された検索ディレクトリ「鳥式」の現状 (pp.729-732) ○鳥澤健太郎, 隅田飛鳥, 野口大輔, 風間淳一 (JAIST)
・入力されたトピックに関連深い語を提示
・ディレクトリはWeb上の情報から自動生成、トピックは128万語（Wikipediaから機械的なものが多い
・きた、アオブダイ
・2階層構造、シソーラスレベルと様相レベル
・様相特定レベル、『もの・こと』の『利用・対処』の行為、そのことの準備の行為がある。それらにトラブル、具体的方法、ツール／材料、が関わる
・トレストイン田町が題材

[A4-5] ブログ記事の商品カテゴリへの自動マッピング (pp.733-736) ○河野洋志, 柴田知秀, 黒橋禎夫 (京大)
・JICFSカテゴリ、商品を一元的に管理するデータベースシステム
・Webテキストからの語の抽出
・名詞、未定義語、複合名詞を抽出、また高頻度語を削除
・JUMANの代表表記でゆれを解消
・商品カテゴリの自動マッピング
・0カテゴリ、商品への関連性が低い記事
・不適当なカテゴリ特徴語、形態素解析の誤り、カタカナ語の問題、多義語の問題
・関連研究、CGMから話題を抽出し、関連する広告を配信するシステム[増沢ら 2007]

[A4-6] Webページの情報発信者の同定とその関係の抽出 (pp.737-740) ○加藤義清, 乾健太郎 (NICT), 黒橋禎夫 (NICT/京大)
・特定の立場による言説が支配的になり、他の少数意見を圧倒する現象も見られる
・情報の信頼性の判断が重要
・Web情報分析システムWISDOM、発信者×意見の分析
・Webページの情報発信者分析、情報の信頼性の判断、情報発信者分析は「誰が」を分析
・情報発信構成、サイト運営者・情報発信者、情報発信タイプ、情報発信者クラス
・情報発信タイプ、単一発信者、所属発信者、掲載、引用、サービス、複合
・情報発信者項、組織項、個人項（発信者クラス、名前、職業・肩書き、所属組織項）
・最初にサイト運営者を見つけて、それを格に他の発信者を見つける
・情報発信者名はページの先頭あるいは末尾に
・HTMLをDOM化、DOMツリーでメインじゃない部分を取り出す
・発信者名候補の中からサイト運営者を選択
・ランキングモデルを機械学習により構築
・Ranking SVM
・TFよりは上回る
・ブログなどサイト運営者の名前がハンドル名の場合に、誤っていることが多い
・ブログを抜くと精度が上がっている、ブログは精度が低い、、、
・課題、ブログや掲示板からの抽出

[A4-7] 人名の曖昧性解消評価型プロジェクト WePS (pp.741-744) ○関根聡 (NYU), Javier Artiles, Julio Gonzalo (UNED)
・Web PeopleSearch
・検索エンジンのクエリの30%は人名
・90000の名前を100ミリオンの人たちがシェア
・Zoominfo
・Spock
・System、HTML to TEXT、Pre-process、NE、Features、Span、Similarity、Clustering、Threshold、Duplication、Notes
・Future
・WWW,IR,ML,DM communities includeしたい
・Survey on Attributes 16こ
・http://nlp.uned.es/weps

[A4-8] Nグラム検索エンジン -Google日本語7グラムを使って- (pp.745-748) ○関根聡 (NYU)
・コーパスベース知識工学（昨年のNLPのワークショップ）
・近傍コンテキストを使った知識獲得（LSP、クラスタリング、ブートストラッピング）
・上位下位関係抽出、固有表現間関係抽出、固有表現辞書、同義語抽出、位置的情報抽出、主観表現抽出、イベント抽出
・コーパスサイズ（大規模なコーパスほど望ましい、ただパターンマッチングに長い時間が掛かる）
・速度向上、Googleを使えばいい（使用回数制限）、検索エンジンを作る（大規模開発が必要）
・Nグラムに対する検索（N=5-9）、任意のワイルドカードを含むNグラムの検索、頻度とワイルドカードの中身を返す、実質1秒以内で結果を生成、1台のPC-Linux,Mem4G,HDD500G
・XのYはとてもZ、色々出てくる
・XのYはとってもZ、とかにすることももちろんできす
・実装、逆インデックスとトライ構造、逆インデックスは高頻度単語に対して非常に遅い
・トライ構造、木構造（順序に依存）、ワイルドカードを扱いにくい
・すべての可能なワイルドカード位置の組み合わせ、5gram=>32,7gram=>128(Index=17TB)
・工夫
・1.サフィックスを縮退、開始位置を任意にする（7gram=>35,4.7TB）
・2.更新が不必要なため、子ノードは配列に格納（2.9TB）
・3.単一末尾の削除、NgramIDへのみ格納（0.5TB）
・トライの分割（メモリ対応）
・Mmapで必要なときにデータをロードさせる
・Google日本語Nグラム第1版の7グラム、200億文から抽出、頻度20以上、5.7億異なり
・トライインデックス、各トライに9億ノード、490GB
・関連研究、バイオ遺伝子配列検索、IR（Approximation Match）、Lucene、なんてのもある
・改良点・問題点
・任意数のワイルドカード、柔軟な検索要求、形態素解析の問題（日本語特有）、小頻度パターンの問題、幅広いコンテキストを見たい。インデックスの作成（4-8GBマシンで4-5month、64GBマシンで1week以内）
・公開（著作権、費用、方法？）

投稿者 ymkx : 2008年3月20日 11:49 |

予定は未定であって決定ではない

2008年3月20日

言語処理学会第14回年次大会【A4:Web応用】

最近のエントリー

カテゴリー

アーカイブ