2010年12月 8日

Kyoto-Crawler/2.0

[ReTweet This!] カテゴリ:自然言語処理

 ふと、アクセスログを見てたら見慣れないUser Agentをみつけましたよ。

Kyoto-Crawler/2.0 (Mozilla-compatible; ; http://nlp.kuee.kyoto-u.ac.jp/)

京都クローラー? なんだろと思いましたが、ちゃんとURLが記載されていたのでアクセスしてみました。

http://nlp.kuee.kyoto-u.ac.jp/
から
http://nlp.ist.i.kyoto-u.ac.jp/
に飛んでますな。ああ、黒橋先生の研究室のクローラーか。3年くらい前に、京大の学術情報メディアセンターの自然言語処理科目とかを受講してて、黒橋先生のお話を伺ってました。面白かったなぁ、あの講習。

 結局、Kyoto-Crawler/2.0が何をやっているクローラーか分からないけど、まー、この研究室のクローラーなら問題は全く無いでしょ。って、問題あるクローラーだったとしても何もしようがないんだけど、、、。それにしても何を集めてるのかな? こっちのログを解析して、推定したくなってきたぞ。

投稿者 ymkx : 2010年12月 8日 11:52 |

2008年3月20日

言語処理学会第14回年次大会【A5:質問応答】

[ReTweet This!] カテゴリ:自然言語処理

[A5-1] QAシステムにおける質問数の推定と質問タイプの同定 (pp.1001-1004) ○望月裕介, 八木淳紀, 韓東力 (日大)
・SVM
・課題
・様々な入力文への対応
・質問タイプ同定の実用化

[A5-2] 照応解析を含む質問応答用テストコレクションの構築と評価 (pp.1005-1008) ○白地隆弘, 森辰則 (横浜国大)
・質問応答システム
・質問文、補完文生成、質問応答システムによる回答の取得
・照応解析を含む質問応答システム無いの各モジュールを詳細に評価し、失敗解析を容易にする
・照応解析に関する新たな問題点を発見したい

[A5-3] Web文書を情報源とする記述的な回答が可能な質問応答システム (pp.1009-1012) ○佐藤充, 石下円香, 森辰則 (横浜国大)
・factoid型質問応答、人名・地名・数量などを問う
・non-factoud型、定義/理由/方法などを問う、回答が長くなる
・解の適切性、尺度1内容の関連性、尺度2記述スタイルが適切か
・質問の方分類を行わない、Yahoo!知恵袋をQ&Aコーパスに、質問が入力された時点で、記述スタイルが類似する質問をコーパスから収集、
・疑問詞を中心とする語の7-gramの一致度の度合いを類似度とする、記述スタイルのみに注目するため、無関係な語を品詞に変換
・χ二乗値が高い2-gramを特徴表現として取り出す
・質問文中のキーワードを3つずつ組み合わせて、結果の要約のスニペット内の頻度の高いキーワード
・質問文中のキーワード、質問内容の関連語、回答の特徴表現
・ベースライン、型分類を行わないキーワードと関連語、型分類を行うタイプ
・定義型質問よりもそれ以外の質問において、より有効
・失敗要因、キーワード抽出、文書検索、解抽出、
・課題、解候補のスコアリング方法の改良、入力された質問文とコーパス中の質問文の類似度計算法の見直し、回答の信頼度の考慮

[A5-4] factoid型質問応答における異なるWeb検索エンジンの組合せの効果 (pp.1013-1016) ○金井明, 佐藤充, 石下円香, 森辰則 (横浜国大)
・複数の異なるWeb検索エンジンがWebQAに使用できる
・QAにおける、複数の異なるWebSEを組み合わせることによる効果を研究
・質問文解析、検索エンジン回答、パッセージ抽出、文照合、解生成、擬似投票
・解候補に対する原スコア
・スコア計算におけるA*探索に基づく探索制御
・探索制御の枠組みにおける擬似投票手法
・ことなるWeb 検索エンジンの出力結果を組み合わせることにより、情報源の多様性を増すことが出来る、結果として求解精度向上
・GooとGoogleの組み合わせは微妙、gooはgoogleの検索エンジンを使用しているので、結果として多様性が得られていない、また、不正解の解候補が両方に出るため不正解が上位に気安くなる
・評価実験から、検索結果が出てから解候補を組み合わせる方が効果的、組み合わせるエンジンの数を増やした方が効果的

・検索エンジン毎によってカテゴリなどの得意不得意の傾向がありますか? カテゴリなどでは見えないけど、アルタビスタ単体ではダメだけど、他と組み合わせると結果がかなり向上する
・250件も取ってこないと結果が出ないの? 件数を増やしすぎるとMRRが下がる。でも、結果としてもう少し少ない方の数字のMRRを調べてもらいたい
・AltaVistaはYahooに買収されているので、GooとGoogleの組み合わせと同じような結果が出るはずなんだけど?

[A5-5] 質問応答システムMetisの回答精度向上-検索フェーズの改良を中心として- (pp.1017-1020) ○久保田裕章, 平塚飛将, 吉川ひかる, 松田源立, 原田実 (青学大)
・Metis
・質問文解析、キーワード抽出・同意語展開、知識文検索、意味解析Sage、グラフ照合、知識分の順位付け、回答抽出、回答表示
・質問内容に沿った意味制約を与えることで、正確な照合
・疑問詞のない質問文への対応、疑問ノードの主辞の概念IDと質問タイプの意味制約の類似度が最も高いノード
・YES/NO文への対応
・キーワード抽出法の改善、WebとローカルDBでキーワード抽出方法を分ける
・ローカルDBにおける、インデキシング。語と深層格(語の役割)をペアにしたIndexを作成
・正統を含まない知識文検索の排除、深層格を含めたキーワード検索
・色々細かい改良をして、回答抽出精度の改善がなされた

[A5-6] Web検索エンジンを用いたWhy型質問応答システム (pp.1021-1024) ○田村元秀, 村上仁一, 徳久雅人, 池原悟 (鳥取大)
・Web上の文書は増加してるけど、新聞記事に比べ、各文書の信頼性が低い
・「なぜ」「どうして」を問うWhy型質問応答システムを試作と評価
・質問文、質問文解析、情報検索、会頭候補抽出、会頭候補ランキング、回答文
・質問文解析、質問文の言い換え、質問文は疑問語の位置をもとに3つに分類、、、
・情報検索、検索エンジンGoogleにキーを加えスニペットを抽出
・回答候補抽出、スニペットと会頭候補抽出PTとのマッチング、通常、複数の回答候補を得る
・回答候補ランキング、概要分の名支出限頻度から名詞頻度テーブルを作成して、スコアリングに使用
・回答候補間違いが56%、無いのが20%超
・評価無しは、検索結果が存在しないか、回答候補が存在しない
・評価D、回答候補ランキングの失敗
・改善手法、検索キーワードのスリム化(従属節の名詞&主節とする)、名詞頻度テーブルの最適化(扱う質問の種類に合わせて最適化することが必要、定頻度削除、スコア加算、スコア減算、名詞限定)
・改善結果、Aは10%から20%、でもDは56%から48%、無しは22%から18%、やはり簡単にはいかないねぇ。まあ、悪化してるわけじゃないから価値はある
・別解を正解としていなかった点、別解を考慮することで累積検索率は64%

・今思ったんだけど、スニペットってそこまで信頼しちゃっていいのかなぁ、、、あ、近い質問が、、、
・本文を取ってくると時間が掛かる、、、えーーーーー
・本文はノイズが多い、、、うーーーーーん

[A5-7] パターンマイニングを用いて「なぜ」に答えるシステム (pp.1025-1028) ○磯崎秀樹, 東中竜一郎 (NTT)
・なぜ「なぜ」か、計算機の文章読解能力・推論能力の向上に貢献したい、原因表現が重要・多様かつ微妙
・IJCNLP-2008での手法、原因表現のパターンを人手で作らずコーパスからマイニング(EDRコーパスのcauseタグ)、質問回答セットから機械学習した関数で候補を採点
・段落の方が成績がいいのは、段落は長いので正解をどこかに含む可能性が高い、段落は少ないのででたらめに選んでも当たりやすい。でも、ユーザーとしては、長い文章を読むのが大変、長くてまとはずれな回答は印象が悪い(笑)
・パターンマイニングにBACTを利用、単なる頻度ではなく分類の観点から有効なパターンが得られると思われた、ただBACTの出力する各種スコアは使わない
・回答候補の採点を質問回答セットから機械学習した採点関数で行う

[A5-8] WWW検索エンジンを用いた質問文内の用語特定手法 (pp.1029-1032) ○北條奈緒美, 獅々堀正幹, 北研二 (徳島大)
・質問文内の語句が形態素辞書に未登録の場合、形態素解析により過分割されてしまう
・学習フェーズ、用語候補語の生成、特徴量の抽出
・用語特定フェーズ、用語候補語の生成、特徴量の抽出
・文章を形態素解析し、N-gram形態素列を生成、それらを用語候補語とする
・生成された用語候補語に対して、特徴量を抽出する
・継続度、前後の形態素がどの程度継続しているかを示す度数
・品詞、文字種、用語候補語の長さ
・6つの特徴量ベクトル
・漢字の連続からなる語句で過剰連結が見られる、漢字の連続でない語句は一つの単語として用いられることがおおい、一方漢字の連続からなる語句は形態素の間に付属語を含めて用いられる。区切りを明確にする必要性
・区切りに対して、前向き継続度、後ろ向き継続度を求める
・課題、よる有効な特徴量の導入、漢字の連続の語句に対する用語特定精度の向上


投稿者 ymkx : 2008年3月20日 16:34 |

言語処理学会第14回年次大会【A4:Web応用】

[ReTweet This!] カテゴリ:自然言語処理

[A4-4] 自動生成された検索ディレクトリ「鳥式」の現状 (pp.729-732) ○鳥澤健太郎, 隅田飛鳥, 野口大輔, 風間淳一 (JAIST)
・入力されたトピックに関連深い語を提示
・ディレクトリはWeb上の情報から自動生成、トピックは128万語(Wikipediaから機械的なものが多い
・きた、アオブダイ
・2階層構造、シソーラスレベルと様相レベル
・様相特定レベル、『もの・こと』の『利用・対処』の行為、そのことの準備の行為がある。それらにトラブル、具体的方法、ツール/材料、が関わる
・トレストイン田町が題材

[A4-5] ブログ記事の商品カテゴリへの自動マッピング (pp.733-736) ○河野洋志, 柴田知秀, 黒橋禎夫 (京大)
・JICFSカテゴリ、商品を一元的に管理するデータベースシステム
・Webテキストからの語の抽出
・名詞、未定義語、複合名詞を抽出、また高頻度語を削除
・JUMANの代表表記でゆれを解消
・商品カテゴリの自動マッピング
・0カテゴリ、商品への関連性が低い記事
・不適当なカテゴリ特徴語、形態素解析の誤り、カタカナ語の問題、多義語の問題
・関連研究、CGMから話題を抽出し、関連する広告を配信するシステム[増沢ら 2007]

[A4-6] Webページの情報発信者の同定とその関係の抽出 (pp.737-740) ○加藤義清, 乾健太郎 (NICT), 黒橋禎夫 (NICT/京大)
・特定の立場による言説が支配的になり、他の少数意見を圧倒する現象も見られる
・情報の信頼性の判断が重要
・Web情報分析システムWISDOM、発信者×意見の分析
・Webページの情報発信者分析、情報の信頼性の判断、情報発信者分析は「誰が」を分析
・情報発信構成、サイト運営者・情報発信者、情報発信タイプ、情報発信者クラス
・情報発信タイプ、単一発信者、所属発信者、掲載、引用、サービス、複合
・情報発信者項、組織項、個人項(発信者クラス、名前、職業・肩書き、所属組織項)
・最初にサイト運営者を見つけて、それを格に他の発信者を見つける
・情報発信者名はページの先頭あるいは末尾に
・HTMLをDOM化、DOMツリーでメインじゃない部分を取り出す
・発信者名候補の中からサイト運営者を選択
・ランキングモデルを機械学習により構築
・Ranking SVM
・TFよりは上回る
・ブログなどサイト運営者の名前がハンドル名の場合に、誤っていることが多い
・ブログを抜くと精度が上がっている、ブログは精度が低い、、、
・課題、ブログや掲示板からの抽出

[A4-7] 人名の曖昧性解消評価型プロジェクト WePS (pp.741-744) ○関根聡 (NYU), Javier Artiles, Julio Gonzalo (UNED)
・Web PeopleSearch
・検索エンジンのクエリの30%は人名
・90000の名前を100ミリオンの人たちがシェア
・Zoominfo
・Spock
・System、HTML to TEXT、Pre-process、NE、Features、Span、Similarity、Clustering、Threshold、Duplication、Notes
・Future
・WWW,IR,ML,DM communities includeしたい
・Survey on Attributes 16こ
・http://nlp.uned.es/weps

[A4-8] Nグラム検索エンジン -Google日本語7グラムを使って- (pp.745-748) ○関根聡 (NYU)
・コーパスベース知識工学(昨年のNLPのワークショップ)
・近傍コンテキストを使った知識獲得(LSP、クラスタリング、ブートストラッピング)
・上位下位関係抽出、固有表現間関係抽出、固有表現辞書、同義語抽出、位置的情報抽出、主観表現抽出、イベント抽出
・コーパスサイズ(大規模なコーパスほど望ましい、ただパターンマッチングに長い時間が掛かる)
・速度向上、Googleを使えばいい(使用回数制限)、検索エンジンを作る(大規模開発が必要)
・Nグラムに対する検索(N=5-9)、任意のワイルドカードを含むNグラムの検索、頻度とワイルドカードの中身を返す、実質1秒以内で結果を生成、1台のPC-Linux,Mem4G,HDD500G
・XのYはとてもZ、色々出てくる
・XのYはとってもZ、とかにすることももちろんできす
・実装、逆インデックスとトライ構造、逆インデックスは高頻度単語に対して非常に遅い
・トライ構造、木構造(順序に依存)、ワイルドカードを扱いにくい
・すべての可能なワイルドカード位置の組み合わせ、5gram=>32,7gram=>128(Index=17TB)
・工夫
・1.サフィックスを縮退、開始位置を任意にする(7gram=>35,4.7TB)
・2.更新が不必要なため、子ノードは配列に格納(2.9TB)
・3.単一末尾の削除、NgramIDへのみ格納(0.5TB)
・トライの分割(メモリ対応)
・Mmapで必要なときにデータをロードさせる
・Google日本語Nグラム第1版の7グラム、200億文から抽出、頻度20以上、5.7億異なり
・トライインデックス、各トライに9億ノード、490GB
・関連研究、バイオ遺伝子配列検索、IR(Approximation Match)、Lucene、なんてのもある
・改良点・問題点
・任意数のワイルドカード、柔軟な検索要求、形態素解析の問題(日本語特有)、小頻度パターンの問題、幅広いコンテキストを見たい。インデックスの作成(4-8GBマシンで4-5month、64GBマシンで1week以内)
・公開(著作権、費用、方法?)

投稿者 ymkx : 2008年3月20日 11:49 |

2008年3月18日

言語処理学会第14回年次大会【C2:評判】

[ReTweet This!] カテゴリ:自然言語処理

[C2-1] 形容詞・形容動詞を用いたウェブ上の商品評価レビュー記事の意図・評価の推定 (pp.341-343) 岡田真, ○島本龍一 (大府大)
・Web上の商品や人物の評判を自動的に分析したい
・周辺情報を使用し従来からの問題点を解決
・共起名詞を使った評価の推定
・共起名詞を全て登録する代わりに名詞を属性で分類したカテゴリを登録
・日本語語彙大系
・評価用辞書の作成、形容詞の用法毎に使われやすい共起名詞と評価値を記述
・登録の例外として、慣用表現で使われるときの評価、過去形のときの評価
・形容詞の評価値を否定の-3~肯定の3までの7段階で表現
・話題の収拾、形容詞が評価している対象が何か? 話題の頻度から注目箇所を知る
・課題、括弧記号の扱い、複合語のルール、筆者の願望や仮定表現の文、「AのBがC」文

[C2-2] Web上の客観的記述からの評価情報抽出に関する技術的検討 (pp.344-347) ○中川哲治, 宮森恒, 赤峯亨, 乾健太郎 (NICT), 黒橋禎夫 (NICT/京大)
・文書中に含まれる情報、事実と意見(評価)
・情報分析エンジンWISDOM、与えられたトピックについて、どのような観点から、誰が、どのような評価をしているか
・客観的記述に含まれる評価情報、商品の広告・報告書、主観的な表現は含まれていない、、肯定的・否定的な評価を暗に含む
・従来は主観的表現が対象、これでは客観的表現も対象に含める
・今後の課題、客観的な記述に含まれる評価を考慮した、評価情報辞書の拡充、評価表現が文脈の情報を受ける場合への対処法の検討、評価保持者評価対象などの同定と改良

[C2-3] 複数注釈者による評判情報コーパスの作成と評判情報の自動抽出 (pp.348-351) ○宮崎林太郎, 前田直人, 森辰則 (横浜国大)
・評判情報コーパスの作成、評判情報構成要素の抽出
・Amazonから収拾したレビュー文書1726文書、10000文をコーパスに
・抽出の結果、全般的に大きく有効な素性を発見することは出来なかった
・コーパス規模の調査、ジャンルを横断したデータによる抽出実験、学習に用いる素性を検討

[C2-4] オンラインディスカッションにおける有益発言の抽出 (pp.352-355) ○村上明子 (東大), 那須川哲哉 (日本IBM), 中川裕志 (東大)
・アイデア創出のためのオンラインディスカッションが対象
・2-3日の限定した開催期間、ファシリテーターや専門家による補足
・話しの発散や関連のない発言が少ない、発言の関連性の局所性(大量の参加者や発言数であるため、術での議論を把握することは困難。途中参加者に事前知識を要求することが出来ない→説明を丁寧に)
・発言に返信することが出来るので、木構造となる
・分析、発言の集合を分析、マクロ的分析とミクロ的分析、今回はミクロ的分析について
・情報の有益度、他文書・参加者からの評価、新規情報の存在の有無、本研究では「再利用できる有益な発言を得ること」
・有益度を決める発言中の表現、他文書・参加者からの評価。それを意見表現とする
・意見表現の役割分類
・意見表現の影響の及ぼす範囲、意見表現は発言された議論の流れを評価している、同じ議論の流れにある発言に対してのみ影響(評価)を与える
・否定による意見の反転、否定している意見に同意しているもの、同意しているものに否定しているもの
・有益度の計算手法
・有益どの視覚化
・GoodIdeaフラグと意見表現との相関
・意見表現抽出の改善点、逆接の接続詞による文脈の変化、照応関係の失敗
・今後の課題、文脈・照応解析を加味した意見表現の抽出、意見表現の自動獲得、有益度指標の有効性の検証

[C2-5] 要望の対象の同定 (pp.356-359) ○金山博, 那須川哲哉 (日本IBM)
・「求められているもの」が何かを知る、要望分析のタスクの設定、再現率の向上のための工夫
・対象とする文章は、blog・webのフォーラムなど、一般のCGM
・意見の中には「好評・不評」の他に「要望」が含まれている
・求められている事物を列挙するだけで、要望分析の実用的なアプリとなる
・様々なタイプの要望表現のウチ、(用言ではなく)体現で表される「要望対象」に焦点を当てる
・扱うテキストは一般のCGM
・求められているものの本質は、一単語では表現できないので、修飾語を含めた名詞句を持って「要望対象」とする
・「要望表現パターン」と「補助パターン」を使って、木構造の頂点から要望対象を探索、補助パターンは要望表現パターンを適用できる場所を増やす
・「多くの人が求めているものがある」という課程を起き、要望表現のパターンを学習
・予備実験で得られた横暴対象から部分木を抽出し、「頻出要望インスタンス」とする、その信頼度すなわち「要望対象らしさ」をコーパス全体との頻度の比として計算
・頻出要望インスタンスと頻繁に共起する文末の表現を要望表現パターンの候補として、その信頼度を計算
・課題、他の文体・分野での振る舞いを調べる、再帰的にパターンの構築を行う、好評・不評の表現との関連についてより深く考察する

[C2-6] ブログを対象とした統計的意見情報検索 (pp.360-363) ○佐藤翔平, 関和広, 上原邦昭 (神戸大)
・主観的な表現の収集、意見情報を含む記事の検索が必要
・意見情報とは、個人の何らかの対象に対する主観的な表現
・意見情報の検索、単語に注目、主観的表現が文章無いに表れているか? ただ、単語だけを考慮するだけでは不十分で文脈を考慮する必要がある
・Nグラムモデル、非連結、非近傍では厳しい
・トリガーモデル、非近傍の語幹の依存関係を取り扱うモデル
・トリガー対、意見を述べる主体・批評される主体と主観的表現、また、トリガー対を考慮するパターンと考慮しないパターン
・トリガー対の同定、Amazonのユーザレビューをコーパスに、トリガーは14種類の代名詞
・同定したトリガー対を元にモデルを構築、3グラム言語モデルとトリガーモデルの線形補完
・TREC2006ブログトラックで用いられたコレクション(Blogコレクション)
・製品や映画のクエリは向上、政治や組織などは検索精度が向上しない
・課題、初期検索精度の向上、トリガー対、言語モデルの動的拡張、更新

[C2-7] Web世論からの意見抽出と賛否に基づく分類 (pp.364-367) ○井上結衣, 藤井敦 (筑波大)
・主観的な情報はWeb世論=一般大衆の声
・主観情報の集約に関する研究の例、OpinionReader
...エディタ不具合でメモ中止...
・課題、様々なトピックに対する評価実験、意志決定支援における有効性の評価、Webからのトピック自動抽出


[C2-8] 名詞の感情属性の抽出とそれに基づく名詞間類似度の計算 (pp.368-371) ○斉藤崇紘, 光部勇佑, 中谷和波, 韓東力 (日大)
...マシン不具合でメモ出来ず...
・でも、なかなか面白い発表だった、裏が、、、ですが

投稿者 ymkx : 2008年3月18日 18:49 |

言語処理学会

[ReTweet This!] カテゴリ:自然言語処理

 先週の情報処理学会に続き言語処理学会に来ています。情報処理学会は筑波大学が会場で結構たいへんでしたが、言語処理学会は東大駒場キャンパスというこれ以上ないアクセスの良い会場で大助かりです。今日は午前のセッションに参加して、途中歯医者に抜けて会社によって再び会場に戻ってくるなんていうナイスな行動に出ることが出来ました。

 情報処理学会でもそうでしたが、年々Webがらみの発表が増えてきてますよね。でもって、会場も常にいっぱいいっぱいに。それだけ注目されていて、かつ研究分野として認められているということでしょうね。まだ、うちの会社が何かを研究して発表するという段階ではありませんが、どこかのタイミングで大学の研究室と共同研究するということもあながち無いとは言えないです。やー、その為には稼いでおかないとなぁ、、、。

投稿者 ymkx : 2008年3月18日 15:21 |

言語処理学会第14回年次大会【D1:情報検索】

[ReTweet This!] カテゴリ:自然言語処理

[D1-3]検索キーワードとコンテキストとの相関に基づく検索文書のリランキング
長谷川隆明(NTTサイバースペース研究所)
・サーチエンジンの検索精度の向上
・ユーザの検索意図の推定の難しさ、サーチエンジンに入力される検索語は1・2語
・モバイル検索利用の急増、モバイルのコンテンツ充実・端末の高速化
・モバイルについては、PCで利用できるようなPageRankやリンク情報の解析がしづらい、リンク情報に頼らない方法が必要
・従来手法、適合性フィードバック(人手によるもの、検索キーの拡張及び修正)、検索質問拡張(シソーラスやオントロジーの利用、相互情報量の利用、でもCGMへの適用は容易ではない)、ログ情報の利用
・アプローチ、対象範囲を限定した検索キーワードとの相関、固有表現の利用(固有表現抽出精度が実用的に)
・提案手法、検索質問とコンテキストの相関、相互情報量に基づく文書のスコアリング、文書のリランキング
・コンテキストの定義、対象とする固有表現、対象とする範囲
・文書のスコアの計算、(ノイズの)フィルタリング
・文書のリランキング、検索キーワードの出現頻度(スコア1)、検索キーワードと共起する単語との相互情報量(スコア2)、検索キーワードと共起する固有表現の相互情報量に基づくスコア(スコア3)
・実験
・今後の課題、手がかりに出来る情報をさらに抽出すること、固有表現抽出の再現率の向上、手がかりに出来る複合語の選別

[D1-4]Wikipediaエントリに対応するトピックのブログサイト検索
・ブログ空間へ索引付け
・検索対象をブログ記事ではなくブログサイトとする(同一著者によって書かれたブログ記事の集合、特定のトピックに対してまとまった情報量、豊富な口コミ情報
・ブログ空間へのアクセスにWikipediaを使用する、適切な粒度でブログ空間にアクセスできる
・従来型ブログ検索サービスの欠点、被リンク数の多いブログを取り上げてしまう、つまり既に人気度の高いブログのみヒットしてしまう
・関連研究
・TRECの2007年blog Distillationタスク
・Web情報検索のためのBlog情報に基づくトラスト値の
・ブロガーの熟知度に基づいたブログランキング方法の提案
・特定トピックのブログサイト検索、特定トピックについて書かれたブログサイト、トピックの出現回数が多い順に
・評価実験、Yahoo!Web検索APIをつかって日本語・英語のブログホストを対象に、キーワードはWikipediaから様々な分野で選定
・ブログサイトの検索、キーワード出現数
・結果、そのとぴっくについてかなり詳しく書いている著者が上位に上がる、アフィリエイトなどのサイドカラムの情報がノイズに(プロフィール、好きなものリストなど)、ブログサイトの記事数の違い、そのトピックの記述回数は少ないがそのトピックについて書かれたブログサイト、表記のゆれ
・課題、本文抽出、検索質問拡張、表記ゆれの対処
・検索質問拡張、検索質問拡張語の候補、

投稿者 ymkx : 2008年3月18日 12:40 |

2007年9月14日

mecabかChaSenかJumanを使って

[ReTweet This!] カテゴリ:自然言語処理

 忙しいときほど色々なアイデアが頭に浮かぶ。やってみないと先が見えないことは多いわけだし、データ収集の意味もあり、エントリーを形態素解析して単語を抽出し、ナウなキーワードを導き出すプログラムを書こうと決めた。京都遠征の効果ありか?

 とりあえず、削がれないようにここに書いておこう、そうしよう。

 あ、サイトマップ作り直さなきゃ(現実の作業に戻る)。

投稿者 ymkx : 2007年9月14日 16:51 |

2007年9月 4日

暑すぎです京都

[ReTweet This!] カテゴリ:自然言語処理

 自然言語処理関連の講座を受講するべく京都に来ているのですが、なんで京都ってこんなに暑いんだろうねー。ここ数日、東京はかなり涼しかったから体調がおかしいですよ、そりゃもう。

 でも、大学時代4年間、こんな蒸し暑いところにいたんだよねぇ、クーラー無しの家で、、、。あ、4年生はほとんど研究室にこもっていたけど、、、。なんか、鴨川とかも全然涼しげじゃないんだよねぇ、もわぁぁって感じがより立ちこめて来ちゃって、、、。

 今回は宿を三条河原町って言う最強な場所にしてみたんだけど、三条河原町から京大いきずれぇ。初日は、百万遍から歩いたけど、京大広すぎ。帰りは、東大路を下って、三条東山から歩いたけど、それも結構遠いんだよねぇ。

 あ、懇親会が始めるので行ってくるです。名詞じゃない、名刺をがっつり忘れてきてしまったダメダメ社会人ですが、突入です。

投稿者 ymkx : 2007年9月 4日 17:52 |

2007年6月27日

自然言語処理技術

[ReTweet This!] カテゴリ:自然言語処理

 ものすごくタイミングよくめちゃくちゃ為になるものが実施されるので、ソッコー申し込んだ。

自然言語処理技術 @ メディア情報処理専修コース

自然言語処理関連は自社で提供するサービスの関係もあり、避けて通ることができない領域だったりします。自分自身で色々なツールを使ってサービスに組み込んでみたりしていましたが、ちゃーんと理解はしていなかったので、これを機にきっちりと学びたいと思います。そう言えば大学の研究室は人工知能研究室で、若干学んだ気がするのだが、、、。ちなみに、私は言語処理学会の学会員だったりします。

 というわけで、激暑な時期に京都に行きます、、、。そっち方面の方、酒でものままいや。宿は京都市内で選定中。

投稿者 ymkx : 2007年6月27日 16:25 |