Webマイニング @ 予定は未定であって決定ではない

2009年3月10日

Webマイニング

情報処理学会第71回全国大会
2009.3.10
立命館大学BKC

[Webマイニング]
座長　鈴木　伸崇（筑波大）

2P-2 Webページからの人物に関する位置情報の抽出
○高守雄也，上田　洋，村上晴美（大阪市大）

・人名検索、位置情報をゲット
・人名検索の増加、同姓同名人物の自動分類
・多くはクラスタリング手法を用いた分離
・人物を表す適切な位置情報を一つ取得
・Webページには住所が含まれていないことがあるので、ランドマークも抽出
・検索エンジンのランキング上位ページから候補
・Yahoo!ローカルサーチAPIを用いた一座標取得、ランドマークは正式名称じゃない場合があるので、検索類推
・住所抽出ヒューリスティック
・ランドマーク抽出ヒューリスティック
・正式名称の推定、ランドマーク名で検索して一番上位のものから不要語を除去
・一字削除、住所が詳しすぎると住所から位置情報が取得できない
・Webページの上位10件がベスト
・住所、頻度（語間距離）、提案手法がベスト
・課題、精度の改善、語間距離アルゴリズムの改善、住所・ランドマーク抽出ヒューリスティックの改善、不要語辞書の利用、ページ数が多い人物への他手法の検討、インタフェース改善

※位置に落とすというのは意味があると思う、が、実は別の問題を引き起こしそうだなぁ

2P-3 テキストアートの言語に依存しない抽出法
○林　和幸，小熊　光，鈴木徹也（芝浦工大）

・テキストアート、アスキーアートのことだね
・テキストの形態素解析や読み上げでは障害となる
・テキストアート抽出法、テキストアート識別法
・AAスキャン、2チャンネルを対象として抽出ソフトウェア、記事全体がテキストアートかどうか識別
・類似研究、谷岡らの研究、日本語に特化した方法
・既存手法の問題点、特定言語依存、抽出範囲が広い
・言語依存しないテキストアートの抽出
・機械学習により識別機を作成、テキストアート部分のみの抽出
・窓幅wの走査、縮小処理
・窓幅wの走査、テキストをw行ずつの範囲で捜査
・テキストアート識別機、Ｈ＝同じ文字が連続して2回現れる回数・行数、Ｂ＝行数、Ｓ＝バイト数
・縮小処理、テキストアート候補範囲には前後に非テキストアートがついている
・英語・日本語で実験
・機械学習アルゴリズムC4.5で決定木を作成
・縮小処理を行わないと窓幅が大きくなると減少

※んー、なんかよくわかんない、
※テキストアートの除去、それは確かに使える

2P-4 主観評価に基づくタグ重み付けによるblog話題遷移点の抽出
○谷内幸憲，徳永幸生，杉山　精（芝浦工大），杉崎正之，望月崇由（NTTレゾナント）

・情報整理の試み
・ＳＢＭ、レコメンド、キーワード検索、単語出現頻度の視覚化
・局所的な情報の自動処理
・ブログにおける話題の移り変わりを抽出・視覚化
・ブログスレッド、トラックバックによる繋がり
※むー、トラックバックか、、、
・トラックバックが続いていく最中に話題が切り替わるタイミングを抽出
・話題遷移点の抽出
・話題遷移点検出モデル
・話題遷移点より上位のエントリの単語をチェック
・話題性の増加を検出
・辞書の追加とノイズフィルタリング
・形態素解析辞書の追加、Wikipediaの見出し語を辞書として追加
・フィルタリング、名詞に限定
・基点エントリー、Matzにっき
・抽出数が少ないという問題点があった
・話題性評価式の改良、文書構造からの情報抽出、ＨＴＭＬを用いた評価式
・単語の含まれるタグの補正値
・話題語のタグの出現率、a、pタグが多いが、それはHTML全般に言われること
・そのあたりを考えるとh、strongタグがおおい
・insタグがノイズの要因になるらしい
・時系列バネモデル法、横が時間軸、縦がバネモデル法、未実装
・話題語の抽出精度が悪い、話題語は抽出できてるけどノイズが多い
・話題遷移点はまずまず
・課題、重複・ノイズの除去、話題遷移点のずれ、死角か部分の詳細検討

※トラックバックってそんなに続くのかなぁ、、、単純に被リンク的な形で繋いだ方が数字がたくさん取れそう
※でも、なかなか面白い話しだと思う

2P-5 ニュース記事の主題に着目したニュース収集・理解支援に関する研究
○上村紘輝，東　基衞（早大）

・一本当たりの記事の情報量が少ない
・ニュース記事の収集・理解支援、関連記事の提示
・現状の関連記事は、様々な内容の記事が混在
・記事には複数の主題候補語がある
・タイトルと第一分に特徴語が出現する割合が多い
・長期的興味（以前から頻繁に）、一時的興味（普段あまり目にすることがない語）、潜在的興味（一時的興味に関係の深い語）
・ユーザプロファイルを生成
・主題候補抽出部、プロファイル生成部
・興味抽出部、それぞれの興味値を算出
・潜在的興味の関連度は低い、それ以外は90%前後
・課題、記事に含まれる複合語の考慮、潜在的興味語の適合率の向上

※んー、これもまたイメージがわかないなぁ
※話し的には有用だと思うんだけど、、、

2P-6 犯罪予告の早期自動発見手法に関する研究
○山本雄平，中村健二，田中成典，寺口敏夫，大谷和史（関西大）

・総務省では犯罪予告検知ソフトの開発費を2009年度予算で要求に盛り込む
・予告.in
※これは人手だよね完全に、これもCGMか
・掲示板を自動検出
・システムにより自動的に犯罪予告を判別
・犯罪予告文書をSVM学習
・犯罪予告学習機能、犯罪予告語辞書（6つの分類）
・犯罪予告特徴抽出機能（15種類の特徴、人名だとか、場所だとか、時間だとか）
・本文特定、リンクリストの除去、HTML構造で最も文章が多い部分を本文として抽出
・掲示板判定処理、掲示板特有のURL→本文が掲示板特有のHTML構造、二つ組み合わせる
・犯罪予告文書抽出処理
・犯罪予告文書判別処理
・スレッドの作成者かどうか
・掲示板の検出精度、適合率0.52（実際に分類された情報の正しさ）、再現率（正しい情報の内実際に分類された情報の割合）0.83、F値0.64
・犯罪予告の検出精度、適合率0.78、再現率0.93、F値0.85
・課題、犯罪予告教師データの充実、隠語の対応

※掲示板であるかどうかって重要なのかなぁ？

2P-7 日本語ブログ空間におけるスパムブログ発見手法の提案
○寒河江明博，勝野裕文（電機大）

・スパムブログ、コピーブログ、ワードサラダ、リンクスパム
・日本語ブログの4割がスパムブログ
・Kolari et al[2.3]→Bag-of-Words
・日本語ブログ空間を対象、ブログ解析SVM学習、スパム分類
・ブログの評価指標、RSSに記載されている内容を評価
・エントリ本文の抽出、ブログの領域はdivやidで区切られている、class・id属性値から本文特定、rssのdescriptionと各領域の類似度抽出
・Bag-of-Words、ブログ本文中の単語を特徴量とする
・特徴語集合、学習データ中に出現する単語に対して、スパムブログ・通常のブログで出現頻度をチェック、スパムブログの特徴語を生成
・ブログのメタ情報、RSS+HTML解析で取り出した情報を定量評価
・スパムブログの判定基準、機械生成、コピー、アダルト
・特徴語集合のサイズが300の時が最も高い、でも全ての領域で0.9前後
・ブログのメタ情報は、特徴量数を増やすと評価値は上昇傾向、15項目全て用いるのがmax
・Bag-of-Anchors、ブログ中のアンカーテキストの単語
・課題、長期運用に向けた再学習機構を取り入れる、スパムの変化に対する柔軟なブログ評価

※意外といい感じに出せるんだね
※コピーブログをどうやって導き出したんだろ？　→　Bag-of-Wordsは有効に働かないので、メタ情報で導き出す

2P-8 ソーシャルブックマークにおけるスパムの検出
○宗片健太朗（電機大），福原知宏（東大），山田剛一，絹川博之（電機大），中川裕志（東大）

※今度はSBM
・Buzzurl、delicious、はてなブックマーク
・WebとSBM空間
・スパム除去のため、SBMの情報を収集とスパム判別
・スパムブックマークの定義、アフィリエイトサイトへの誘導、商用サイトへの誘導
・行っているユーザをスパマ
・スパマの特徴、ブックマーク登録者がそのユーザのみのブックマーク（1userBM）の割合が多い、ぶくっマーク数に対してタグが多い、ブックマークにつけているタグの数がほぼ一定、ブックマークしているページのドメインが連続して同じ
・SBMデータベース、ユーザID、ユーザ名、ブックマーク登録数、タグ数、1userBMの数割合
・はてなブックマークのRSSをクロールしデータ収集
・73703ユーザの内1000を目視でチェック、スパマは88
・1userBMの割合が50%越えで、0.9以上の精度再現率
・現時点では単独のスパマが多いけど、複数スパマで協力されるとアウト、複数アカウントの取得などの対策を取られる可能性がある
・今後の課題、対象を増やす、他の特徴で分析、スパムの自動検出
※1userBMはいいアイデアだと思ったけど、本人も理解しているとおりの話しだよね、、、ああ、腹立たしい

2P-9 携帯電話のセッション推定に基づくアクセスログの補完について
○中村正人，柿元宏晃，近藤圭佑，大囿忠親，新谷虎松（名工大）

・Cookie、JavaScriptを利用できない
・アクセス毎にIPアドレスが変更する可能性
・リファラが出さない
・端末IDを取得可能
・携帯電話からのアクセスのログは、PCのそれよりも情報量が少なく、アクセス解析手法が異なる
・既存手法、セッションID管理（サーバ、リバースプロキシ、パケットキャプチャ）、Webビーコン形（画像埋め込み）
・アクセス解析ツールとして、ユニークユーザの計測、ページ遷移のトレース、これを実装
・PC向けアクセス解析ツールで携帯電話のアクセス解析を行うための支援システムの構築
・携帯電話のアクセスログを補完、セッションの判別、リファラの推定、
・端末の識別、セッション毎にIDを発行
・端末IDが利用可能な場合、端末IDとセッションIDの対応付けを行う
・端末IDが利用できない場合、キャリアとユーザエージェントを利用、セッションIDをURLに付加、IPアドレス帯域によりキャリア識別、同一セッション中に一貫性の確認を行う
・ログの補完、セッションID等取得できる情報をデータベースに保持
・データベースの情報を元に通常のアクセスログを生成
・リファラ推定、セッション情報を元にする、アクセス統計に基づく推定
・ページへのアクセスに対してリファラ情報を蓄積、統計情報のページ遷移確率に基づき、リファラを補完
・実装、apacheのモジュールで実装、静的ファイルに対応、環境変数で渡す
・Webビーコン形アクセス解析ツールへの適用、JSでクライアントの情報を収集imgタグによりサーバに送信
・考察、複数セッションを同一視する可能性、端末IDが利用できないときの話し
※んー、最後のWebビーコンの話がよくわからんのぉ
※なんか、ページ構造の解析をするとリファラ可能性のあるものが調べられる気がする

投稿者 ymkx : 2009年3月10日 18:52 |

予定は未定であって決定ではない

2009年3月10日

Webマイニング

最近のエントリー

カテゴリー

アーカイブ