マイクロブログを活用した社会事象の抽出と分析技術に関する研究
概要
我が国では,「第 5 期科学技術基本計画」にてサイバー空間とフィジカル空間を融合させた新たな社会像であるSociety 5.0 が提唱され,ネットワーク技術や IoT(Internet of Things),そして AI(Artificial Intelligence)技術を用いて,経済成長に向けた社会課題を解決するための取り組みがなされつつある.その中でも,インターネットから社会の動向やニーズを把握することを目的としたソーシャルセンシング技術の研究が進められており,社会調査やマーケティング,データマイニング等の分野で活用されている.最近では,インターネットからユーザの行動をリアルタイムに分析することで,その時々のユーザの意見や暗黙的な考え,そして本来のニーズをタイムリーに抽出することも注目されている.例えば,東日本大震災では,CGM(Consumer Generated Media)の一つである SNS(Social Networking Service)を用いて,緊急性が高い安否確認や,地域に密着した避難所の設置場所や利用率,そして備蓄食料や資材の情報を集約するために利用された.このことから,SNS は,サイバー空間とフィジカル空間を融合したきめ細やかな情報交換手段として有効であることが確認されている.しかし,投稿記事の確からしさが保証されていないため,非常事態において重要性が高くしかも信頼性も担保された地域密着型の情報を随時正確に抽出することは非常に難しい.
そこで,本研究では,平時の状況を把握することで,異常時や緊急時に素早く対応するためのソーシャルセンシングに着目し,実社会の新たな事象や事変を感度良く見極めることに主眼を置く.具体的には,SNS 上の投稿時間と投稿内容からユーザ毎の日々の生活習慣に応じた「習慣行動」の情報を基に,実世界で生じた事象や動向を適切に抽出するための方法について議論する.一つ目としては,平時の習慣行動と異なる「非習慣行動」を抽出することでユーザの行動を分析する手法を,二つ目として,ユーザの属性単位(性別,年代,職業や地域)による習慣行動の違いから社会事象を抽出する手法を深く検討する.さらに,三つ目として,ソーシャルセンシングで重要となる前述の 4 つのユーザ属性を投稿履歴から推定するためのシステムを開発し,センシング精度を高める技術を考究する.
まず,SNS 上の投稿時間と投稿内容からユーザの習慣行動を取得し,これに基づき非習慣行動を抽出する手法に着目する.SNS には,日常会話のみならず広告目的などの雑多な情報が含まれるため,ノイズを含まずにユーザの状況やニーズを機械的に取捨選択することは難しい.たとえ特定のキーワードを用いて分類する場合でも,それらを選定する時点で恣意的な結果となり,網羅的に世の中の状況を捉えることができない.そこで,本研究では,ユーザの過去の投稿履歴から抽出できる習慣行動に着目し,平時とは異なる行動を非習慣行動として区別しながら,単語の共起確率と出現頻度を考慮したトピックから解釈できる社会事象を抽出する方法を提案した.本手法では,「平時と異なる非習慣行動を引き起こすユーザ群を特定することで,その非習慣行動から何らかの大きな社会事象が発生している」という仮説を設定し,実際に多種多様な実世界で起きた事象を発見できるかを試みる.実験結果から,1 年間の平均化した習慣行動を基準として,1 ヶ月毎の習慣行動を比較することから非習慣情報である社会事象を抽出できるかを確認した.さらに,特定キーワードを指定する既存手法よりも多くの社会事象を発見することができる上,同一事象においても複数の関連記事を抽出することができた.したがって,網羅的にしかも詳細に世の中の状況を把握することに成功した.
次に,ユーザの属性毎による習慣行動の違いを考慮した社会事象の抽出手法に着目する. SNS のユーザは,性別,年齢,職業や居住している地域が異なるため,意見やその反応も多様である.そこで,先の方法にユーザ属性を考慮して,「属性毎の重要な記事を発見することができれば,個別のユニークな社会事象を検出できる」との仮定の下,研究を遂行した.具体的には,性別や年齢に関係したトピック記事や,職業に関連するタイムリーな記事,そして地域特性を持った重要記事等を獲得できるかを試みる.ユーザ属性としては,プロフィール欄に記載されているユーザ自身のプロパティ情報を用いた.実験結果からは,各ユーザ属性によって注目する投稿記事が異なること,そして,同一事象でもその内容に差異があることを確認した.さらに,属性毎の日々の生活に直結する行動スケジュールも取得できることがわかった.
最後に,前述のユーザのプロパティ情報を自動的に獲得することを目的に,投稿内容からユーザ属性を推定する技術に着目する.本研究では,性別,年代,職業のユーザ属性を順番に推定する段階的詳細化の考え方を用いる.地域属性に関しては,深層学習の回帰型ニューラルネットワークの一種であるBiLSTM(Bidirectional Long Short Term Memory)を用いて地域辞書モデルを構築し,新たな投稿記事から何処の地域のユーザであるかを特定する.実験では,性別ごとの特徴的な語句を用いて性別を判別した後,段階的詳細化により年代と職業を絞り込みながら推定できることがわかった.また,地域辞書モデルを用いることで地方区分レベルの情報を獲得できることも確認した.最終的に,前述の結果と自動的に推定したユーザ属性を用いた結果とを比較し,ほぼ同じ内容の社会事象を抽出できたことも明らかにした.したがって,一連の研究においてソーシャルセンシング技術の有用性を証明することができた.
1) 非習慣行動を用いた社会事象の抽出方法の提案
マイクロブログユーザをソーシャルセンサと捉えて,特定のキーワードの出現数や投稿記事の文脈を解析し,社会事象を検知するソーシャルセンシングに関する研究が注目されてきた.しかし,各事象に合った特定のキーワードを事前に指定する必要があるために抽出できる内容の領域が狭いことや,キーワードの選定に解析者のバイアスがかかり,その結果,内容に偏りが生じることにより網羅的な分析がなされていない.そこで,ユーザの習慣行動の情報を用いて,実世界における社会事象を抽出する新たなソーシャルセンシング技術を考案する必要がある.
本研究では,ユーザの投稿履歴を用いてユーザの習慣行動を解析し,時間毎の単語の出現回数を用いた特徴ベクトルを作成する.そして,1 年間の生活習慣を基準として,その平時の行動から月単位の習慣行動の差を比較できるかを検討する.最終的に,「ユーザの非習慣行動時の投稿を解析することで社会事象を抽出可能であること」と「その社会事象のカテゴリや内容が変化すること」の 2 つの検証項目に対し,本提案手法が有用であるかを確認する.
約 300 万件の実験結果から,平時の行動と 1 ヶ月毎の習慣行動を比較することで,平均して約
97 時間の非習慣行動を抽出できることがわかった.また同時に,その非習慣行動に関連するトピッ クを抽出することができた.それは,事前にキーワードを指定する手法で獲得できなかったものも含まれていることを確認した.本技術は,キーワードを指定する必要がなく,その上,日本語以外へも対応可能である点に新規性があり,また,即時性と網羅的の課題も解消できたことに有用性がある.ただし,ユーザの属性毎のトピック抽出には至っていない.この点には課題が残った.
2) ユーザ属性を考慮した非習慣行動を用いた社会事象の分析
マイクロブログは,誰もが手軽に記事を投稿できる利便性がある.そのため,ユーザによって,興味や関心のある事象が異なると考えられる.そこで,ユーザ毎にそれらの違いを区別できる可能性があると考え,ユーザ属性を考慮した実世界で生じた社会事象の分析を検討する.
本研究では,まず,ユーザの属性に関しては,Twitter のプロフィール欄と投稿内容を確認してマニュアルで付与することとした.次に,ユーザ属性毎の一年間の習慣行動と月毎の習慣行動を比較することで非習慣行動を抽出する.そして,ユーザの行動傾向に沿った特定の慣習に関する社会事象を抽出できるかを議論する.
前述の約300 万件の内,属性がわかっている約200 件を用いた実験結果から,ユーザ属性毎の感度の高い社会事象を獲得できることがわかった.また,ユーザ属性毎の日々の生活に直結する行動パターンの内容を収集できることから,トピックに明確な違いがあることも確認できた.例えば,同じオリンピックの話題であっても性別,職業(会社員,公務員,自営業,学生,主婦やフリーター)と地域(北海道・東北地方や関東地方など)によって注目するトピックが異なることを示すことができた.したがって,先の大局的なデータセンシングから局所的なデータセンシングの可能性を見出し,属性毎の社会事象の抽出の有効性について明らかにした.課題としては,性別,年代,職業などの属性にはパターン性があるが,地域性に関しては投稿記事の中身を詳細に分析する必要があ ることがわかった.そのため,行動パターンから読み取れない地域属性に関しては,新たな分析方法が必要であることが明らかになった.
3) ユーザの基本属性と類語による地域属性の自動獲得による社会事象の最終分析
属性毎の異なる生活習慣を考慮しながら段階的詳細化の考えからユーザの基本属性を推定する.これは,投稿記事からユーザの確度の高い性別の属性から年代の属性,そして確度の低い職業の属性へと段階的に確定できるかを明らかにするものである.
一方,地域属性に関しては,習慣行動や投稿傾向に顕著な特徴が見受けられないことや,地域に関する特徴となる単語の出現率が低いことから推定は難しい.また,ジオタグの位置情報の付与率も非常に少ない.そこで,同じ意味を表すが地域毎に表現が異なる類語に着目し,その違いから地域属性を推定する手法を提案する.投稿者は類語を無意識に使用する傾向があると考え,類語と地域毎に出現頻度が異なる地域語を組み合わせた「地域辞書」を用いて,派生する関連語や関連記事から地域推定を試みる.具体的には,BiLSTM を用いて地域毎に地域辞書モデルを構築して,投稿記事から地域属性を推定する.
実験では,性別,年代や職業が明らかなユーザの約 200 万件と,地域がわかっているユーザの約 600 万件の投稿記事を対象とした.実験結果より,1)段階的詳細化によってユーザの性別,年代や職業の基本属性は比較的簡単に確定できることがわかった.一方,地域属性に関しては,2)地域辞書モデルを用いることで大まかな地方区分レベルに分類できること,そして3)ユーザの地域語を増加させることで地域辞書が洗練され,地方区分から都道府県レベルへと収斂する傾向があることがわかった.したがって,これまでマニュアルで行ってきたユーザ属性を分類する手間が省け,自動的にユーザ属性を獲得できること,そして,非習慣行動を用いた社会事象の分析が比較的簡単になることがわかった.
さらに,最終確認として,マニュアルで付与したユーザ属性と自動的にユーザ属性を推定した時の非習慣行動によるトピックを比較することにより,同様の社会事象を獲得できることを確認した.
以上のことから,社会事象の抽出においてマイクロブログと習慣行動の情報は有用であることが明確となった.また,ユーザ属性を考慮することで詳細な社会事象を抽出できることもわかった.したがって,平時ではない非習慣の社会動向の情報を検索し,タイムリーに取捨選択するためのソーシャルセンシング技術の高度化について深く議論し,実世界における有益な情報を適切に抽出することを可能とした実践的な研究である.
今後は,ユーザ属性の分類を詳細化し,より汎用性の高いモデルを構築する.また,投稿者の性別,年代,職業,そして地域ごとの平時習慣と特定習慣のタイムスパン(年,月,週,日)の組合せと抽出される社会事象との関係を明らかにし,投稿記事の信頼性を判断しながら平時時と非習慣時のデータセンシング技術の確立を目指す.