リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

大学・研究所にある論文を検索できる 「マイクロブログを活用した社会事象の抽出と分析技術に関する研究」の論文概要。リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

コピーが完了しました

URLをコピーしました

論文の公開元へ論文の公開元へ
書き出し

マイクロブログを活用した社会事象の抽出と分析技術に関する研究

坂本 一磨 関西大学 DOI:info:doi/10.32286/00025769

2021.12.15

概要

我が国では,「第 5 期科学技術基本計画」にてサイバー空間とフィジカル空間を融合させた新たな社会像であるSociety 5.0 が提唱され,ネットワーク技術や IoT(Internet of Things),そして AI(Artificial Intelligence)技術を用いて,経済成長に向けた社会課題を解決するための取り組みがなされつつある.その中でも,インターネットから社会の動向やニーズを把握することを目的としたソーシャルセンシング技術の研究が進められており,社会調査やマーケティング,データマイニング等の分野で活用されている.最近では,インターネットからユーザの行動をリアルタイムに分析することで,その時々のユーザの意見や暗黙的な考え,そして本来のニーズをタイムリーに抽出することも注目されている.例えば,東日本大震災では,CGM(Consumer Generated Media)の一つである SNS(Social Networking Service)を用いて,緊急性が高い安否確認や,地域に密着した避難所の設置場所や利用率,そして備蓄食料や資材の情報を集約するために利用された.このことから,SNS は,サイバー空間とフィジカル空間を融合したきめ細やかな情報交換手段として有効であることが確認されている.しかし,投稿記事の確からしさが保証されていないため,非常事態において重要性が高くしかも信頼性も担保された地域密着型の情報を随時正確に抽出することは非常に難しい.

そこで,本研究では,平時の状況を把握することで,異常時や緊急時に素早く対応するためのソーシャルセンシングに着目し,実社会の新たな事象や事変を感度良く見極めることに主眼を置く.具体的には,SNS 上の投稿時間と投稿内容からユーザ毎の日々の生活習慣に応じた「習慣行動」の情報を基に,実世界で生じた事象や動向を適切に抽出するための方法について議論する.一つ目としては,平時の習慣行動と異なる「非習慣行動」を抽出することでユーザの行動を分析する手法を,二つ目として,ユーザの属性単位(性別,年代,職業や地域)による習慣行動の違いから社会事象を抽出する手法を深く検討する.さらに,三つ目として,ソーシャルセンシングで重要となる前述の 4 つのユーザ属性を投稿履歴から推定するためのシステムを開発し,センシング精度を高める技術を考究する.

まず,SNS 上の投稿時間と投稿内容からユーザの習慣行動を取得し,これに基づき非習慣行動を抽出する手法に着目する.SNS には,日常会話のみならず広告目的などの雑多な情報が含まれるため,ノイズを含まずにユーザの状況やニーズを機械的に取捨選択することは難しい.たとえ特定のキーワードを用いて分類する場合でも,それらを選定する時点で恣意的な結果となり,網羅的に世の中の状況を捉えることができない.そこで,本研究では,ユーザの過去の投稿履歴から抽出できる習慣行動に着目し,平時とは異なる行動を非習慣行動として区別しながら,単語の共起確率と出現頻度を考慮したトピックから解釈できる社会事象を抽出する方法を提案した.本手法では,「平時と異なる非習慣行動を引き起こすユーザ群を特定することで,その非習慣行動から何らかの大きな社会事象が発生している」という仮説を設定し,実際に多種多様な実世界で起きた事象を発見できるかを試みる.実験結果から,1 年間の平均化した習慣行動を基準として,1 ヶ月毎の習慣行動を比較することから非習慣情報である社会事象を抽出できるかを確認した.さらに,特定キーワードを指定する既存手法よりも多くの社会事象を発見することができる上,同一事象においても複数の関連記事を抽出することができた.したがって,網羅的にしかも詳細に世の中の状況を把握することに成功した.

次に,ユーザの属性毎による習慣行動の違いを考慮した社会事象の抽出手法に着目する. SNS のユーザは,性別,年齢,職業や居住している地域が異なるため,意見やその反応も多様である.そこで,先の方法にユーザ属性を考慮して,「属性毎の重要な記事を発見することができれば,個別のユニークな社会事象を検出できる」との仮定の下,研究を遂行した.具体的には,性別や年齢に関係したトピック記事や,職業に関連するタイムリーな記事,そして地域特性を持った重要記事等を獲得できるかを試みる.ユーザ属性としては,プロフィール欄に記載されているユーザ自身のプロパティ情報を用いた.実験結果からは,各ユーザ属性によって注目する投稿記事が異なること,そして,同一事象でもその内容に差異があることを確認した.さらに,属性毎の日々の生活に直結する行動スケジュールも取得できることがわかった.

最後に,前述のユーザのプロパティ情報を自動的に獲得することを目的に,投稿内容からユーザ属性を推定する技術に着目する.本研究では,性別,年代,職業のユーザ属性を順番に推定する段階的詳細化の考え方を用いる.地域属性に関しては,深層学習の回帰型ニューラルネットワークの一種であるBiLSTM(Bidirectional Long Short Term Memory)を用いて地域辞書モデルを構築し,新たな投稿記事から何処の地域のユーザであるかを特定する.実験では,性別ごとの特徴的な語句を用いて性別を判別した後,段階的詳細化により年代と職業を絞り込みながら推定できることがわかった.また,地域辞書モデルを用いることで地方区分レベルの情報を獲得できることも確認した.最終的に,前述の結果と自動的に推定したユーザ属性を用いた結果とを比較し,ほぼ同じ内容の社会事象を抽出できたことも明らかにした.したがって,一連の研究においてソーシャルセンシング技術の有用性を証明することができた.

1) 非習慣行動を用いた社会事象の抽出方法の提案
マイクロブログユーザをソーシャルセンサと捉えて,特定のキーワードの出現数や投稿記事の文脈を解析し,社会事象を検知するソーシャルセンシングに関する研究が注目されてきた.しかし,各事象に合った特定のキーワードを事前に指定する必要があるために抽出できる内容の領域が狭いことや,キーワードの選定に解析者のバイアスがかかり,その結果,内容に偏りが生じることにより網羅的な分析がなされていない.そこで,ユーザの習慣行動の情報を用いて,実世界における社会事象を抽出する新たなソーシャルセンシング技術を考案する必要がある.
本研究では,ユーザの投稿履歴を用いてユーザの習慣行動を解析し,時間毎の単語の出現回数を用いた特徴ベクトルを作成する.そして,1 年間の生活習慣を基準として,その平時の行動から月単位の習慣行動の差を比較できるかを検討する.最終的に,「ユーザの非習慣行動時の投稿を解析することで社会事象を抽出可能であること」と「その社会事象のカテゴリや内容が変化すること」の 2 つの検証項目に対し,本提案手法が有用であるかを確認する.
約 300 万件の実験結果から,平時の行動と 1 ヶ月毎の習慣行動を比較することで,平均して約
97 時間の非習慣行動を抽出できることがわかった.また同時に,その非習慣行動に関連するトピッ クを抽出することができた.それは,事前にキーワードを指定する手法で獲得できなかったものも含まれていることを確認した.本技術は,キーワードを指定する必要がなく,その上,日本語以外へも対応可能である点に新規性があり,また,即時性と網羅的の課題も解消できたことに有用性がある.ただし,ユーザの属性毎のトピック抽出には至っていない.この点には課題が残った.

2) ユーザ属性を考慮した非習慣行動を用いた社会事象の分析
マイクロブログは,誰もが手軽に記事を投稿できる利便性がある.そのため,ユーザによって,興味や関心のある事象が異なると考えられる.そこで,ユーザ毎にそれらの違いを区別できる可能性があると考え,ユーザ属性を考慮した実世界で生じた社会事象の分析を検討する.
本研究では,まず,ユーザの属性に関しては,Twitter のプロフィール欄と投稿内容を確認してマニュアルで付与することとした.次に,ユーザ属性毎の一年間の習慣行動と月毎の習慣行動を比較することで非習慣行動を抽出する.そして,ユーザの行動傾向に沿った特定の慣習に関する社会事象を抽出できるかを議論する.
前述の約300 万件の内,属性がわかっている約200 件を用いた実験結果から,ユーザ属性毎の感度の高い社会事象を獲得できることがわかった.また,ユーザ属性毎の日々の生活に直結する行動パターンの内容を収集できることから,トピックに明確な違いがあることも確認できた.例えば,同じオリンピックの話題であっても性別,職業(会社員,公務員,自営業,学生,主婦やフリーター)と地域(北海道・東北地方や関東地方など)によって注目するトピックが異なることを示すことができた.したがって,先の大局的なデータセンシングから局所的なデータセンシングの可能性を見出し,属性毎の社会事象の抽出の有効性について明らかにした.課題としては,性別,年代,職業などの属性にはパターン性があるが,地域性に関しては投稿記事の中身を詳細に分析する必要があ ることがわかった.そのため,行動パターンから読み取れない地域属性に関しては,新たな分析方法が必要であることが明らかになった.

3) ユーザの基本属性と類語による地域属性の自動獲得による社会事象の最終分析
属性毎の異なる生活習慣を考慮しながら段階的詳細化の考えからユーザの基本属性を推定する.これは,投稿記事からユーザの確度の高い性別の属性から年代の属性,そして確度の低い職業の属性へと段階的に確定できるかを明らかにするものである.
一方,地域属性に関しては,習慣行動や投稿傾向に顕著な特徴が見受けられないことや,地域に関する特徴となる単語の出現率が低いことから推定は難しい.また,ジオタグの位置情報の付与率も非常に少ない.そこで,同じ意味を表すが地域毎に表現が異なる類語に着目し,その違いから地域属性を推定する手法を提案する.投稿者は類語を無意識に使用する傾向があると考え,類語と地域毎に出現頻度が異なる地域語を組み合わせた「地域辞書」を用いて,派生する関連語や関連記事から地域推定を試みる.具体的には,BiLSTM を用いて地域毎に地域辞書モデルを構築して,投稿記事から地域属性を推定する.
実験では,性別,年代や職業が明らかなユーザの約 200 万件と,地域がわかっているユーザの約 600 万件の投稿記事を対象とした.実験結果より,1)段階的詳細化によってユーザの性別,年代や職業の基本属性は比較的簡単に確定できることがわかった.一方,地域属性に関しては,2)地域辞書モデルを用いることで大まかな地方区分レベルに分類できること,そして3)ユーザの地域語を増加させることで地域辞書が洗練され,地方区分から都道府県レベルへと収斂する傾向があることがわかった.したがって,これまでマニュアルで行ってきたユーザ属性を分類する手間が省け,自動的にユーザ属性を獲得できること,そして,非習慣行動を用いた社会事象の分析が比較的簡単になることがわかった.
さらに,最終確認として,マニュアルで付与したユーザ属性と自動的にユーザ属性を推定した時の非習慣行動によるトピックを比較することにより,同様の社会事象を獲得できることを確認した.

以上のことから,社会事象の抽出においてマイクロブログと習慣行動の情報は有用であることが明確となった.また,ユーザ属性を考慮することで詳細な社会事象を抽出できることもわかった.したがって,平時ではない非習慣の社会動向の情報を検索し,タイムリーに取捨選択するためのソーシャルセンシング技術の高度化について深く議論し,実世界における有益な情報を適切に抽出することを可能とした実践的な研究である.

今後は,ユーザ属性の分類を詳細化し,より汎用性の高いモデルを構築する.また,投稿者の性別,年代,職業,そして地域ごとの平時習慣と特定習慣のタイムスパン(年,月,週,日)の組合せと抽出される社会事象との関係を明らかにし,投稿記事の信頼性を判断しながら平時時と非習慣時のデータセンシング技術の確立を目指す.

参考文献

[1] 総務省:第 5 期科学技術基本計画,入手先 < https://www8.cao.go.jp/cstp/kihonkeikaku/5honbun.pdf > (参照 2020-4-6).

[2] 総務省:平成 30 年度版情報通信白書「Society 5.0」,入手先 < https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h30/html/nd102300.html > (参照 2020-4-6).

[3] 総務省消防庁:規模災害時におけるソーシャル・ネットワーキング・サービスによる緊急通報の活用可能性に関する検討会,入手先 < https://www.fdma.go.jp/singi_kento/kento/kento101.html > (参照 2020-4-11).

[4] 首相官邸:防災・減災におけるSNS等の民間情報の活用等に関する検討会,入手先 < https://www.caa.go.jp/future/meeting_materials/review_meeting_001 > (参照 2020-4-11).

[5] 消費者庁:若者が活用しやすい消費生活相談に関する研究会,入手先 < http://www.kantei.go.jp/jp/singi/it2/senmon_bunka/bousai/dai6/houkokusyo.pdf > (参照 2020-4-11).

[6] 奥村学:マイクロブログマイニングの現在,信学技報,電子情報通信学会,Vol. 111, No. 427,pp. 19-24,2012.

[7] 榊剛史,松尾豊:ソーシャルセンサとしての Twitter:ソーシャルセンサは物理センサを凌駕するか?,人工知能学会誌,人工知能学会,Vol. 27,No. 1,pp. 67-74,2012.

[8] Zhao, Q., Liu, T.Y., Bhowmick, S. and Ma, W.Y.:Event Detection from Evolution of Click-Through Data,Proc. 12th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining, ACM, pp.484–493, 2006.

[9] Ginsberg, J., Mohebbi, M.H., Patel, R.S., Brammer, L.,Smolinski, M.S. and Brilliant, L.: Detecting InfluenzaEpidemics Using Search Engine Query Data, Nature, nature Vol.457, pp.1012–1014, 2009.

[10] 松尾 豊:ウェブからの実世界の観測と予測,電子情報通信学会論文誌 B,電子情報通信学会,Vol.J96-B,No.12,pp.1309–1315,2013.

[11] Sakaki, T. Okazaki, M. and Matsuo, Y.. Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors. Proceedings of the 19th International Conference on World Wide Web, ACM pp. 851-860, 2010.

[12] 榊剛史,松尾豊,鳥海不二夫,篠田孝祐,栗原聡,風間一洋,野田五十樹:ソーシャルメディアを用いた災害検知及び被災地推定手法の提案,人工知能学会全国大会論文集,人工知能学会,Vol. 26,pp. 1-4,2012.

[13] Dingli, A. Mercieca, L. Spina, R. and Galea, M.. Event Detection Using Social Sensors. Proceedings of the 2nd International Conference on Information and Communication Technologies for Disaster Management. 2015, p.35-41.

[14] Zhao, S. Zhong, L. Wickramasuriya, J. and Vasudevan, V.: Human as Real-Time Sensors of Social and Physical Events:A Case Study of Twitter and Sports Games, Rice University Technical Report, Rice University, No. TR0620, 2011.

[15] 富田大志,道満恵介,井手一郎,出口大輔,村瀬洋:Twitter を用いたスポーツ試合中のイベント検出に関する検討,HCG シンポジウム 2012 論文集,電子情報通信学会, pp. 492-498,2012.

[16] 長野伸一:ソーシャルセンサからの情報抽出技術,東芝レビュー,Vol. 69,No. 7, pp. 19-22,2014.

[17] Georgiou, T. Abbadi, A. Yan, X. and Georg e J.: Mining Complaints for Traffic-Jam Estimation: A Social Sensor Application, Proceedings of the 2015 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, ACM, pp. 330-335, 2015.

[18] Congosto, M. Fuentes, D. and Sanchez, L.: Microbloggers as Sensors for Public Transport Breakdowns, Proceedings of the IEEE Internet Computing, IEEE, Vol. 19, No. 6, pp. 18-25, 2015.

[19] Asur, S. and Huberman, B.: Predicting the Future with Social Media, Proceedings 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, ACM, Vol. 1, pp. 492–499, 2010.

[20] 迫村光秋,和泉潔:twitter テキストマイニングによる経済動向分析,第 9 回人工知能学会ファイナンスにおける人工知能応用研究会資料,人工知能学会,pp. 39-41, 2012.

[21] Bollen, J. Mao, H. and Zeng, X.: Twitter Mood Predicts the Stock Market, Journal of Computational Science, Vol. 2, No. 1, pp. 1-8, 2011.

[22] Ruiz, E. Hristidis, V. Castillo, C. Gionis, A. and Jaimes, A.: Correlating Financial Time Series with Micro-Blogging Activity, Proceedings of the 5th ACM International Conference on Web search and Data Mining, ACM, pp. 513-522, 2012.

[23] 荒牧英治,増川佐知子,田瑞樹:Twitter Catches the Flu:事実性判定を用いたインフルエンザ流行予測, 音声言語情報処理研究報告,情報処理学会,Vol. 2011-SLP-86, No. 1,pp. 1-8,2011.

[24] Lampos, V., Bie, T. and Cristianini, N.: Flu Detector – Tracking Epidemics on Twitter. Joint European Conference on Machine Learning and Knowledge Discovery in Databases 2010, Vol. 6323, pp. 599-602, 2010.

[25] 田中成典,中村健二,加藤諒,寺口敏生:マイクロブログの投稿時間に着目したユーザの職業推定に関する研究,情報処理学会論文誌データベース(TOD),情報処理学会,Vol. 6,No. 5,pp. 71-84,2013.

[26] 工藤航,鳥海不二夫:新聞記事のアクセスログを用いたユーザ属性の逐次推定,人工知能学会論文誌,人工知能学会,Vol. 34,No. 5,pp. 1-9,2019.

[27] 山下雄大,森純一郎:深層学習を用いたSNS プロフィール画像からの投稿者属性推定,人工知能学会全国大会論文集,人工知能学会,Vol. 30,pp. 1-4,2016.

[28] 堂前友貴,関洋平:半教師ありトピックモデルにより選択した地域語を用いた Twitter ユーザの生活に関わる地域の推定,情報処理学会論文誌データベース(TOD),情報処理学会,Vol. 7,No. 3,pp. 1-13,2014.

[29] Chandra, S. Khan, L. and Muhaya, B.: Estimating Twitter User Location Using Social Interactions – A Content Based Approach. Proceedings of the 3rd IEEE International Conference on Social Computing, IEEE, pp. 838-843, 2011.

[30] 池田和史,中村健二,服部元,松本一則,小野智弘,東野輝夫:マーケット分析の ための Twitter 投稿者プロフィール推定手法,情報処理学会論文誌コンシューマ・デバイス&システム(CDS),Vol. 2,No. 1,pp. 82-93,2012.

[31] 森國泰平,吉田光男,岡部正幸,梅村恭司:ツイート投稿位置推定のための単語フィルタリング手法,情報処理学会論文誌データベース(TOD),情報処理学会,Vol. 8, No. 4,pp. 16-21,2015.

[32] Twitter:Twitter,入手先<https://twitter.com/> (参照 2016-11-14).

[33] 加藤諒,中村健二,山本雄平,田中成典,坂本一磨:マイクロブログにおけるユーザの属性と習慣行動の推定に関する研究,情報処理学会論文誌,情報処理学会, Vol. 57,No. 5,pp. 1421-1435,2016.

[34] 坂本一磨,中村健二,山本雄平,田中成典:平時と異なる事象に対するソーシャルセンシング技術に関する研究,情報処理学会論文誌,情報処理学会,Vol. 59,No. 10, pp. 1-14,2018.

[35] 坂本一磨,中村健二,山本雄平,田中成典,中村竜也:ユーザ属性を考慮した平時と異なる事象に対するソーシャルセンシング技術に関する実践研究,知能と情報,日本知能情報ファジイ学会,Vol. 32,No. 1,pp. 556-569,2020.

[36] 田中成典,中村健二,寺口敏生,中本聖也,加藤諒:マイクロブログから抽出したユーザの習慣に基づく行動推定に関する研究,情報処理学会論文誌データベース(TOD),情報処理学会,Vol. 6,No. 3,pp. 73-89,2013.

[37] 池原悟, 宮崎正弘, 白井諭, 横尾昭男, 中岩浩巳, 小倉健太郎, 大山芳史, 林良彦:日本語語彙大系 CD-ROM 版,岩波書店,1999.

[38] Blei, D.M., Ng, A.Y. and Jordan, M.I.: Latent Dirichlet Allocation, The Journal of Machine Learning Research, JMLR, Vol.3, pp.993–1022 2003.

[39] Radim Řehůřek:gensim,入手先<https://radimrehurek.com/gensim/> (参照 2019-4-15).

[40] S21G 社:ツイプロ,入手先<http://twpro.jp/> (参照 2016-11-14).

[41] Twitter:Twitter Developers,入手先<https://dev.twitter.com/> (参照 2016-11-14).

[42] ropross.net:Twilog,入手先<http://twilog.org/> (参照 2016-11-14).

[43] 国土交通省:国土数値情報ダウンロードサービス,入手先<http://nlftp.mlit.go.jp/ksj/>, (参照 2017.2.13)

[44] instant tools:日本の地域分類,入手先<http://tools.m-bsys.com/data/area_classification. php>,(参照 2017.2.13)

[45] 藤本拓,原隆浩,西尾幸治郎:時系列の最適平滑化と動的な語彙集合を考慮した時系列文書に対するトピック解析手法,電子情報通信学会論文誌,電子情報通信学会, Vol. J96-D,No. 5,pp. 1212-1221, 2013.

[46] D. Mimno, H. Wallach, E. Talley, M. Leenders, and A. McCallum.: Optimizing semantic coherence in topic models, Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 262-272, 2011.

[47] Radim Řehůřek:gensim,入手先< https://radimrehurek.com/gensim/models/ldamodel. html >,(参照 2019.4.15)

[48] Murzintcev Nikita:Select number of topics for LDA model,入手先< https://cran. r-project.org/web/packages/ldatuning/vignettes/topics.html >,(参照 2019.4.15)

[49] 斉藤裕樹,高山翼,山上慶,戸辺義人,鉄谷信二:マイクロブログのジオタグと発言コンテキスト解析による行動予測手法,情報処理学会論文誌,情報処理学会, Vol. 55,No. 2,pp. 773-781,2014.

[50] 伊藤淳,西田京介,星出高秀,戸田浩之,内山匡:Twitter と Blog の共通ユーザプロフィールを利用した Twitter ユーザ属性推定,研究報告自然言語処理(NL), Vol. 2013-NL-210,No. 4, pp. 1-8,2013.

[51] 総務省:国民のための情報セキュリティサイト,入手先<https://www.soumu.go.jp/main _sosiki/joho_tsusin/security/enduser/security02/05.html> (参照 2020-2-3).

[52] Twitter:Twitter Support,入手先 <https://twitter.com/TwitterSupport/status/1141039841993355264> (参照 2020-2-3).

[53] Twitter:Twitter Japan,入手先 <https://twitter.com/TwitterJP/status/1141851959818772481> (参照 2020-2-3).

[54] Twitter:ツイートに位置情報を追加する方法,入手先<https://help.twitter.com/ja/ using-twitter/tweet-location> (参照 2020-2-3).

[55] 坂本一磨,山本雄平,中村健二,田中成典,中村竜也:類語の出現頻度に着目した居 住地の推定に関する調査研究,第 34 回ファジィシステムシンポジウム講演論文集,日本知能情報ファジイ学会,Vol.34, pp.857-858,2018.

[56] Hayashi, T. Watanabe, S. Toda, T. Hori, T., Roux, J., Takeda, K.: Bidirectional LSTM-HMM Hybrid System for Polyphonic Sound Event Detection, Detection and Classification of Acoustic Scenes and Events 2016, No. TR2016-114, 2016.

参考文献をもっと見る

全国の大学の
卒論・修論・学位論文

一発検索!

この論文の関連論文を見る