Clustered lassoを用いたスパース共クラスタリング

上田朋矢中央大学

2022.07.12

概要

近年, IoT やデータ収集蓄積技術の発展に伴い, SNS データや購買ログデータなどに代表される, 人と人, 人と物などの繋がりを表すデータが膨大に蓄積されている. そのようなデータに対する最も基本的な分析処理として, 類似したデータをグルーピングするクラスター分析がある. 購買ログデータが与えられたとき, 通常のクラスタリング手法であれば, 顧客のクラスタリングもしくは商品のクラスタリングを個別に行う.

一方, 本研究の主題である共クラスタリングは, 顧客と商品を同時にクラスタリングする技術である. これにより「もっとも売れる顧客層と商品群」のような有益な情報を持つ部分を発見することができる. 共クラスタリングにはベイズアプローチを用いた方法 (Nowicki and Snijders (2001)) や本研究が該当する k -means 法を拡張した方法がある. Nowicki and Snijders (2001) は, 非対称関係データにも適応可能な共クラスタリングとして確率的ブロックモデルを提案した. また, Kemp, Tenenbaum, Griﬃths, Yamada and Ueda (2006) は, 確率的ブロックモデルを拡張し, 潜在するクラスター数を自動的に決定できる無限関係モデルを提案した.

共クラスタリングにおいて, 行のクラスター数を K, 列のクラスター数を R とすると, 合わせて KR 個という多数のクラスターができる. そこで Tan and Witten (2014) は, 中心化後のデータ行列 X におけるクラスター平均の L1 正則化推定として共クラスタリングをとらえ, いくつかのクラスターの平均が 0 であると推定する方法を提案した.

論文の公開元へ

分野

大学

学位論文種類・取得年

言語

Clustered lassoを用いたスパース共クラスタリング

概要

関連論文

Comprehensive evaluation of preprocessing methods for visualizing single-cell RNA-seq count data

グラフ類似性測定のためのグラフ局所構造を考慮したGromov-Wasserstein距離

アイデア創出のための特許文献からの知識発見に関する研究

変数選択制約と楕円形判別面を考慮した信用リスク判別モデルの効率的解法と評価 (本文)

代数トポロジー的データ解析の地理学への応用に関する研究

参考文献

分野

大学

学位論文種類・取得年

言語

コピーが完了しました

URLをコピーしました

Clustered lassoを用いたスパース共クラスタリング

概要

関連論文

Comprehensive evaluation of preprocessing methods for visualizing single-cell RNA-seq count data

グラフ類似性測定のためのグラフ局所構造を考慮したGromov-Wasserstein距離

アイデア創出のための特許文献からの知識発見に関する研究

変数選択制約と楕円形判別面を考慮した信用リスク判別モデルの効率的解法と評価 (本文)

代数トポロジー的データ解析の地理学への応用に関する研究

参考文献