Clustered lassoを用いたスパース共クラスタリング
概要
近年, IoT やデータ収集蓄積技術の発展に伴い, SNS データや購買ログデータなどに代表される, 人と人, 人と物などの繋がりを表すデータが膨大に蓄積されている. そのようなデータに対する最も基本的な分析処理として, 類似したデータをグルーピングするクラスター分析がある. 購買ログデータが与えられたとき, 通常のクラスタリング手法であれば, 顧客のクラスタリングもしくは商品のクラスタリングを個別に行う.
一方, 本研究の主題である共クラスタリングは, 顧客と商品を同時にクラスタリングする技術である. これにより「もっとも売れる顧客層と商品群」のような有益な情報を持つ部分を発見することができる. 共クラスタリングにはベイズアプローチを用いた方法 (Nowicki and Snijders (2001)) や本研究が該当する k -means 法を拡張した方法がある. Nowicki and Snijders (2001) は, 非対称関係データにも適応可能な共クラスタリングとして確率的ブロックモデルを提案した. また, Kemp, Tenenbaum, Griffiths, Yamada and Ueda (2006) は, 確率的ブロックモデルを拡張し, 潜在するクラスター数を自動的に決定できる無限関係モデルを提案した.
共クラスタリングにおいて, 行のクラスター数を K, 列のクラスター数を R とすると, 合わせて KR 個という多数のクラスターができる. そこで Tan and Witten (2014) は, 中心化後のデータ行列 X におけるクラスター平均の L1 正則化推定として共クラスタリングをとらえ, いくつかのクラスターの平均が 0 であると推定する方法を提案した.