対話システムライブコンペティションから何が得られたか
概要
工学の分野では多くのコンペティションが開催され,それによって進展がもたらされてきた.そして,それは対話システムにとっても同じである.特に,近年は対話システムに関わるコンペティションが多く開催されている[東中 19a].
表 1 は対話システムに関する主なコンペティションをまとめたものである.軸は二つある.一つは対象とする対話システムの種類である.対話システムは,所定のタスクを遂行することを目的とするタスク指向型対話システムと,所定のタスク遂行が主な目的ではない非タスク指向型対話システム(雑談対話システム)に大別されるが[中野 15],表ではこの分類を用いている.もう一つは,評価形態である.対話システムの評価の仕方には,オフライン評価とオンライン評価がある.前者は,固定的なデータセットを対象に,対話システムの特定のモジュール(例えば,発話理解や発話選択)の性能を測る.例えば,対話文脈とその文脈で得られるべきユーザ意図が対になったデータセットが与えられ,対話文脈からユーザ意図を推定する精度で競ったり [Henderson 14],対話文脈と複数のシステム発話候補が対になったデータセットが与えられ,所定の文脈で複数の候補から妥当なシステム発話を選択する精度を競ったりする[Hori 19].後者のオンライン評価は,対話システムのEnd-to-End の性能を測るもので,ユーザとシステムが実際に対話を行い,主に主観により対話の質を評価する.
オフライン評価は,パラメータをいくつも振って最適化を図ることができるなど,多くのアルゴリズムを効率的に試すことができるというメリットがある.しかし,切り取られた一部の対話文脈しか扱うことができないというデメリットがある.オンライン評価はその裏返しで,ユーザとシステムの発話によってつくられていくダイナミックな文脈を扱うことができるというメリットがある.しかし,人手による評価が必要となり,コストがかかるというデメリットがある.
著者らが提案・実施してきた,対話システムライブコンペティション(以降,ライブコンペ)は,非タスク指向型対話システムを対象としたオンライン評価を行うコンペティションである [東中 18, 東中 19b, Higashinaka 19c].これまでにも,表 1 で同じ象限に含まれるコンペティションはなかったわけではない.しかし,ライブコンペにはこれまでのものとは異なるポイントがある.それは,対話のダイナミックさにフォーカスしていること,そして,対話システム研究のコミュニティの問題意識に働きかけるということである.
先ほど述べたとおり,対話とは発話ごとに状況が刻々 と変化していくダイナミックなプロセスである.そのダ イナミックさを対話システムの研究者・開発者が体感で きるコンペティションをつくろうと考えた.具体的には, 対話システムと人間の話者の対話を,それがあたかもラ イブコンサートであるかのように,研究者・開発者全員 でライブで鑑賞し,その良し悪しを評価するということ を考えた.それがライブコンペという企画である. 全員で同じ対話を鑑賞するということは,対話システ ム研究にとって大きな意味がある.それは,現状の問題点をコミュニティ全員で共有できるということだ.これ により,対話システム研究が抱える多くの課題の中で本 当に着手すべき課題にコミュニティが一丸となって取り 組める可能性が高まる.
本稿では,これまでに二度実施してきたライブコンペ の仕様,結果や得られた問題意識について述べる.また, ライブコンペに関連するイベントとして開催した,対話 システムライブコンペ講習会と日本語教育学会における パネルセッション[宇佐美 19] についても触れる.