新しいアカペラ審査システムの試み

みなさんはじめまして。ぴくです。普段はアレンジ大好きなアカペラーです。今回は所属するサークルのサークルライブ開催に伴い行われたオーディションにおいて、新しい審査システムを導入し稼働させましたので、経緯や顛末をご報告させて頂こうと思います。


自己紹介

本題に入る前に軽く自己紹介を。
私は東京工業大学アカペラサークルあじわいに所属する修士1年のぴくと申します。アレンジャーとしてYouTubeに楽譜を上げたりしてます。

あじわいでは 本稿で紹介する審査方法で選出されたバンドが歌うサークルライブが 2月29日に大岡山キャンパスで行われます。ぜひ来てね!(宣伝)

背景

あじわいは今回のサークルライブのコンセプトとして『 サークル員全員で作り上げるサークルライブ』を掲げており、その一環として全員で審査をすることが考案されました(他にも紆余曲折ありましたが)。
はじめに新しい審査システムと言っていますが、元となっているのはとぅるぐさんが以前あかぺらぶ。に投稿された相互審査のシステムで、それを改修する形で私達は審査システムを作りました。

こちらの記事をまだご覧になってない方は、本稿を理解するためにもまずは目を通して頂きたいです。

課題

この革新的なシステムである相互審査には実は「全員が全バンドに0点を付ける」という欠点があります。話を単純化するためにそれぞれ1人だけ所属する4バンドで議論しましょう。バンドAには審査員aが所属して、バンドBには審査員bが所属しています(以下同様)。相互審査では自分のバンドを除く全てのバンドに点数を付けるシステムで、例えば以下のように自分(審査員d)以外が投票しているとします。(元の記事でのシステムでは点数を1~5点で付けますがわかりやすさのために0~100点で説明します)

審査員a審査員b審査員c審査員d(自分)
バンドA8075?
バンドB7080?
バンドC8570?
バンドD(自分)806070?

上の表で審査員aは自分の所属であるバンドAを除いた全バンドであるバンドB,C,Dにそれぞれ70点、85点、80点を付けたということを表しています。
審査を怠ると投票率でペナルティが付いてしまうので、自分も当然審査をする必要があります。例えば以下のように点数をつけました。

審査員a審査員b審査員c審査員d(自分)平均バンド順位
バンドA8075100851
バンドB708090802
バンドC857070753
バンドD806070704

集計した結果を見ると自分のバンド(バンドD)は4位ということで、最下位になってしまいました。しかし、待ってください。自分はこう投票すれば所属バンドが1位になっていました。

審査員a審査員b審査員c審査員d(自分)平均バンド順位
バンドA8075051.62
バンドB70800504
バンドC8570051.62
バンドD806070701

そうです。このように他の審査員の審査結果によらず、自分のバンドが受かるためにはすべてのバンドに最低点を付けるというのが最適戦略です。他のバンドの点数をなるべく下げることで、影響を与えられない自分のバンドの評価を相対的に上げることが出来ます。審査員a-cも同様に考えるはずで、それぞれの審査員がすべてのバンドに0点を付けることになり、全バンドが0点という結果に終わるというのが提案されていたシステムの欠点と言えます。バンドは審査するためではなく受かるためにエントリーしているため、各人がこの戦略を取ることを批判するのは筋違いですね。

提案手法

今回あじわいで用いた審査方法(以後『全体審査』と呼びます)は上記の相互審査と異なる点が大きく分けて2つあります。
(1)バンドに対して「得点」ではなく「順位」を付ける
(2)バンドの点数には投票率に加え「合意度」の補正をかける

(1)は上記の全バンドに最低点を付けることへの解決策、(2)は(1)の補強のためととりあえず説明しておきます。
全体審査について、まずは実際にサークルで配布した資料をここで紹介します。長くなるので平打ちせずリンクで失礼します。(本稿で紹介するに当たり僕の本名など一部隠してます)

drive.google.com/open?id=14lto5I5g5ZEhy1tYTWTUDFdUQISX9bxc

長い文書ですが読み終わったでしょうか。要約すると
・各々がエントリーした全部のバンドの動画を確認し、それらに順位をつけて投票する。
・ 投票された順位と補正項目に基いてバンドに点数が付く。
という審査の流れです。
他に相互審査と異なる点として、
・動画は1日1本ではなく、最初から全てにアクセスできる
・スマホ等でアプリ化はせず、スプレッドシートとGoogle Form(+結果の計算のためにPython3,Google Colaboratory)で管理
という点も相違点です。

補足説明

手法の詳細は上記URLで記しているので、ここでは先程の相違点(1)(2)についての補足をします。
(1) バンドに対して「得点」ではなく「順位」を付ける
これは全バンド0点を防ぐためのダイレクトな解決策です。同率(タイ)を認めず順位の投票をしてもらうことで上下関係を付けることを強制しています。
これはボルダ方式という制度を元にしていて「幅広い総意」を重視する仕組みです。様々な投票方式を調査、検討した結果、全バンドに順位をつけ上位8バンドを採用するという問題設定ではこれを採用すべきと判断しました。(他にも選挙のように1番と思う候補に投票するものや上位K位までの候補に投票する仕組みもあります)
(2) バンドの点数には投票率に加え「合意度」の補正をかける
実はこの項目には資料で記している”合意を数値化する”審査の他に「逆順投票」を阻止するねらいがあります。
相互審査では自分のバンドが受かるために全バンドに0点を付けるのが最適戦略でしたが、順位の投票の場合うまいと思ったのと逆順に順位をつけるのが自分のバンドが受かるための最適戦略になります。要は一番下手くそなバンドに1位を付けるということです(厳密には当落線上ぎりぎりのバンドを見極めて自分のライバルバンドを予想して下げるほうが最適?要検証)。論理は相互審査のときと同じで、上手いバンドの評価を落とすことで自分のバンドを受かりやすくするということですね。
この「意図しない投票」を防ぐために、合意度の補正をかけています。

実際にシステムを動かしてみた

先程宣伝させていただいたサークルライブのオーディションをこのシステムで行いました。
技術点(リズム、ハーモニー)、コンセプトに沿っているか、魅力(抑揚、アレンジ性、もっと聴きたいか)という観点で全員に審査をお願いした形です。
合格したバンドはライブでのお楽しみということで、ここでは実際にシステムを動かして得た様々な数字についてまとめようと思います。

投票率

エントリーしたのは21バンドでした。ここから上位8バンドを合格とします。審査に参加したのは49名でした。投票率のペナルティは所属バンドがエントリーしてなければ関係ないので一部投票していない人もいましたが、バンドに所属している人に関しては全員が投票していました。

合意度

それぞれの投票の相関係数を計算することで全体として合意のある審査になっているかを確かめます。
49名の任意の2人(49C2=1176ペア)の相関係数の分布は以下のようになりました。

審査員同士の相関係数の分布


また、資料にある通り合意度ペナルティを分ける閾値は0.150としたわけですが、1名だけ合意度が低いとされた以外はしっかりとした合意があり、適切な閾値設定であったと言えるでしょう。この合意度の低い1名を除いた48人での相関係数の分布(48C2=1128ペア)は以下のようになりました。

合意のある審査員同士の相関係数の分布

わざわざ2つ載せる必要はあまりなかったかもしれませんが、傾向として共通した観点を持って審査してもらうと(曖昧性の高い項目を含んでいても)相関係数としては大体0.25~0.75程度に収まるということが言えるのではないでしょうか。資料にあるように事前に過去の音源を用いて予備実験的に審査をし、パラメーター調整をしたのですが、それがとても良く”効いた”結果だと思われます。

バンドごとの点数

理論値としては全員から1位をもらう1点が一番良く、20点くらいが最悪の点数です(自分の所属するバンドには投票できないため、人によって付けられる最下位の数字が異なる)。
1位のバンドは3.58点、最下位は17.28点で、平均は9.85点、当落線は8.67点でした。9位のバンドは0.07点差で落ちていて、当落線ではギリギリの戦いが行われていました。

後日談

研究でもそうですが、やりっぱなしではだめで、評価する必要があります。今回のシステムは本当に正しく、納得できるものであったのかを検討するため、結果が発表された後にGoogle Formでフィードバックを募りました。
質問項目は
・総合的に見てよかったか
・納得できる審査形式であったか
・正しい審査が出来ていると思うか
をそれぞれ,1(とても悪い)~5(とても良い)の5段階評価と自由記述項目で、25人から回答を頂けました。結果は次のとおりです。

総合的に見てよかったか

かなり良い評価を頂けました。6割くらいの人が落ちているので、もっと低い評価があってもおかしくないと思っていただけに、皆さん人間が出来ている。素晴らしいサークルです。

納得できる審査形式であったか

こちらもかなり良い評価を頂きました。全員に投票権があることによって「公平であった」という点が納得性を高めていたようです。特に、最初の方に紹介したとぅるぐさんが行ったアンケートによると、審査を受けた人の2/3が不満を持っているそうで(単純比較できる項目ではないですが)、それを踏まえるとかなり納得性の高い手法であったと思います。

正しい審査が出来ていると思うか

こちらも良い評価。5(とても良い)が付けづらい気持ちもわかりますが、これだけ4が圧倒的に多いのは、総意として確実なバンドは入る一方投票者ごとの好みもあるので、全員それぞれについて受かると思ってたバンドもいれば、意外なバンドも少しあるという結果だったからと予想されます。

自由記述項目のフィードバックに関して

正しさ、納得性についての意見の他に、「 他バンドの演奏をじっくりと聴く機会が得られてよかった」、「 仕事量が多すぎた 」、「 下位のバンドに順位をつけるのが心苦しかった 」というような全バンドを見て評価することについての良し悪しについて様々な意見がありました。どう捉えるかについては幅がありますが、少なくとも全体投票はコストの高い手法であるのは間違いないです。

今後の課題

今回は「納得性」と「正しさ」を重視しシステムを作り、その点に関しては満たせていたと言えるでしょう。その一方、審査の負担や人被りなど、考慮できていなかった点があるのも事実です。また、アプリ化していないことで投票者に負担になっていた部分もありました。足りていなかった部分は更に補強しつつ、コスト削減も両立した手法を目指したいところです。

最後に

とても長くなってしまいました。ここまで読んでいただき誠にありがとうございます。意見や批判など、お気軽にお寄せください。

最後の最後になりますが、サークル員一同が全力で作り上げているということを少しでも感じて頂けたら、ぜひサークルライブに足を運んでいただきたいと思っております。

謝辞

原案を投稿されたとぅるぐさんに感謝します。また、本稿を投稿するにあたってあじわいのむとぅ、あいちゃんには丁寧な添削をしていただきありがとうございました。