COLUMN

今村友紀 〈出版×デジタル〉の未来予想図 〜作家・今村友紀による『ツール・オブ・チェンジ』精読〜

今村友紀 〈出版×デジタル〉の未来予想図 〜作家・今村友紀による『ツール・オブ・チェンジ』精読〜
#09:データが教える「ヒット作」の秘密 -「データ」の未来予想図(後編)

今村さんTOCコラムロゴ

#09:データが教える「ヒット作」の秘密 -「データ」の未来予想図(後編)

 これまでにも、「ベストセラーの法則」なるものがあちこちで議論されてきたが、いまだにこれといった答えは出ていない。出版社、編集者、著者、あるいは書店などの業界関係者は、誰でもベストセラーを出したいと思っているだろう。
 では、ベストセラーには何か共通する要素・特徴があるのだろうか? それが分かれば、まさにベストセラーを「狙って出す」ことが可能になるはずだ。
 今回の記事では、『ツール・オブ・チェンジ』ではそれほど深く触れられている項目ではないが、興味深い事例として、外国での研究結果や、筆者が経営するCRUNCHERSがこれまでに行ってきた研究に触れながら、こうした点について考えてみたい。

《今回のまとめ》
○映画の中身や、野球選手の才能といった、これまでもっぱら人の経験的判断によってその質が評価されてきた領域にまで、データ革命の力が押し寄せており、出版コンテンツの善し悪しもデータで判断できる可能性が見えてきた。
○出版の中心となるテキストデータを分析する技術が発展すれば、売れる小説、売れる作家を高い精度で素早く見分けることができるようになる他、書き手の成長に寄与するフィードバックを与えられるようにもなる。
○データを「物語」に変換する技術と、コンテンツの「ヒット要因」を細かく分析する技術が合わさってゆくことで、小説などのコンテンツをコンピューターが自動生成する時代が、それほど遠くない未来にやってくる可能性が高い。

○データが解き明かすヒットの法則
 少し古い本になるが『その数学が戦略を決める』(イアン・エアーズ、山形浩生・訳、文春文庫、2010年)という本に、エパゴギクス社という英国の会社の事例が出ている。
 この会社は、ニューラルネットワークという機械学習のメソッドを用いて、映画の収益を的確に予測できることで有名になった。映画の脚本をもらい、そのストーリー上の特徴を何千もインプットさせ、コンピューターに計算をさせることで、作品の興行収入を予測できるというのだ。
 その精度は、同社を特集した『クーリエ・ジャポン』2013年11月号によれば、「83%のケースにおいて、予測の誤差は1000万ドル以内に収まる」ということだ。ハリウッド映画は、数千万ドルから数億ドルもの興行収入に達する作品が多いことを考えれば、この予測はビジネス上の意志決定に十分役に立つと言える。
 エパゴギクス社は、過去の多種多様なハリウッド映画のストーリーとその興行収入データを使ってニューラルネットワークに「学習」させることで、こうした予測を可能にした(=教師あり学習)。同社は収益予測の結果を踏まえ、映画の脚本作りを制作サイドにアドバイスすることをビジネスにしている
 たとえば、もし予算が厳しいなら、多額のギャラを払う必要がある大物の役者は使わず、無名だが実力のある役者を使えばいい。役者の知名度によって興行収入はほとんど変わらないからだ。他にも、映画の舞台によって収益が大きく変わることや、どれだけ多額の宣伝予算があってもストーリーが駄目なら全然売れないことなどが分かっているという。

 むろん、こうしたシステムがあれば、誰でも空前の大ヒットと呼べるような傑作が作れるというわけではない。同社にできるのは、映画の複雑な構成要素を1つ1つ検証し、収益の予測と改善のためのアドバイスをすることだけだ。最後には、やはり制作者が必死で作品を創らなければならないことには変わりはない。
 ただ、同じ労力を費やして作品を創り上げるにしても、データに基づく分析結果を手にしていれば、そうでないときに比べて、より高い収益を上げられる、あるいは巨額の損失を避けられる可能性が高い。
 しかもこうした分析結果は、人間が長年の経験や勘から導き出したものと違って、データによる裏付けがあり、再現性がある。何十年も現場で働いてきた映画監督やプロデューサーしか持ち得なかったようなノウハウを、データ分析によって手に入れられるのだ

○野球選手の才能をアルゴリズムで発掘
 他にも興味深い事例はたくさんある。ネイト・シルバー氏の『シグナル&ノイズ 天才データアナリストの「予測学」』(日経BP社、2013年)では、米国の大統領選挙における「オバマの勝利」をデータに基づいた予測で完璧に的中させた著者が、プロスポーツや金融、天気予報などの豊富な事例をあげてデータによる予測の可能性と限界を述べている。
 そのなかで特に興味深いのは、メジャーリーグにおける若手選手の発掘にアルゴリズムを用いている事例だ。大物のメジャーリーガーに何千万ドルも払うより、年俸が遙かに安いが才能のある若手選手を発掘してチームを勝利に導く方が費用対効果が高い。
 そこで著者のシルバー氏は、野球における様々な統計情報を発表しているベースボール・プロスペクタス誌のために、PECOTAと呼ばれる選手評価システムを開発した。野球は、すべての選手の行動履歴が事細かに記録されているため、こうした大量のデータを使うことで将来大化けするスター選手をいち早く発掘できると考えたわけだ。
 このPECOTAでは、「1.選手のデータの背景を説明する」「2.運と実力を区別する」「3.選手の実力が年齢とともにどう変化するか——エイジング・カーブ——を理解する」という3つの基本要件を満たすことを目標にしているようだ。
 球場による打率の違いを認識し、運によって成績に若干の上振れ・下振れがあることを考慮にいれ、年齢による成績の上昇・下降を念頭に置く。そうした慎重なモデル作りを経て、PECOTAは完成した。
 様々な指標(WARP – Wins Above Replacement Player)などからPECOTAのスカウト能力を判定したところ、筆者が正直に述べている通り、その実力はプロのスカウトにわずかに及ばなかったようだ。しかし、アルゴリズムだけでプロのスカウトに迫るほどの力を発揮したことは特筆すべきことである。
 著者に言わせると、アルゴリズムと、プロのスカウトの選別眼は、何も互いに敵対するようなものではない。氏はアルゴリズムとスカウトの力を合わせれば、より効果が発揮されるはずだと主張している。
 映画の中身や、野球選手の才能といった、これまでもっぱら人の経験的判断によってその質が評価されてきた領域にまで、データ革命の力は押し寄せているのだ。

○「売れる小説」に共通する要素を突き止める
 筆者は、同じようなことが出版の分野でもできるのではないかと考え、自身が経営するCRUNCHERS株式会社の資金と人員を動員し、2013年の夏から秋にかけて、小説のヒット分析を試験的に行ってみた。
 まず、有名な文学賞受賞作品やベストセラーリストに載った小説作品を数百作品集め、そのなかからランダムに数十作品を選び出して分析対象作品とする。続いて、それらの作品を東大文学部の学生を中心とした複数のスタッフで熟読し、それぞれのストーリー上の特徴を数十項目ほどにまとめる。そうして得た作品の特徴データと、その作品に対するネット上の評価との相関をコンピューターを用いて計算させた(あいにく小説の売上データは手に入らなかったため、ネット上の評価値で代替させた)。
 その結果大まかに分かったことは、主人公のキャラクター設定と、作品が持つテーマの普遍性が、評判に影響を与えていることだ。
 よくライトノベル業界では「キャラが立つことが大事」と言われるが、私たちの調査では主人公が「優れた人物」であるときに評判が高くなることが分かった。具体的には、仕事や学業などで能力が高かったり、あるいは非常に善良な性格をしていたり、何かしらの特殊能力を持っていたりと、ポジティブな要素が多い主人公のとき、顕著に評判が高くなるようだった。
 そしてもう一つの要因が、作品が訴えかける感情だ。親子関係、恋愛、青春など、多くの人が体験したことがあることや、気持ちを理解できるものを扱っている作品ほど評判は高くなる傾向にある。
 データを見た限り、その他の要素、たとえばプロットの構成や、文体といったものは、ほとんど評判に相関していないように思える。もちろん、もう少し分析対象の小説を増やしたり、ジャンルごとに細かく見ていけば、微妙な差異はあるだろう。また、そもそも分析対象の小説はベストセラー作品や文学賞受賞作なので、ニッチな作品を扱っていけば結果が異なる可能性は十分にある。
 ただ、大量の部数を売ることを目的に商業出版される小説についていえば、このような簡単な調査でも、上に挙げた2点(つまりキャラクターとテーマ)の影響力を認めるに十分なデータにはなる
 考え方としては、マスメディアが行う世論調査や視聴率調査に似ている。数百から最大でも1,000人ほどの有権者・視聴者に対して調査を行うだけで、全国の有権者・視聴者の動向がある程度は分かる。同様にして、ある程度ランダムに作品を選んだ上で分析を行えば、その結果は、母集団の傾向をそれなりに反映していると考えられる。

 同様の調査を、筆者らは映画についても行った。
 エパゴギクス社のニューラルネットより、シンプルな相関分析の方が手始めにはいいだろうという判断のもと、どういう要因が売上げに結びつくかを100作品ほどについて調べてみた。このときは、映画学科に在籍する学生たちにも手伝ってもらい、ひたすらDVDを見まくり、作品の内容をチェックしてもらうという人海戦術を行った。
 すると映画については、キャラクターやテーマより、クライマックスシーンの盛り上がりや、プロットのテンポの良さが売上げに影響していた。2時間という限られた時間で作品を鑑賞することを考えれば、最も印象に残るクライマックスシーンと、それに向けて物語がテンポ良く進んでいくかどうか、といったポイントが重要なのも頷ける。
 一方、キャラクター造形はほとんど売上げに関係がない。これは小説の結果と比べると意外だったが、理解できないことはない。何しろ、映画では生身の役者が演技をする。文章だけの小説と違い、キャラを立てるためにあれこれ工夫しなくても人物を印象づけやすいため、作品間でそれほど差がでないのだろう。
 細かい検証結果をここに記すことはしないが、大まかに言えば、小説は「キャラクターとテーマ」、映画は「プロットとクライマックス」が重要な要素なのだということが分かった。

 以上のようなことを、以前B&Bで行った、コルク代表の佐渡島庸平氏との対談で述べたところ、氏から「そういう分析の結果って、プロの編集者や映画プロデューサーなら既に知っているようなことでしょう?」といった旨の指摘を得た。
 実のところ、その指摘は的を射たものであり、これまで筆者が会ってきた編集者や作家もみな、決まって同じことを口にする。「その結論って、ありきたりだよね」と。
 ただ、ここで重要なのは、筆者らの得た知見がありきたりかそうでないか、ということではない。そもそも、ある作品が非常にたくさんの人に受け入れられるとしたら、それが「ありきたり」な要因によるものであることは多いはずだ
 大切なことは、筆者らの結論が新鮮かありきたりか、といったことではなく、筆者らが直感や経験を頼りに自分たちの考えを述べているのではなく、作品の丁寧な解釈とコンピューターによる計算を組み合わせ、客観的な分析結果を導き出すことによって結論を得ている点だ。
 プロの編集者や映画プロデューサーが長い時間をかけて様々なことを経験し、自信を深めてゆくことなしには身につかないノウハウが、数ヶ月のシンプルな研究で明らかになる。そしてその結果は明示的な研究プロセスと数字に基づいているので再現性があり、分析の手法や結果に誤りがあった場合も、その原因を検証し、改善を重ね、分析の精度を高めてゆくことができる。

○テキストデータをまるごと分析する
 こうした発想を推し進め、筆者らは分析対象の作品を増やすとともに、特に小説を中心とした文章コンテンツを効率よく的確に評価するため、テキスト全文をまるごとコンピューターで解析する技術の開発を続けてきた。すべてのテキストを自然言語処理にかけて単語に分解し、出てくる語の出現頻度を集計。それらを使って文章を高次元ベクトルデータに変換したのち、筆者らが独自に用意した小説用の語彙セットや他の文章セットとの比較・突き合わせをしたり、様々なアルゴリズムを用いて集計を行うことによって知見を得る、というものだ。
 そうした技術を使えば、たとえば、ある文章と別の文章がどのくらい似ているか(意味的に、あるいは文体的に)を簡単に判定することができる。自分の書いた作品が他のどの作家の文章に近いかが分かるし、そのような類似度のデータを集めてクラスター分析と呼ばれる手法を用いれば、人気が出ている作品群、そうでない作品群、などを任意の粒度でグルーピングすることができる。
 語彙の豊富さや、他の作品と比較した際の「語彙の独特さ」といった指標も、品詞ごとに計算できる。こうした指標は書き手にとって自分の強みや弱みを知る上で参考になるし、語彙と売れ行きの関係を調べたりすることもできるようになってくるだろう。
 そのほかに見つけた知見としては、商業出版された文学賞受賞作やベストセラー作品は、いずれも言葉遣いに一定の傾向が見られることがある。具体的には、各語句の使用頻度に関して、「ジップの法則」と呼ばれる法則性がはっきりと成立することがわかった(詳しくはwikipediaなどを参照されたい)。
 これは文章に使われているすべての語句を使用頻度順に並べたときの順位と、各語句の出現頻度との間に一定の数学的規則性が成り立つことを示すもので、その法則から逸脱したものは、「不自然な」あるいは「理解しがたい」文章であると判定できる。実際に筆者運営のクランチマガジン上に投稿された作品についてジップの法則から逸脱する作品を検出してみると、名詞を羅列しただけの作品、すべてが体言止めの作品、日本語でない作品、意図的に不自然な言葉遣いをした詩などが弾かれた。
 もっとも、あえて不自然な言葉遣いをして読者に強い印象を与える詩や小説もあるだろうから、そのことが「悪い」というわけではないことには注意が必要だ(単に「大部数を売る商業出版作品としては不自然」なだけだ)。

 さらに、直近で筆者らが取り組んでいる最大のテーマは、これまでの基礎的な研究を発展させ、小説に書き込まれている「感情」を見分けられるようになることだ。いま現在は、そのテスト段階として、作品の雰囲気が「ネガティブ」か「ポジティブ」かを、物語の展開に応じて波形のように表示するプログラムが完成している。
 なお、筆者運営のクランチマガジンでは、こうした様々な統計手法による分析結果や、サイト内での反響や偏差値などの統計指標を作品ごとに見ることができるようになっている。

拙著「マスカレイドの零時」分析データ。 グラフの赤い線は「ポジティブな印象の強さ」、青い線は「ネガティブな印象の強さ」、黄色い線は「両者の合成」。

拙著「マスカレイドの零時」分析データ。
グラフの赤い線は「ポジティブな印象の強さ」、青い線は「ネガティブな印象の強さ」、黄色い線は「両者の合成」。

拙著「死都の夜明け」分析データ。

拙著「死都の夜明け」分析データ。

 出版サイドが「売れる作品を選び出す」という目的を持っている場合、その目的にそぐわない作品を除外するための、いわゆる「足切り」を行うなら、これまで説明したような指標を使ってテキストをフィルタリングすれば早い。読むに耐えないもの、商業出版物としての品質に疑問符がつくものは一瞬で検討の対象外にできる。
 ただし、当たり前だが、こうした文体の診断だけではその小説が「ベストセラー」になるかどうかは分からない。アップサイドの成功を狙うには、先に述べたような、キャラクター造形やテーマについて、詳細に検討する必要がある。そしてこれまた当然だが、そのような検討があったからといって100%売れると断言できるわけでもない。データに基づく予測は天気予報と同じで、常に「確率」や「誤差」がつきまとう。「1か0か」の定性的判断を求められても仕方がないが、逆に言えば、確率や誤差を示すからこそ、不確定要素を判断する際に真の意味で役に立つのだ

 筆者らがこうした研究を本格的にはじめたのは2013年の夏からだ。この半年に満たない期間でも色々な発見があったが、この調子で分析モデルやプログラムを磨いていけば、エパゴギクス社が映画で行ったように、書き手の才能や作品の収益性をプログラムで判定し、出版社や著者にアドバイスをすることが十分な精度で、大規模に行えるようになるだろうと予測している。

○データから物語を「自動生成」する時代がやってくる
 この種の研究は、今後、各方面で進んでゆくと思われるが、その先には小説や詩をコンピューターが自動生成する時代が到来するだろう。「いい作品」の条件が、データに基づいて細かく分かってくれば、それを満たすような文章を自動生成することもできるようになるはずだからだ。
 現時点でも、既に「データ」から「物語」を自動生成するようなツールは、スポーツや金融系の速報ニュースを皮切りに導入が始まっている。その事例は『ツール・オブ・チェンジ』第4章の「データを物語に変換する」(ジェン・ウェブ著)でも紹介されている。
 ウェブ氏がインタビューしているナラティブ・サイエンス社のCTO、クリスチャン・ハモンド氏はこう語る。

    私たちはスポーツ、金融、不動産、そして政治の分野においてストーリーを作り出しています。またさまざまな企業と協力し、ビジネス・データを顧客レポートやフランチャイズ・ステートメント、顧客コミュニケーションという名のストーリーに変えています。それをひとことで言えば、大きくなりつつあるビッグ・データのなかで見いだされる事象に声を与えるというものです。
    ――クリスチャン・ハモンド氏

 データを物語に変換する、といえばなんだか難しそうだが、実際のサービスはしごく単純だ。たとえば日経平均株価のデータが与えられると「本日の日経平均終値は○○円で、前日終値より○○円上昇し……」といった文言を出力してくれる。そうすると、その種の速報ニュースを人間が書く必要がなくなる。
 これだけ聞くと「そんな単純なものは物語とは呼べない」と思う読者の方が多いかも知れない。しかしニュースだってれっきとした、起承転結のある物語である。いまはシンプルな速報ニュースやレポートしか作れないにしても、こうした技術が発展し、やがて人間の感情に訴えかける言葉を発するようになっても不思議ではない。そうした状況が来るまで何年かかるか。筆者は、それほど長い時間はかからないとみている。
 科学技術は常に人間の予想を上回るペースで進み、「それはありえない」と思うくらいのことは、大抵、やすやすと起こってしまう。今後20年を見据えたとき、職業的物書きや編集者といった存在はほぼ跡形もなく消え去り、今より遙かに少数の(そして運に恵まれた)突出した才能の持ち主だけが生き延びる形になると筆者は考えている
 裏を返せば、ほとんどの業界人は、技術を学び続き、技術についていき、技術を使う側にならなければ生き残れない。その確信があるからこそ、筆者は、技術書を読み、コードを書き、専門家の言葉に耳を傾けながら事業を切り盛りしている次第である。

 次回は、これまでの連載の総括的な意味合いも込めて、これからの出版をめぐる、市場や制度を含む「エコシステム」について考えてみたい。

[#09:データが教える「ヒット作」の秘密 -「データ」の未来予想図(後編) 了]


PROFILEプロフィール (50音順)

今村友紀(いまむら・ともき)

作家。1986年秋田県生まれ。CRUNCHERS株式会社CEO、CRUNCH MAGAZINE編集長。主な小説作品に『クリスタル・ヴァリーに降りそそぐ灰』『ジャックを殺せ、』など。 http://crunchers.jp/ https://i.crunchers.jp/


PRODUCT関連商品

COURRiER Japon (クーリエ ジャポン) 2013年 11月号

雑誌
出版社:講談社
発売日: 2013/9/25