For Your ISHIO Blog

データ分析や機械学習やスクラムや組織とか、色々つぶやくブログです。

【書評】データサイエンティスト養成読本-ビジネス活用編

『データサイエンティスト養成読本-ビジネス活用編-』を購入し5章まで拝読しました。データ分析界隈の今をときめく著者方が、ビジネス活用のための組織づくりや人材について語っている一冊です。自身にとって、とても実りある一冊でした。また各著者は結構同じ問題意識や志向をお持ちであることもわかりました。

いくつか自分の解釈や経験も踏まえて、いくつか重要な要素を絞って整理しました。

  1. ビジネス価値を定義する
  2. 解釈可能性を考慮する
  3. ビジネス成果までコミットする
  4. 生命線のビジネス業務理解
  5. データドリブンな組織づくり
  6. 機械学習の期待値調整

f:id:ishitonton:20181104131302p:plain

ビジネス価値を定義する

データ分析の効果を、何かしら「定量的な指標」で示すことが非常に重要である。理由は以下。

  • データ分析でビジネス成果を出しているのに、その成果をうまく表現し伝えることに失敗しているケースが多く存在する。
  • データ分析者は、ついOutcome(ビジネス成果)への意識が途切れることがある。

特に、金額換算する意識を持つとよい。金額換算の意識は、データ分析者のビジネス成果への意識を飛躍的に高めることに繋がる。また、「金額」や「収益に近い指標」の方が当然インパクトが大きい。

解釈可能性を考慮する

「凄い分析」ではなく、「活用イメージの湧く分析」を目指そう。新しい分析手法やアルゴリズムの分析結果に関して、現場に対してうまく説明できなければならなし、正しく理解してもらわねばならない。ビジネス成果は『現場』で生まれるので、彼らが納得しないと成果は生まれない。

これは例を挙げると、多少精度の高いDeep Learningを使うか、多少精度は落ちるが解釈可能性が高いロジスティック回帰モデルを利用するか。恐らくこの判断は、解釈可能性と精度を上げると売上がどれくらい上がるのか、等の事業内容や相関性に起因する。解釈可能性と精度は時としてトレードオフな関係にあるはず。

では、新しい分析手法やアルゴリズム試さなくて良いのか?というとそんなことはない。書籍には「余力があれば挑戦するぐらいが望ましい」と記載してあったが、個人的には5%~10%くらいは新たな取り組みに挑戦する時間を業務内に取り入れるべきと考える。

理由としては、メンタルモデルが拡大しないこと、メンタルモデルが拡大しないと事業の成長はストップする、ステイすることは停滞することを意味するため。自動化できる分類作業等をマンパワーでやりまくっている組織は結構多いと思う。これは単純に自動化できることを知らないケースがかなりあると思う。

ビジネス成果までコミットする

分析結果を「現場に丸投げ」せずに、名指しする勢いで具体的に誰が何をやるべきか、得られるビジネス成果を提示しよう。理由は以下。

  • ほったらかすと、いつまでもデータ分析の結果が実務で活かされない。
  • ビジネス成果が出る可能性を他者に委ねることになる。

ついつい分析者は、分析結果で満足してしまう難がある。私自身もよくある!後は良しなに的な気持ちもなることもあるが、ビジネス成果が出ないと、その分析はコストでしかない。データ分析者が積極的に現場をリードするくらいやろう。

また、特にデータ分析経験の少ない現場であれば、二人三脚でビジネス成果まで積極的に関与しよう。もし、それが機械学習のプロジェクトであれば、そもそも意識的に協力体制を作らないと疎結合になってしまう。特徴量の中身もよくわからんでおわる。

生命線のビジネス業務理解

データアナリストは、ビジネス成果が出る『現場』の業務を理解しよう。その理由は以下。

  • 現場を知らない人が積極的に現場の思い込みを語ることはできない。
  • 現場を知らない人の言葉に現場は耳を傾けない。
  • 現場の業務を知ると、データ分析結果に具体性が宿る。
  • データ分析結果に具体性が宿ると、現場は動きやすくなり、データ分析によるビジネス成果を得る可能性が高くなる。
  • データは、実際に起こった事象のほんの一部に過ぎない。多くの事象はデータとして記録されていない。

ビジネスの多くは人と人のコミュニケーション。お互いのことを知らずして信頼関係は築けない。現場に自分を知ってもらい信頼関係を築くために、常日頃努力する必要がある。積極的に知ろうとする姿勢も大事。

一番善き方法は、実際の一定期間業務経験をすること。これはビジネス側が協力的になる副次効果もある。

データドリブンな組織づくり

数字に基づいたPDCA、意思決定を行える「データドリブンな組織」を作っていくことは非常に重要である。その理由は、この不確実性が極めて高い世の中において、少しでもその不確実を低下させて事業を推進していくためには、データを中心に意思決定ができる組織が重要と考えるからである。

データドリブンな組織を作っていくためには、社内のメンバーのデータリテラシーを高めていくことが非常に重要です。そのために各社は色々トライしています。

  • ダッシュボードで、分析結果が誰からでも見れるようする。
  • ダッシュボードで、分析結果をすぐに見れるようにする。
  • みんなが見て、使ってもらえる「愛されダッシュボード」を作ることを意識する。
  • Slackで、分析結果を誰でもすぐに議論できるようにする。
  • Slackで、重要なKPIをプル配信し、データ意識を浸透させる。
  • Slackで、データ分析に興味あるメンバーが議論や質問できるチャネルを作成する。
  • 各部署で、簡易的な分析を実行できるデータ民主化を進める。例えば、Githubへのクエリ知見蓄積など。
  • ときに、営業サポートになってしまう組織が多々ある。それを回避するためBI環境を整備する。

上に挙げた「ビジネス成果の定量化」の観点で言えば、このデータ意識の醸成などは、Slackのチャネル参加人数数や議論の数、コメントをくれているユニークユーザ数などで、どの程度社内に浸透できているかを評価できる気もするなと思います。

また、組織として長期的にデータドリブンに成長していくためには、1人のスーパーマンに依存せずに、分業しスケールできるチーム体制も重要です。ビジネススキルを補うチーム編成、すなわち各分野に精通した人材と協同して動ける体制が、組織の成長をドライブするはず。

機械学習の期待値調整

機械学習は、ときにビジネスサイドやクライアントから、現実とはかけ離れた期待値を投げかけられることがあります。そもそも、機械学習の特性として、最初から精度の保証ができないため、正しい期待値を持ちにくいという特性があります。以下を意識して取り組もう。

  • 機械学習自体がボトルネックになるサービスかを調査しよう。
  • POCを通じてフィージビリティを確認した上でプロジェクトを進めよう。
  • ビジネス価値を定義して、機械学習を導入することへの期待値が整理しよう。これは、リリース後の成功を定量的に評価できるようにもなる。
  • 期待値は「現実ライン」「最低ライン」「理想ライン」で提示しよう。
  • 機械学習を使わないという選択肢も持とう。
  • 仮にSI事業の場合、「一定の精度を超えたら検収」は双方にとってリスク。精度による追加ボーナスやレベニューシェア等、契約方法は考えよう。
  • 保守管理のことを恐らく考えてない場合が多い。精度劣化は回避できないし、勝手に壊れていく、継続的な学習が必要なことも理解してもらおう。

以上です。