AI Experience 2018 Tokyoというイベントに遅れて参加。DataRobot社が主催するイベントで、恵比寿のウェスティン東京で開催されました(お金持ち)。その中でハンズオンセッションがあり、機械学習自動化プラットフォームDataRobotを初めて触ってみました。
結論的には、自分の想像以上にDataRobotは凄かったです。写真撮影などはできなかったので、文章だけで悪しからず(伝わらんかも)。
目次
AIの民主化とは
DataRobotは「AIの民主化」を促進すると謳われているので、まず「AIの民主化」について定義したいと思います。既に色々な人が定義してくれていて、例えばトランス・コスモスの東さんの講演では、
AIの民主化とは、データ分析をやってこなかった人が、データ分析ができるように育てていく。シチズンデータサイエンティストを育てていく。育った状態が民主化ができた状態
と定義しています。
AIを自由かつ適切に活用している状態。価値が出る場所で自由かつ適切にAIが活用されること
と定義しています。いずれにしても、誰でもAIを自由に活用できるという認識は過度な期待です。
DataRobotとは
DataRobotについては、下記をご覧ください。とにかく容易に高速にモデルを構築でき活用できる。リクルート・テクノロジーさんは、これまでに社内の100人以上がDataRobotを活用してモデル構築を行っており、その数44万モデル! 凄い。。。
ここが凄かったDataRobot
DataRobotは、AIの民主化の促進が可能なソフトウェアであると感じました。理由を下記に示します。
前処理とか基本統計量などが自動化
DataRobotにテーブル形式のデータを投入すると、分析が開始するわけなのですが、データインポートしたタイミングで、各特徴量の欠損値処理や基本統計を行い、データの傾向をグラフで確認することができます。コード書けばできることですが、それをいい感じのvisualizeで直ぐに描写してくれるので、データの全体像理解を促します。
1つの予測に自動で数十個のモデルが試される
1つの予測の実行で数十個のモデルがキューに自動投入され、学習を開始します。トップのデータサイエンティストであれば、こういうの自動化していると思いますが、私レベルだとそんなに何十個もアルゴリズム試せないので、それがワンクリックで実行してくれます。非常に簡易的であり、超高速化が可能だと思いました。
なお、一般的なアルゴリズムとDataRobotが独自に開発したアルゴリズムの両方がキューに入ります。LGBやXGBなども含まれていましたし、自分でモデルを定義してインポートすることも可能だそう。
少しインポートデータと学習の間の処理はブラックボックスな部分はありますが、Top Kagglerが設立した会社なので、その前処理の知見が詰まっているようです。
優先順位をつけ、リソースを有効活用
上記の40個の学習モデル。全てを並列に扱いません。DataRobotのUIは、学習が完了した精度が高いモデルから降順にソートされるので、分析者も精度の悪いモデルに意識を取られることがないです。また、ソフトウェア自体も精度が高いモデルを優先度が高いモデルとし、モデルの評価や解釈性部分の計算にリソースを投下してくれる。
評価や解釈性も担保されている
たくさんのモデルの中から、どのモデルを選ぶのかは分析者です。そのためのROC曲線や混同行列(Confusion Matrix)、特徴量重要度(feature importance)、部分従属プロット(partial dependency plot)など、評価や解釈のための様々な情報が用意されています。ソフトウェアの簡易性が上昇するほど、解釈性などはブラックボックス化されることを想像していたが、そうなっていないのがDataRobotの素晴らしいところです。カーソルを合わせると動的にパラメータを変動させて確認したりもできました。
DataRobotでどう進むの世の中は?
DataRobotによって、確実にビジネスサイドの人材がデータサイエンス側の業務に取組んでいく敷居が下がったと感じます。また民主化の促進により、データサイエンティストに求められる部分も変わってくると思います。データ前処理スト。特徴量エンジニア。。。so on