For Your ISHIO Blog

データ分析や機械学習やスクラムや組織とか、色々つぶやくブログです。

DataRobotは想像以上に凄かった。ハンズオンで実機を触ってみて。

AI Experience 2018 Tokyoというイベントに遅れて参加。DataRobot社が主催するイベントで、恵比寿のウェスティン東京で開催されました(お金持ち)。その中でハンズオンセッションがあり、機械学習自動化プラットフォームDataRobotを初めて触ってみました。

結論的には、自分の想像以上にDataRobotは凄かったです。写真撮影などはできなかったので、文章だけで悪しからず(伝わらんかも)。

ai-experience.jp

目次

AIの民主化とは

DataRobotは「AIの民主化」を促進すると謳われているので、まず「AIの民主化」について定義したいと思います。既に色々な人が定義してくれていて、例えばトランス・コスモスの東さんの講演では、

AIの民主化とは、データ分析をやってこなかった人が、データ分析ができるように育てていく。シチズンデータサイエンティストを育てていく。育った状態が民主化ができた状態

と定義しています。

また、リクルートテクノロジーの野川さんの講演では、

AIを自由かつ適切に活用している状態。価値が出る場所で自由かつ適切にAIが活用されること

と定義しています。いずれにしても、誰でもAIを自由に活用できるという認識は過度な期待です。

DataRobotとは

DataRobotについては、下記をご覧ください。とにかく容易に高速にモデルを構築でき活用できる。リクルート・テクノロジーさんは、これまでに社内の100人以上がDataRobotを活用してモデル構築を行っており、その数44万モデル! 凄い。。。

www.datarobot.com

ここが凄かったDataRobot

DataRobotは、AIの民主化の促進が可能なソフトウェアであると感じました。理由を下記に示します。

前処理とか基本統計量などが自動化

DataRobotにテーブル形式のデータを投入すると、分析が開始するわけなのですが、データインポートしたタイミングで、各特徴量の欠損値処理や基本統計を行い、データの傾向をグラフで確認することができます。コード書けばできることですが、それをいい感じのvisualizeで直ぐに描写してくれるので、データの全体像理解を促します

1つの予測に自動で数十個のモデルが試される

1つの予測の実行で数十個のモデルがキューに自動投入され、学習を開始します。トップのデータサイエンティストであれば、こういうの自動化していると思いますが、私レベルだとそんなに何十個もアルゴリズム試せないので、それがワンクリックで実行してくれます。非常に簡易的であり、超高速化が可能だと思いました。

なお、一般的なアルゴリズムDataRobotが独自に開発したアルゴリズムの両方がキューに入ります。LGBやXGBなども含まれていましたし、自分でモデルを定義してインポートすることも可能だそう。

少しインポートデータと学習の間の処理はブラックボックスな部分はありますが、Top Kagglerが設立した会社なので、その前処理の知見が詰まっているようです。

優先順位をつけ、リソースを有効活用

上記の40個の学習モデル。全てを並列に扱いません。DataRobotのUIは、学習が完了した精度が高いモデルから降順にソートされるので、分析者も精度の悪いモデルに意識を取られることがないです。また、ソフトウェア自体も精度が高いモデルを優先度が高いモデルとし、モデルの評価や解釈性部分の計算にリソースを投下してくれる。

評価や解釈性も担保されている

たくさんのモデルの中から、どのモデルを選ぶのかは分析者です。そのためのROC曲線や混同行列(Confusion Matrix)、特徴量重要度(feature importance)、部分従属プロット(partial dependency plot)など、評価や解釈のための様々な情報が用意されています。ソフトウェアの簡易性が上昇するほど、解釈性などはブラックボックス化されることを想像していたが、そうなっていないのがDataRobotの素晴らしいところです。カーソルを合わせると動的にパラメータを変動させて確認したりもできました。

DataRobotでどう進むの世の中は?

DataRobotによって、確実にビジネスサイドの人材がデータサイエンス側の業務に取組んでいく敷居が下がったと感じます。また民主化の促進により、データサイエンティストに求められる部分も変わってくると思います。データ前処理スト。特徴量エンジニア。。。so on