社内で、データサイエンティスト見習い向けに、HadoopやSparkの勉強会を実施しました。 その時の資料を少しだけリバイスしてSpeakerDeckにアップロードしています。
私の会社では、データサイエンティスト・データアナリスト、データエンジニアの育成のために、データサイエンティスト協会のスキルチェックシートを参考にしています。 ご存じの通り、ビジネス力・データサイエンス力・データエンジニアリング力という3つの能力がある中で、HadoopやSparkに関する項目は以下のようなものがあります。
★:Hadoop・Sparkの分散技術の基本的な仕組みと構成を理解している。 ★★:Hadoopの得意な点、苦手な点を理解し、Hadoopにて管理すべきデータを選定できる ★★★:Hadoop・Sparkの分散アーキテクチャを理解し、大容量データ処理のパフォーマンスチューニング ができる
今回の勉強会では★1つの部分をクリアしてもらい、データを扱う人間としてのスキルの幅を広げてもらうことを目的としています。
例えば、製造業の製造工程ですと、数万件に及ぶ大量のIoT、センサー情報の中から特徴量選択を行い、機械学習などのモデリングに効きそうなデータに絞り込むことが重要になります。絞り込まないと恐らくモデリングは難しいでしょう。その際にHadoopやSpark等の分散処理技術が、有効な変数を選択する上で重要な要素技術になってくると思います。
統計サイドのバックグラウンドを持つチームメンバーはこういった技術に苦手意識が強いですが、「データにかかわることすべてに責任を持てる人材」を(私も含めて)育成していきたいと考えているため、まずは広く浅くの内容ですが社内で勉強会をした次第です。