For Your ISHIO Blog

データ分析や機械学習やスクラムや組織とか、色々つぶやくブログです。

Spark

LightGBMを並列分散処理させるmmlsparkのスケーラビリティを検証した

勾配ブースティングモデルの1つであるLightGBMを分散処理させるライブラリに、mmlsparkがあります。Microsoftが提供しているライブラリで、Spark上で動かすことで並列分散処理を実現します。既存のLightGBMライブラリでも、推論フェーズにおいては分散処理が…

SparkでLasso回帰のハイパーパラメータλをグリッドサーチして特徴量選択する

はじめに Lasso回帰は、正則化された線形回帰手法の1つで、線形回帰にL1正則化項を追加したモデルです。正則化により過学習を防ぐとともに、不要と判断される説明変数の偏回帰係数がゼロになる性質があります。この性質を利用して、目的変数により影響が高い…

製造現場における特徴量選択について

高次元データ(数百万カラム)に対する特徴量選択 小~中次元データ(数千~数万)に対する特徴量選択 今後の方向性 そもそも製造業では、データサイエンティストが不足しているらしい https://twitter.com/Ishitonton 最近、個人的に製造業現場でのデータ活…

データサイエンティスト見習い向けにHadoop/Sparkの勉強会資料を公開しました

社内で、データサイエンティスト見習い向けに、HadoopやSparkの勉強会を実施しました。 その時の資料を少しだけリバイスしてSpeakerDeckにアップロードしています。 私の会社では、データサイエンティスト・データアナリスト、データエンジニアの育成のため…

Hadoop / Spark Conference 2019 参加メモ

3月14日(木)にHadoop / Spark Conference 2019が開催されました。このイベントの参加メモになります。 hadoop.apache.jp 目次 プログラム 1. Hadoopの現在と未来:鯵坂 明さん、Arpit Agarwalさん 「Hadoopの利用状況」に関する事前アンケート結果 並列分…