For Your ISHIO Blog

データ分析や機械学習やスクラムや組織とか、色々つぶやくブログです。

LightGBM

LightGBMを並列分散処理させるmmlsparkのスケーラビリティを検証した

Spark LightGBM Hadoop mmlspark

勾配ブースティングモデルの1つであるLightGBMを分散処理させるライブラリに、mmlsparkがあります。Microsoftが提供しているライブラリで、Spark上で動かすことで並列分散処理を実現します。既存のLightGBMライブラリでも、推論フェーズにおいては分散処理が…

製造現場における特徴量選択について

製造業特徴量選択 Spark Hadoop LightGBM

高次元データ（数百万カラム）に対する特徴量選択小～中次元データ（数千～数万）に対する特徴量選択今後の方向性そもそも製造業では、データサイエンティストが不足しているらしい https://twitter.com/Ishitonton 最近、個人的に製造業現場でのデータ活…