For Your ISHIO Blog

データ分析や機械学習やスクラムや組織とか、色々つぶやくブログです。

2020-01-01から1年間の記事一覧

SlackのSlash CommandでサーバレスにEC2インスタンスを起動する

ChatOpsとは「Chat」と「Ops」を掛けあわせた造語で、Chatをベースにシステム運用(Ops)を行うことを指します。日々のチームコミュニケーションで利用しているSlackのSlashコマンドを利用して、AWSのEC2インスタンスの起動・停止を行えるようにしたので、そ…

LightGBMを並列分散処理させるmmlsparkのスケーラビリティを検証した

勾配ブースティングモデルの1つであるLightGBMを分散処理させるライブラリに、mmlsparkがあります。Microsoftが提供しているライブラリで、Spark上で動かすことで並列分散処理を実現します。既存のLightGBMライブラリでも、推論フェーズにおいては分散処理が…

SparkでLasso回帰のハイパーパラメータλをグリッドサーチして特徴量選択する

はじめに Lasso回帰は、正則化された線形回帰手法の1つで、線形回帰にL1正則化項を追加したモデルです。正則化により過学習を防ぐとともに、不要と判断される説明変数の偏回帰係数がゼロになる性質があります。この性質を利用して、目的変数により影響が高い…

Sparkでファイル形式や圧縮形式について実験した

大規模データを処理するために、Sparkを活用しています。 先日、Twitter上での投稿に対して、もみじあめさんから、下記コメントをもらいました。 検証したのがだいぶ前なので事情が変わってるかもしれませんが、以前に調べたときは圧縮率とスループットが基…

製造現場における特徴量選択について

高次元データ(数百万カラム)に対する特徴量選択 小~中次元データ(数千~数万)に対する特徴量選択 今後の方向性 そもそも製造業では、データサイエンティストが不足しているらしい https://twitter.com/Ishitonton 最近、個人的に製造業現場でのデータ活…

データサイエンティスト見習い向けにHadoop/Sparkの勉強会資料を公開しました

社内で、データサイエンティスト見習い向けに、HadoopやSparkの勉強会を実施しました。 その時の資料を少しだけリバイスしてSpeakerDeckにアップロードしています。 私の会社では、データサイエンティスト・データアナリスト、データエンジニアの育成のため…