SlackのSlash CommandでサーバレスにEC2インスタンスを起動する

slack slash command AWS lambda Amazon API Gateway EC2 ChatOps

ChatOpsとは「Chat」と「Ops」を掛けあわせた造語で、Chatをベースにシステム運用（Ops）を行うことを指します。日々のチームコミュニケーションで利用しているSlackのSlashコマンドを利用して、AWSのEC2インスタンスの起動・停止を行えるようにしたので、そ…

LightGBMを並列分散処理させるmmlsparkのスケーラビリティを検証した

Spark LightGBM Hadoop mmlspark

勾配ブースティングモデルの1つであるLightGBMを分散処理させるライブラリに、mmlsparkがあります。Microsoftが提供しているライブラリで、Spark上で動かすことで並列分散処理を実現します。既存のLightGBMライブラリでも、推論フェーズにおいては分散処理が…

Spark lasso回帰正則化 python 特徴量選択

はじめに Lasso回帰は、正則化された線形回帰手法の1つで、線形回帰にL1正則化項を追加したモデルです。正則化により過学習を防ぐとともに、不要と判断される説明変数の偏回帰係数がゼロになる性質があります。この性質を利用して、目的変数により影響が高い…

大規模データを処理するために、Sparkを活用しています。先日、Twitter上での投稿に対して、もみじあめさんから、下記コメントをもらいました。検証したのがだいぶ前なので事情が変わってるかもしれませんが、以前に調べたときは圧縮率とスループットが基…

製造業特徴量選択 Spark Hadoop LightGBM

高次元データ（数百万カラム）に対する特徴量選択小～中次元データ（数千～数万）に対する特徴量選択今後の方向性そもそも製造業では、データサイエンティストが不足しているらしい https://twitter.com/Ishitonton 最近、個人的に製造業現場でのデータ活…

hadoop spark データサイエンス

社内で、データサイエンティスト見習い向けに、HadoopやSparkの勉強会を実施しました。その時の資料を少しだけリバイスしてSpeakerDeckにアップロードしています。私の会社では、データサイエンティスト・データアナリスト、データエンジニアの育成のため…