2020-01-01から1年間の記事一覧
ChatOpsとは「Chat」と「Ops」を掛けあわせた造語で、Chatをベースにシステム運用(Ops)を行うことを指します。日々のチームコミュニケーションで利用しているSlackのSlashコマンドを利用して、AWSのEC2インスタンスの起動・停止を行えるようにしたので、そ…
勾配ブースティングモデルの1つであるLightGBMを分散処理させるライブラリに、mmlsparkがあります。Microsoftが提供しているライブラリで、Spark上で動かすことで並列分散処理を実現します。既存のLightGBMライブラリでも、推論フェーズにおいては分散処理が…
はじめに Lasso回帰は、正則化された線形回帰手法の1つで、線形回帰にL1正則化項を追加したモデルです。正則化により過学習を防ぐとともに、不要と判断される説明変数の偏回帰係数がゼロになる性質があります。この性質を利用して、目的変数により影響が高い…
大規模データを処理するために、Sparkを活用しています。 先日、Twitter上での投稿に対して、もみじあめさんから、下記コメントをもらいました。 検証したのがだいぶ前なので事情が変わってるかもしれませんが、以前に調べたときは圧縮率とスループットが基…
高次元データ(数百万カラム)に対する特徴量選択 小~中次元データ(数千~数万)に対する特徴量選択 今後の方向性 そもそも製造業では、データサイエンティストが不足しているらしい https://twitter.com/Ishitonton 最近、個人的に製造業現場でのデータ活…
社内で、データサイエンティスト見習い向けに、HadoopやSparkの勉強会を実施しました。 その時の資料を少しだけリバイスしてSpeakerDeckにアップロードしています。 私の会社では、データサイエンティスト・データアナリスト、データエンジニアの育成のため…