Fakerというライブラリは、個人名や住所などのダミーデータを作成してくれます。テストデータを作る際に便利です。だいぶ前からあるようですが、最近知りました。 faker.readthedocs.io ライブラリのインストール pip install faker 実行してみる from faker…
仕事で外部の人に機械学習などの講習をする機会があったのですが、「機械学習モデルの作り方はわかったけど、それ以外のシステム実装などについても知りたい」という声がありました。いわゆるMLOps的な話の包括的な理解を得るために、積読していた下記書籍を…
ChatOpsとは「Chat」と「Ops」を掛けあわせた造語で、Chatをベースにシステム運用(Ops)を行うことを指します。日々のチームコミュニケーションで利用しているSlackのSlashコマンドを利用して、AWSのEC2インスタンスの起動・停止を行えるようにしたので、そ…
勾配ブースティングモデルの1つであるLightGBMを分散処理させるライブラリに、mmlsparkがあります。Microsoftが提供しているライブラリで、Spark上で動かすことで並列分散処理を実現します。既存のLightGBMライブラリでも、推論フェーズにおいては分散処理が…
はじめに Lasso回帰は、正則化された線形回帰手法の1つで、線形回帰にL1正則化項を追加したモデルです。正則化により過学習を防ぐとともに、不要と判断される説明変数の偏回帰係数がゼロになる性質があります。この性質を利用して、目的変数により影響が高い…
大規模データを処理するために、Sparkを活用しています。 先日、Twitter上での投稿に対して、もみじあめさんから、下記コメントをもらいました。 検証したのがだいぶ前なので事情が変わってるかもしれませんが、以前に調べたときは圧縮率とスループットが基…
高次元データ(数百万カラム)に対する特徴量選択 小~中次元データ(数千~数万)に対する特徴量選択 今後の方向性 そもそも製造業では、データサイエンティストが不足しているらしい https://twitter.com/Ishitonton 最近、個人的に製造業現場でのデータ活…
社内で、データサイエンティスト見習い向けに、HadoopやSparkの勉強会を実施しました。 その時の資料を少しだけリバイスしてSpeakerDeckにアップロードしています。 私の会社では、データサイエンティスト・データアナリスト、データエンジニアの育成のため…
とあるイベントで、OST(Open Space Technology)という、参加者ドリブンで議論をするワークショップ手法を初めて経験しました。そもそもOSTとは何か、どうやって運営していたかなどをお伝えします。結論からいうと、結構カオスでした、でもそれが面白かった…
月に1回、社内でデータ分析の勉強会をやっています。今月はword2vecについて話をしました。 最近、ブログを書けていないので、資料だけリンクを張っておきます。 speakerdeck.com なお、この資料は下記書籍に大きく影響を受けてます。 www.oreilly.co.jp 手…
チームマネージャーのロールとして、チームメンバーと1on1ミーティングをやったり、振り返りのファシリテーションをしているわけですが、より気づき・学びを増やしてチームが成長していくにはどうしたらよいかを日々自問しています。うまくできないことも多…
思い立ったので言語処理100本ノックをやっていきます。 www.cl.ecei.tohoku.ac.jp 言語処理100本ノックhttps://t.co/hyuN21zzCJやっていき— いしお (@Ishitonton) 2019年6月25日 「第2章: UNIXコマンドの基礎」をやりました。 利用ファイル 環境 10. 行数の…
思い立ったので言語処理100本ノックをやっていきます。 www.cl.ecei.tohoku.ac.jp 言語処理100本ノックhttps://t.co/hyuN21zzCJやっていき— いしお (@Ishitonton) 2019年6月25日 「第1章: 準備運動」をやりました。テキストや文字列を扱う題材に取り組みなが…
モブプロをチームで初めて実施しました。やってみた感想とかをこの記事では書きます。 モブプロとは モブとは「チームで一緒に働くこと」みたいな意味があるらしいです。モブ・プログラミング(モブプロ)は、チーム全員が一緒になって、一つのコードを映し…
Word2vecやfastText、Gloveなど、Word Embeddingの方法は広く普及してきており、外部から学習済みのEmbeddingデータをインポートし、そのベクトルを手元のデータセットに適用し利用するケースも増えています。 学習済みEmbeddingを効果的に利用するためには…
ゴールデンウィーク明けから、1on1をメンター側で始めることになりそうです。すでに組織に1on1は導入されていて、これまで私は部下の立場でマネージャーと週30分程度行っていました。 今後は立場を変え、「後輩(部下ではない)」との1on1を行っていく(たぶ…
データドリブンな組織を作るとか何とか叫びながら、あれ私データ可視化するとき、直感や感覚値だけで適当に色使いやらなんやら作ってるやん?と、ふと思ったのが勉強のモチベーションです。 『The Big Book of Dashboards』という書籍を読んでいます。グラフ…
3月14日(木)にHadoop / Spark Conference 2019が開催されました。このイベントの参加メモになります。 hadoop.apache.jp 目次 プログラム 1. Hadoopの現在と未来:鯵坂 明さん、Arpit Agarwalさん 「Hadoopの利用状況」に関する事前アンケート結果 並列分…
KaggleのMicrosoft Malware Predictionが終了しました。参加した皆さん大変お疲れ様でした。 これまでもつまみ食いはしつつも、今回初めてKaggleコンペに本格的に参加しました。少し期待していたのですが、Publicでソロ銅圏(150位)からPrivateで840位と大…
久しぶりのデータ分析関連の記事を書きたく、モデリングを行う上での特徴データの前処理について整理しました。本投稿は、下記courseraのKaggleコースの受講とその周辺情報のインプットを整理したものです。より詳細かつ正確な内容については受講してくださ…
自分では当たり前と思っていたけど、隣のメンバーは知らなかった・違う認識を持っていた。仕事をしていてそんな経験はありませんか。 私は、個々人が創造性と情熱をもって、自律的に働ける組織こそが、最大限のパフォーマンスを発揮できると考えています。そ…
インフルエンザA型にかかりまして、出勤もイベント参加もできないのでブログでも書かせていただきます。 先日、チームで行った振り返りのフレームワークで、ワールドカフェがとても良かったので皆さんにもシェアしたいと思います。 振り返りの意義 私たちの…
新年あけましておめでとうございます。2019年最初のブログになります。本投稿では、DataFrameを扱う際のメモリサイズの節約について書きたいと思います。 私はGCP上のVMをPythonの開発環境としており、Kaggleのデータセット等を利用して学習しています。Pand…
自分がとても勉強になった書籍の1つに、『Eelastic leadership - 自己組織化チームの育て方』があります。個人的にO'Reilly出版の中で最も取っ付きやすい本と思っており、多くの方に読んでほしい内容です。 この書籍では、(ソフトウェア開発を中心に)チー…
目次 本記事で目指すもの スクラムは「チームで働くための問題解決のフレームワーク」 スクラムの決まり事と業務の進め方 1. スプリント開始時:スプリント計画 2. スプリント期間中:デイリースクラム 3. スプリント終了後:振り返り 利用していたITツール …
AIやデータサイエンス、アナリティクスの分野をカバーするブログメディアにKDnuggetsがありますが、先日2018年に最も人気だったブログを公開してます。 Top Stories of 2018: 9 Must-have skills you need to become a Data Scientist, updated; Python eats…
ブログを開始して2カ月が経過しました。お酒飲みながら書いたりしていると誤字脱字が多いです。そこで、textlintというオープンソースを利用して、ブログ原稿の校正をするプロセスを挟むことにします。 目次 思い至った経緯 textlint textlintのメリット イ…
AI Experience 2018 Tokyoというイベントに遅れて参加。DataRobot社が主催するイベントで、恵比寿のウェスティン東京で開催されました(お金持ち)。その中でハンズオンセッションがあり、機械学習自動化プラットフォームDataRobotを初めて触ってみました。 …
下記の日本OR学会の論文を参考に、Embeddingについて整理しました。 Word Embeddingモデル再訪 オペレーション・リサーチ学会 2017年11月号 20190621追記 こちらの記事もご覧ください。 ishitonton.hatenablog.com 目次 Embeddingとは何か Embeddingの各種ア…
お恥ずかしながら、spaCyを最近知りましたので、試してみました。 spaCyは、pythonで動かす自然言語処理ライブラリです。 spacy.io 目次 spaCyとは 環境 対応言語・モデル モデルのインポート テキストのインポートとトークン化 品詞タグ付け 固有表現抽出 t…