For Your ISHIO Blog

データ分析や機械学習やスクラムや組織とか、色々つぶやくブログです。

個人名や住所のダミーデータを作成するPythonライブラリFaker

Fakerというライブラリは、個人名や住所などのダミーデータを作成してくれます。テストデータを作る際に便利です。だいぶ前からあるようですが、最近知りました。 faker.readthedocs.io ライブラリのインストール pip install faker 実行してみる from faker…

積読メモ:『AIエンジニアのための機械学習システム デザインパターン』を読んだ

仕事で外部の人に機械学習などの講習をする機会があったのですが、「機械学習モデルの作り方はわかったけど、それ以外のシステム実装などについても知りたい」という声がありました。いわゆるMLOps的な話の包括的な理解を得るために、積読していた下記書籍を…

SlackのSlash CommandでサーバレスにEC2インスタンスを起動する

ChatOpsとは「Chat」と「Ops」を掛けあわせた造語で、Chatをベースにシステム運用(Ops)を行うことを指します。日々のチームコミュニケーションで利用しているSlackのSlashコマンドを利用して、AWSのEC2インスタンスの起動・停止を行えるようにしたので、そ…

LightGBMを並列分散処理させるmmlsparkのスケーラビリティを検証した

勾配ブースティングモデルの1つであるLightGBMを分散処理させるライブラリに、mmlsparkがあります。Microsoftが提供しているライブラリで、Spark上で動かすことで並列分散処理を実現します。既存のLightGBMライブラリでも、推論フェーズにおいては分散処理が…

SparkでLasso回帰のハイパーパラメータλをグリッドサーチして特徴量選択する

はじめに Lasso回帰は、正則化された線形回帰手法の1つで、線形回帰にL1正則化項を追加したモデルです。正則化により過学習を防ぐとともに、不要と判断される説明変数の偏回帰係数がゼロになる性質があります。この性質を利用して、目的変数により影響が高い…

Sparkでファイル形式や圧縮形式について実験した

大規模データを処理するために、Sparkを活用しています。 先日、Twitter上での投稿に対して、もみじあめさんから、下記コメントをもらいました。 検証したのがだいぶ前なので事情が変わってるかもしれませんが、以前に調べたときは圧縮率とスループットが基…

製造現場における特徴量選択について

高次元データ(数百万カラム)に対する特徴量選択 小~中次元データ(数千~数万)に対する特徴量選択 今後の方向性 そもそも製造業では、データサイエンティストが不足しているらしい https://twitter.com/Ishitonton 最近、個人的に製造業現場でのデータ活…

データサイエンティスト見習い向けにHadoop/Sparkの勉強会資料を公開しました

社内で、データサイエンティスト見習い向けに、HadoopやSparkの勉強会を実施しました。 その時の資料を少しだけリバイスしてSpeakerDeckにアップロードしています。 私の会社では、データサイエンティスト・データアナリスト、データエンジニアの育成のため…

OST(Open Space Technology)をやってみた。

とあるイベントで、OST(Open Space Technology)という、参加者ドリブンで議論をするワークショップ手法を初めて経験しました。そもそもOSTとは何か、どうやって運営していたかなどをお伝えします。結論からいうと、結構カオスでした、でもそれが面白かった…

社内勉強会でword2vecについて話しました

月に1回、社内でデータ分析の勉強会をやっています。今月はword2vecについて話をしました。 最近、ブログを書けていないので、資料だけリンクを張っておきます。 speakerdeck.com なお、この資料は下記書籍に大きく影響を受けてます。 www.oreilly.co.jp 手…

チームマネージャーに読んでほしい一冊。『対話型ファシリテーションの手ほどき』を読んだ。

チームマネージャーのロールとして、チームメンバーと1on1ミーティングをやったり、振り返りのファシリテーションをしているわけですが、より気づき・学びを増やしてチームが成長していくにはどうしたらよいかを日々自問しています。うまくできないことも多…

言語処理100本ノック - 第2章: UNIXコマンドの基礎

思い立ったので言語処理100本ノックをやっていきます。 www.cl.ecei.tohoku.ac.jp 言語処理100本ノックhttps://t.co/hyuN21zzCJやっていき— いしお (@Ishitonton) 2019年6月25日 「第2章: UNIXコマンドの基礎」をやりました。 利用ファイル 環境 10. 行数の…

言語処理100本ノック - 第1章: 準備運動

思い立ったので言語処理100本ノックをやっていきます。 www.cl.ecei.tohoku.ac.jp 言語処理100本ノックhttps://t.co/hyuN21zzCJやっていき— いしお (@Ishitonton) 2019年6月25日 「第1章: 準備運動」をやりました。テキストや文字列を扱う題材に取り組みなが…

モブプロやってみた。

モブプロをチームで初めて実施しました。やってみた感想とかをこの記事では書きます。 モブプロとは モブとは「チームで一緒に働くこと」みたいな意味があるらしいです。モブ・プログラミング(モブプロ)は、チーム全員が一緒になって、一つのコードを映し…

学習済みEmbeddingを利用する時の前処理ゴールデンルール

Word2vecやfastText、Gloveなど、Word Embeddingの方法は広く普及してきており、外部から学習済みのEmbeddingデータをインポートし、そのベクトルを手元のデータセットに適用し利用するケースも増えています。 学習済みEmbeddingを効果的に利用するためには…

1on1始めるぞー!のためのチェックシート

ゴールデンウィーク明けから、1on1をメンター側で始めることになりそうです。すでに組織に1on1は導入されていて、これまで私は部下の立場でマネージャーと週30分程度行っていました。 今後は立場を変え、「後輩(部下ではない)」との1on1を行っていく(たぶ…

直感・感覚値で作ってたData Visualizationから卒業する(したい)

データドリブンな組織を作るとか何とか叫びながら、あれ私データ可視化するとき、直感や感覚値だけで適当に色使いやらなんやら作ってるやん?と、ふと思ったのが勉強のモチベーションです。 『The Big Book of Dashboards』という書籍を読んでいます。グラフ…

Hadoop / Spark Conference 2019 参加メモ

3月14日(木)にHadoop / Spark Conference 2019が開催されました。このイベントの参加メモになります。 hadoop.apache.jp 目次 プログラム 1. Hadoopの現在と未来:鯵坂 明さん、Arpit Agarwalさん 「Hadoopの利用状況」に関する事前アンケート結果 並列分…

ShakeDownを食らったMicrosoft Malwareコンペを振り返る

KaggleのMicrosoft Malware Predictionが終了しました。参加した皆さん大変お疲れ様でした。 これまでもつまみ食いはしつつも、今回初めてKaggleコンペに本格的に参加しました。少し期待していたのですが、Publicでソロ銅圏(150位)からPrivateで840位と大…

モデリングのための特徴量の前処理について整理した

久しぶりのデータ分析関連の記事を書きたく、モデリングを行う上での特徴データの前処理について整理しました。本投稿は、下記courseraのKaggleコースの受講とその周辺情報のインプットを整理したものです。より詳細かつ正確な内容については受講してくださ…

チームの暗黙の了解をWorking Agreementとして定めた話

自分では当たり前と思っていたけど、隣のメンバーは知らなかった・違う認識を持っていた。仕事をしていてそんな経験はありませんか。 私は、個々人が創造性と情熱をもって、自律的に働ける組織こそが、最大限のパフォーマンスを発揮できると考えています。そ…

チームの振り返りにワールドカフェが良かった件

インフルエンザA型にかかりまして、出勤もイベント参加もできないのでブログでも書かせていただきます。 先日、チームで行った振り返りのフレームワークで、ワールドカフェがとても良かったので皆さんにもシェアしたいと思います。 振り返りの意義 私たちの…

DataFrameのメモリサイズを節約する

新年あけましておめでとうございます。2019年最初のブログになります。本投稿では、DataFrameを扱う際のメモリサイズの節約について書きたいと思います。 私はGCP上のVMをPythonの開発環境としており、Kaggleのデータセット等を利用して学習しています。Pand…

【書籍メモ】Eelastic leadership - 自己組織化チームの育て方

自分がとても勉強になった書籍の1つに、『Eelastic leadership - 自己組織化チームの育て方』があります。個人的にO'Reilly出版の中で最も取っ付きやすい本と思っており、多くの方に読んでほしい内容です。 この書籍では、(ソフトウェア開発を中心に)チー…

データアナリストがスクラムチームにアサインされてよかったこと

目次 本記事で目指すもの スクラムは「チームで働くための問題解決のフレームワーク」 スクラムの決まり事と業務の進め方 1. スプリント開始時:スプリント計画 2. スプリント期間中:デイリースクラム 3. スプリント終了後:振り返り 利用していたITツール …

データアナリストの非技術的スキル「知的好奇心」を発見する

AIやデータサイエンス、アナリティクスの分野をカバーするブログメディアにKDnuggetsがありますが、先日2018年に最も人気だったブログを公開してます。 Top Stories of 2018: 9 Must-have skills you need to become a Data Scientist, updated; Python eats…

textlintを利用した自動チェックで、ブログ原稿の校正をサポートする。

ブログを開始して2カ月が経過しました。お酒飲みながら書いたりしていると誤字脱字が多いです。そこで、textlintというオープンソースを利用して、ブログ原稿の校正をするプロセスを挟むことにします。 目次 思い至った経緯 textlint textlintのメリット イ…

DataRobotは想像以上に凄かった。ハンズオンで実機を触ってみて。

AI Experience 2018 Tokyoというイベントに遅れて参加。DataRobot社が主催するイベントで、恵比寿のウェスティン東京で開催されました(お金持ち)。その中でハンズオンセッションがあり、機械学習自動化プラットフォームDataRobotを初めて触ってみました。 …

Embeddingについてまとめた。

下記の日本OR学会の論文を参考に、Embeddingについて整理しました。 Word Embeddingモデル再訪 オペレーション・リサーチ学会 2017年11月号 20190621追記 こちらの記事もご覧ください。 ishitonton.hatenablog.com 目次 Embeddingとは何か Embeddingの各種ア…

自然言語処理ライブラリspaCyを試してみた。

お恥ずかしながら、spaCyを最近知りましたので、試してみました。 spaCyは、pythonで動かす自然言語処理ライブラリです。 spacy.io 目次 spaCyとは 環境 対応言語・モデル モデルのインポート テキストのインポートとトークン化 品詞タグ付け 固有表現抽出 t…