For Your ISHIO Blog

データ分析や機械学習やスクラムや組織とか、色々つぶやくブログです。

OST(Open Space Technology)をやってみた。

とあるイベントで、OST(Open Space Technology)という、参加者ドリブンで議論をするワークショップ手法を初めて経験しました。そもそもOSTとは何か、どうやって運営していたかなどをお伝えします。結論からいうと、結構カオスでした、でもそれが面白かった…

社内勉強会でword2vecについて話しました

月に1回、社内でデータ分析の勉強会をやっています。今月はword2vecについて話をしました。 最近、ブログを書けていないので、資料だけリンクを張っておきます。 speakerdeck.com なお、この資料は下記書籍に大きく影響を受けてます。 www.oreilly.co.jp 手…

チームマネージャーに読んでほしい一冊。『対話型ファシリテーションの手ほどき』を読んだ。

チームマネージャーのロールとして、チームメンバーと1on1ミーティングをやったり、振り返りのファシリテーションをしているわけですが、より気づき・学びを増やしてチームが成長していくにはどうしたらよいかを日々自問しています。うまくできないことも多…

言語処理100本ノック - 第2章: UNIXコマンドの基礎

思い立ったので言語処理100本ノックをやっていきます。 www.cl.ecei.tohoku.ac.jp 言語処理100本ノックhttps://t.co/hyuN21zzCJやっていき— いしお (@Ishitonton) 2019年6月25日 「第2章: UNIXコマンドの基礎」をやりました。 利用ファイル 環境 10. 行数の…

言語処理100本ノック - 第1章: 準備運動

思い立ったので言語処理100本ノックをやっていきます。 www.cl.ecei.tohoku.ac.jp 言語処理100本ノックhttps://t.co/hyuN21zzCJやっていき— いしお (@Ishitonton) 2019年6月25日 「第1章: 準備運動」をやりました。テキストや文字列を扱う題材に取り組みなが…

モブプロやってみた。

モブプロをチームで初めて実施しました。やってみた感想とかをこの記事では書きます。 モブプロとは モブとは「チームで一緒に働くこと」みたいな意味があるらしいです。モブ・プログラミング(モブプロ)は、チーム全員が一緒になって、一つのコードを映し…

学習済みEmbeddingを利用する時の前処理ゴールデンルール

Word2vecやfastText、Gloveなど、Word Embeddingの方法は広く普及してきており、外部から学習済みのEmbeddingデータをインポートし、そのベクトルを手元のデータセットに適用し利用するケースも増えています。 学習済みEmbeddingを効果的に利用するためには…

1on1始めるぞー!のためのチェックシート

ゴールデンウィーク明けから、1on1をメンター側で始めることになりそうです。すでに組織に1on1は導入されていて、これまで私は部下の立場でマネージャーと週30分程度行っていました。 今後は立場を変え、「後輩(部下ではない)」との1on1を行っていく(たぶ…

直感・感覚値で作ってたData Visualizationから卒業する(したい)

データドリブンな組織を作るとか何とか叫びながら、あれ私データ可視化するとき、直感や感覚値だけで適当に色使いやらなんやら作ってるやん?と、ふと思ったのが勉強のモチベーションです。 『The Big Book of Dashboards』という書籍を読んでいます。グラフ…

Hadoop / Spark Conference 2019 参加メモ

3月14日(木)にHadoop / Spark Conference 2019が開催されました。このイベントの参加メモになります。 hadoop.apache.jp 目次 プログラム 1. Hadoopの現在と未来:鯵坂 明さん、Arpit Agarwalさん 「Hadoopの利用状況」に関する事前アンケート結果 並列分…

ShakeDownを食らったMicrosoft Malwareコンペを振り返る

KaggleのMicrosoft Malware Predictionが終了しました。参加した皆さん大変お疲れ様でした。 これまでもつまみ食いはしつつも、今回初めてKaggleコンペに本格的に参加しました。少し期待していたのですが、Publicでソロ銅圏(150位)からPrivateで840位と大…

モデリングのための特徴量の前処理について整理した

久しぶりのデータ分析関連の記事を書きたく、モデリングを行う上での特徴データの前処理について整理しました。本投稿は、下記courseraのKaggleコースの受講とその周辺情報のインプットを整理したものです。より詳細かつ正確な内容については受講してくださ…

チームの暗黙の了解をWorking Agreementとして定めた話

自分では当たり前と思っていたけど、隣のメンバーは知らなかった・違う認識を持っていた。仕事をしていてそんな経験はありませんか。 私は、個々人が創造性と情熱をもって、自律的に働ける組織こそが、最大限のパフォーマンスを発揮できると考えています。そ…

チームの振り返りにワールドカフェが良かった件

インフルエンザA型にかかりまして、出勤もイベント参加もできないのでブログでも書かせていただきます。 先日、チームで行った振り返りのフレームワークで、ワールドカフェがとても良かったので皆さんにもシェアしたいと思います。 振り返りの意義 私たちの…

DataFrameのメモリサイズを節約する

新年あけましておめでとうございます。2019年最初のブログになります。本投稿では、DataFrameを扱う際のメモリサイズの節約について書きたいと思います。 私はGCP上のVMをPythonの開発環境としており、Kaggleのデータセット等を利用して学習しています。Pand…

【書籍メモ】Eelastic leadership - 自己組織化チームの育て方

自分がとても勉強になった書籍の1つに、『Eelastic leadership - 自己組織化チームの育て方』があります。個人的にO'Reilly出版の中で最も取っ付きやすい本と思っており、多くの方に読んでほしい内容です。 この書籍では、(ソフトウェア開発を中心に)チー…

データアナリストがスクラムチームにアサインされてよかったこと

目次 本記事で目指すもの スクラムは「チームで働くための問題解決のフレームワーク」 スクラムの決まり事と業務の進め方 1. スプリント開始時:スプリント計画 2. スプリント期間中:デイリースクラム 3. スプリント終了後:振り返り 利用していたITツール …

データアナリストの非技術的スキル「知的好奇心」を発見する

AIやデータサイエンス、アナリティクスの分野をカバーするブログメディアにKDnuggetsがありますが、先日2018年に最も人気だったブログを公開してます。 Top Stories of 2018: 9 Must-have skills you need to become a Data Scientist, updated; Python eats…

textlintを利用した自動チェックで、ブログ原稿の校正をサポートする。

ブログを開始して2カ月が経過しました。お酒飲みながら書いたりしていると誤字脱字が多いです。そこで、textlintというオープンソースを利用して、ブログ原稿の校正をするプロセスを挟むことにします。 目次 思い至った経緯 textlint textlintのメリット イ…

DataRobotは想像以上に凄かった。ハンズオンで実機を触ってみて。

AI Experience 2018 Tokyoというイベントに遅れて参加。DataRobot社が主催するイベントで、恵比寿のウェスティン東京で開催されました(お金持ち)。その中でハンズオンセッションがあり、機械学習自動化プラットフォームDataRobotを初めて触ってみました。 …

Embeddingについてまとめた。

下記の日本OR学会の論文を参考に、Embeddingについて整理しました。 Word Embeddingモデル再訪 オペレーション・リサーチ学会 2017年11月号 20190621追記 こちらの記事もご覧ください。 ishitonton.hatenablog.com 目次 Embeddingとは何か Embeddingの各種ア…

自然言語処理ライブラリspaCyを試してみた。

お恥ずかしながら、spaCyを最近知りましたので、試してみました。 spaCyは、pythonで動かす自然言語処理ライブラリです。 spacy.io 目次 spaCyとは 環境 対応言語・モデル モデルのインポート テキストのインポートとトークン化 品詞タグ付け 固有表現抽出 t…

【備忘録】Kernel:A Data Science Framework for Quoraを読んだ

ここ数カ月、チームビルディングやソフトウェアエンジニアリングに駆り出され、業務でデータ分析ができていない。KaggleでQuora(自然言語処理のコンペ)が開始したので、奮起してとりあえずKernelを読んで勉強中。 色々忘れまくっていて、Couseraで身に付け…

【特別講義メモ】Deep LearningとGPUコンピューティング - Deep Learning基礎講座

東京大学で公開講座として開講している「Deep Learning基礎講座」(私は参加していない!)。 本日は、NVIDIA社の2名(NVIDIA JAPAN 丹愛彦 氏、山崎和博 氏)をお招きした特別講義があり、講座受講者以外でも参加ができたので行ってまいりました。 実は、自…

【書評】データサイエンティスト養成読本-ビジネス活用編

『データサイエンティスト養成読本-ビジネス活用編-』を購入し5章まで拝読しました。データ分析界隈の今をときめく著者方が、ビジネス活用のための組織づくりや人材について語っている一冊です。自身にとって、とても実りある一冊でした。また各著者は結構…

Elastic Cloudの無料トライアルで5分でデプロイしてKibana最新版のグラフ機能を利用してみた

検索エンジンElasticSearchや可視化ツールKibanaをクラウド上で容易にデプロイして利用できるSaaS製品「Elastic Cloud」がリリースされています(結構前に)。現在、14日間の無料トライアルが可能であり、最新版のElasticSearchやKibanaをAWSやGCP上で利用で…

Mercari Tech Meetupに参加してきたメモ - 後半

機械学習技術についてトークするMercari Tech Meetupに参加しましたので、その振り返り後半部を記載します。前半部は以下の記事を参照ください。 ishitonton.hatenablog.com 前半部は、メルカリが簡単な売買を実現するための機械学習の活用を中心に記載しま…

Jリーグの移籍情報をスクレイピングしてチーム間の関係性を可視化する

湘南ベルマーレ、ルバン杯優勝おめでとうございます。 私は他チームのサポータですが、湘南を応援していました。理由は、梅崎選手が好きなのと、自分が応援するチームと湘南間での移籍が多いからです。 Jリーグの移籍情報で、チーム間のコネクションの強さが…

Mercari Tech Meetupに参加してきたメモ - 前半

機械学習(ML)の適用範囲 出品商品情報の補完入力の話 クーポン配布の最適化の話 エッジコンピューティングの話 Kaggleコンペの話 いしおです。 下記イベントに参加してきました。 mercaridev.connpass.com インフラは勉強不足なのですが、下記個人的目的の…

セキュリティドメインにおけるAIへの関心の遷移 -CSS2018に参加して-

いしおです。 今週の月~木まで、長野に滞在していました。下記イベントに参加するためです。 www.iwsec.org 機械学習×セキュリティの領域は、現在とても盛んです。例えば、アンチウイルスソフトウェアベンダが、彼らの検知機能の1つとしてMLでの判定を導入…