セキュリティドメインにおけるAIへの関心の遷移 -CSS2018に参加して-

いしおです。今週の月～木まで、長野に滞在していました。下記イベントに参加するためです。

www.iwsec.org

機械学習×セキュリティの領域は、現在とても盛んです。例えば、アンチウイルスソフトウェアベンダが、彼らの検知機能の1つとしてMLでの判定を導入したりしています。

昨年もこのイベントに参加したのですが、セキュリティドメインのAI・機械学習（ML）に対する関心の遷移がみられました。結論としては、依然として業界での関心も高く、活用も盛んではありますが、AIへの信頼やAI・ML自体の脆弱性に対して、どう対策していくかをより積極的に議論していきたい、という新たなフェーズに進んでいることが確認できました。

一例ととしていくつかの議論を記載します。

1. 訓練データに関わる盗取

エンジンや入出力結果から、データを推測することができる可能性がある。

2. モデルに関わる盗取

エンジンの入出力等からパラメータを推定できてしまう可能性がある。

3. 学習データの真正性

学習データにフェイクはない、ノイズがないことをどのように証明するか。議論としては、データの出所の透明化が有効ではないかという意見があった。最近では、野菜生産者の顔を掲載する取組みがありますが、あれと同じでヒト・組織の適格性、センサーの信頼性をもとに、学習データの真正性を担保しようという考え方です。

4. データ開示の安全性

機械学習は時に「ブラックボックス」と呼ばれる。モデルの信頼性を確保するために、データやモデルの一部を開示する必要性が出てくる可能性がある。この場合、医療データなど機密性の高いデータ・モデルは開示できない。また、データの属性（特徴量）が知られてしまう可能性もある。

実際に、公開されている正規のAPIを利用して、入力値と出力結果からモデルを生成することは容易であるとの研究結果も存在します。クラウド上のAIサービスと似たようなモデルを作ってしまう攻撃を「Model Extraction攻撃」と言います。9,600個の訓練データで約14%劣化したAIを作成できたとの研究もあり、CSS2018の発表においてもMNISTを利用して200件以下の学習で90%以上の模倣モデルが構築できたとの報告もありました。

ここら辺の領域の議論は、（もっとたくさんあったのですが、）これから深まっていくと予想されます。また、機械学習ドメインの専門家とセキュリティドメインの専門家が、どのように協業しガイドラインや安全性基準を作っていくのかも注目ポイントかもしれません。

簡単ですが、以上です。

いしお

For Your ISHIO Blog

データ分析や機械学習やスクラムや組織とか、色々つぶやくブログです。

セキュリティドメインにおけるAIへの関心の遷移 -CSS2018に参加して-

1. 訓練データに関わる盗取

2. モデルに関わる盗取

3. 学習データの真正性

4. データ開示の安全性