情報匿名化

個人情報の保護と利用

ビッグデータ
ビッグデータとは，「事業に役立つ知見を導出するためのデータ」であり，「ビッグデータを用いて社会・経済の問題解決や業務の付加価値向上を行う，あるいは支援する事業」とも定義されています（鈴木良介著「ビッグデータビジネスの時代」）．
ビッグデータを構成するデータとしては次のようなものが挙げられます．
- ダイレクトメールのデータや会員カードデータ等の顧客データ
- オンラインショッピングサイトやブログサイトにおける購入履歴やエントリー履歴
- ソーシャルメディアにおいて参加者が書き込むプロフィールやコメント等
- ウェブ上の配信サイトで提供される音楽や動画等のマルチメディアデータ
- GPS，ICカードや RFID において検知される位置，乗車履歴，温度等のセンサーデータ
また，個々のデータのみならず，各データを連携させることで付加価値の創出も期待できます．
ビッグデータは，多くの部門において数十テラバイトから数ペタバイトの範囲に及ぶとも言われ，中でもビジネス価値が高いと言われるパーソナルデータの利活用が注目されている．しかし，これは個人情報であり，プライバシーに係わるデータであるため，個人情報保護法の対象になるようなデータでもあります．
プライバシー保護データマイニング
プライバシー保護データマイニング（PPDM : Privacy Preserving Data Mining）は，プライバシーを考慮して安全にデータを利活用する手法であり，元データを秘匿しつつデータの分析を可能にする技術です．入力データに対する加工や暗号化，出力データに対する加工など複数の方法があります．元データから個人情報を分からなくする意味で，情報匿名化技術とも呼ばれています．

匿名化技術

個人情報保護法では，個人情報を「特定の個人を識別することができるもの（他の情報と容易に照合することができ，それにより特定の個人を識別することができるものを含む）」と規定しています．つまり，特定の個人として識別されるということの「蓋然（がいぜん）性（その事象が実現される確実性）」が判定基準になります．

単独で曖昧性なく一人の個人を識別可能な属性情報は識別情報（Identifier）と呼ばれます（氏名，パスポート番号，免許証番号や社会保障番号など）．また，単独では曖昧性があって個人を識別することはできないが，他の情報との組み合わせにより個人を識別することが可能となる情報は準識別情報（Quasi-Identifier）と呼ばれます．

特定の個人が識別されるリスクを低減する方法の1つが匿名化技術です．匿名化とは，データをどのように解析してもある特定の個人に結び付けられないことです．

匿名化では，次の2つの特性が区別される．

識別性
あるデータがある特定の一人のデータと分かること．
特定性
あるデータが誰のデータであるか分かること．

この特性から，匿名化された情報は次の2種類に分類できる．

識別非特定情報
ある一人の人のデータであることは識別できるが，個人までは特定できない．
非識別非特定情報
一人の人のデータだとも分からないし，個人も特定できない．

これらの特定性，識別性を考えた状況に応じたプライバシー保護が必要になる．

匿名化手法

データを匿名化するには，次のような手法があります．

データ統合・一般化
- 再符号化
  属性情報について，より上位の（情報量が少ない）値に置換する．テーブル全体/一部など対象レコードを選択して適用する．
- 局所秘匿化
  特定のセルの値を非開示にしたり，意味のない記号で代用したりすることで情報を秘匿する．
- ミクロアグリゲーション
  複数のレコード群をグループ化して，グループ内の全てのセルの値を平均値や中央値などで置換する．
データ撹拌
- ノイズ付加
  元データに対し一定の分布にしたがったノイズを加える．匿名化したデータから統計値のみ推定できるようにする（再構築計算）．
- 事後ランダム化法（PRAM）
  あらかじめ与えた遷移確率（マルコフ行列）にしたがって，データ値を異なる値に置換する．
- データスワッピング
  ランダムに選択した複数のレコード間で属性の値を交換する．
秘密計算
個々のデータを秘匿したまま情報処理（論理演算等）を行い，有用な統計情報などを計算する． (→ 秘密計算)

匿名化の指標

匿名化の程度や匿名化したデータのリスク，有用性などを評価するための評価指標がある．評価の観点としては，リスクに関する指標と有用性に関する指標の2つに分かれる．また，これらの指標の間には一般に，リスクを低減するよう匿名化した場合には有用性が下がり，有用性を保つ場合にはリスクも残るといったトレードオフの関係がある．

リスク指標
- k-匿名性 (k-anonymity)
  個人を特定できる可能性がある情報（準識別情報）が k個以上存在するようにデータを匿名化する． k-匿名化されたデータでは，個人の識別が可能となるような属性情報のいかなる組み合わせに対してもレコードの集合が少なくとも k個存在する．
- L-多様性 (L-diversity)
  ｋ－匿名性を満たす匿名化データが存在する時に，ある準識別情報の組み合わせを持つ準識別クラス中にｋ個のレコードがあり個人を識別できない状態であっても，準識別クラス中の全てのレコードに共通するセンシティブな属性情報がある場合には，攻撃者はその準識別クラスに該当する個人に関するセンシティブな情報を新たな知識として獲得することができてしまう． k-匿名化により同じデータが k個あったとしても，その属性が偏っている場合には個人の属性が推定できる可能性が生じる． L-多様性は，同じ準識別情報の組み合わせを持つ k個のレコードの中で，属性推定の対象となる推定情報が L個の“良い”多様性を持つことを評価する属性推定リスクを回避するための指標である．
有用性の指標
- 情報損失 (Information Loss)
  匿名化前後のレコード間でどの程度情報が異なっているかでデータの有用性が評価できる．匿名化前のデータと匿名化後のデータの間での値，値の平均，共分散，共分散の斜線，相関などの差分を指標として用いられる．