オープンデータの提供における課題を考える(1)ローデータから原始データへ

2013年5月24日 in Special


出展:http://www.w3.org/2009/Talks/0204-ted-tbl/#(15)

出典:http://www.w3.org/2009/Talks/0204-ted-tbl/#(15)

 オープンデータの提供形式についてはExcel形式の是非などいろいろな議論があるが、ティム・バーナーズ=リー言うところの「ローデータ(Raw Data)」に関する議論が抜け落ちている気がしてならない。

ローデータとは加工、集計前の生データのことである。例えば「県別に集計した人口」という集計値が公開されている場合、県別や全国計の人口を俯瞰したい人にとっては有用だが、その内訳となる市町村別の人口を精査したい人にとっては使えない。

オープンデータを幅広く有効活用(二次利用)するためには、ローデータが公開されていることが理想的だ。人口に関するローデータは住民基本台帳であろう。住民基本台帳のデータが1件ごとに全て公開されていれば市町村別はもとより、町丁目別、性別、年齢別等々あらゆる角度から人口を分析することが可能だ。

しかしながらそのためにはクリアすべき課題がいくつかある。

情報のマスク

 まず明らかなのは個人情報やプライバシーの問題だ。住民基本台帳には以下のような項目が含まれる。

住所、氏名、生年月日、性別、世帯主名、続柄、本籍、転入/転出日、(以下略)

これをそのまま公開してしまうとまさに個人情報の塊となってしまう。公開するためには個人を特定できないように情報に一部マスクをかける必要がある。以下はその考え方の一例だ。

まず住所は町丁目までとし、それ以下は個人を特定できないように伏せる。氏名は完全にマスク。生年月日も万一他のデータとの関連で個人を特定された場合のことを考えると、年月までにするとか、あるいは年齢に変換して公開することになる。性別はまぁ良いだろう。世帯主名や続柄は世帯数や家族構成を知る重要な情報なので数値やコードに抽象化して表現すると良いだろう。本籍以降は省略。

コード化とその規格化

 続柄は日本語をそのまま使うと微妙な表記揺れの懸念があったり並び替えが難しかったりするのでコード化するのが適当だろう。ここでは仮に(1:世帯主,2:配偶者,3:第1子)とするが、全国版の集計をとることを考えると、こういったコード化や下記の例のようなCSV形式は全国統一の規格として制定することが望ましい。

この時点でのデータはCSVだと例えばこんな感じだ。(値は架空のものです)

住所,年齢(2013/1/1時点),性別,世帯数(世帯主に1),続柄(1:世帯主,2:配偶者,3:第1子),人口
東京都千代田区千代田,34,男,1,1,1
東京都千代田区千代田,30,女,0,2,1
東京都千代田区平河町,49,男,1,1,1
東京都千代田区平河町,45,女,0,2,1
東京都千代田区平河町,17,男,0,3,1
東京都千代田区平河町,27,男,1,1,1
東京都千代田区平河町,35,女,0,2,1

しかし年齢は時点で変化するので、より細かな情報という点ではやや冗長になるが生年月日の日をマスクした項目もあった方がベターであろう。このあたりはプライバシーが漏れるリスクとの兼ね合いになる。

住所,生年月,年齢(2013/1/1時点),性別,世帯数,続柄,人口
東京都千代田区千代田,1978/1,34,男,1,1,1
東京都千代田区千代田,1982/5,30,女,0,2,1
東京都千代田区平河町,1963/1,49,男,1,1,1
東京都千代田区平河町,1967/8,45,女,0,2,1
東京都千代田区平河町,1995/1,17,男,0,3,1
東京都千代田区平河町,1988/2,27,男,1,1,1
東京都千代田区平河町,1977/10,35,女,0,2,1

さらに、このままでは、その町丁目の人口が1や2の場合は個人を特定されるリスクが高いので、そういったデータは人口0として、つまりそのデータは隠した状態で公開されることになる。
上の例だと千代田区千代田のデータはマスクされるか、除外されてこんな感じになる。

住所,生年月,年齢(2013/1/1時点),性別,世帯数,続柄,人口
東京都千代田区平河町,1963/1,49,男,1,1,1
東京都千代田区平河町,1967/8,45,女,0,2,1
東京都千代田区平河町,1995/1,17,男,0,3,1
東京都千代田区平河町,1988/2,27,男,1,1,1
東京都千代田区平河町,1977/10,35,女,0,2,1

「原始データ」なう

 ここであらためて考えるとティム・バーナーズ=リーが言うローデータは、生データをそのまま出せる場合には良いが
個人情報やプライバシーなどが混じる場合は部分的にマスク加工せざるを得ない。その意味でオープンデータとして必要とされるローデータとは、必要に応じて加工された最小単位の「原始データ」と捉えるべきであろう。今、必要なのはこの「原始データ」である。もしくは後工程でコンピュータ処理するための「トランザクションデータ」という言い方もできる。

利用例

 一例を挙げると「少子化」を考察する場合には「子育て世帯数」や「子どもの数」といった数値的な把握が不可欠であるが、上記のような原始データがあれば条件を付けてデータを絞り込んだり集計することで目的に応じた分析が可能になる。

まとめ

 オープンデータの提供を考える場合に、まずはあるものを出すという取り組みから始めるのは重要な一歩である。しかし、既にあるデータは当然ながらそれぞれの本来の目的に最適化された集計や表記が行われていることが多い。このためその内訳を掘り下げたり、特定のデータだけを選択することができず、二次利用が広がりにくい面がある。
二歩目に来るべきは既にあるものに対する表記法やファイル形式のあるべき論よりも、原始データの構造やその出し方をまず検討することからなのではないだろうか。(続く)

Leave a reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Shu Higashi (東 修作)

Written by

Georepublic Japan に勤務。OKJP事務局長及びオープンストリートマップ・ファウンデーション・ジャパン 事務局を兼務。Code for Japan設立発起人。内閣府電子行政オープンデータ実務者会議利活用推進WG構成員。 OpenStreetMapという自由な世界地図を作る活動をきっかけにオープンデータの活動に関わりはじめました。主な関心領域はデータのライセンシング、コミュニティ活動、市民参画、国際連携など。 投稿記事の内容はあくまで個人としてのものであり、所属する組織を代表する見解ではありません。