オープンデータのライセンスを考える(1)データとは?

2012年10月20日 in Special


Photo (c) tiseb, licensed under CC BY.

オープンデータのライセンスについて、シリーズで考えてみたい。まず「データ」とは何だろうか。Wikipediaによればその定義は以下の通りだ。

概念

伝達、解釈、処理などに適するように形式化、符号化されたもの、または再度情報として解釈できるものをいう。与件または所与ともいう。data, datum(英語)はラテン語・イタリア語のdare(与える)を語源とする。中国語では「資料」または「数据」ともいう。
直面している問題の解決や、意思決定に役立つか否かという観点から、データと情報を区別する場合もある。その場合においてデータとは、情報を生みだすための素材のことを呼び、データのなかの問題解決に役立つ材料のみを情報とよぶ。データを受けとった人によって、さらにはその人の状況によって、データであるか、情報であるかは変化することになる。
端的に言うと、意味のあるデータが「情報」となる。

規格上の定義

国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は “A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing.”「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。

この定義を基にすると、「データ以前」ともいうべき、形式化、符号化されていないものの存在に気づく。例えば「手書きメモ」や「手書き調査票」などは情報を取り出しやすい形式化、符号化が行われていないことが多い。一方、人が理解しやすい「情報」はデータ処理の結果として、視覚化や改竄防止措置などの加工が加えられた上で発表されることが多く、データとして使いやすい形になっていない。

このように「データ以前」「データ」「情報」の3段階があるとすればオープンデータとして求められているのは2番めの「データ」であり、即ちこれがティム・バーナーズ=リーの言う「Raw Data」である。

「データ以前」のものはコンピュータ・システムに乗せる場合には必然的に「データ」化されるが、コストを要するのですぐさま対応できるわけではない。しかしながら「情報」についてはその基となった「データ」がどこかに存在している可能性が高い。従ってその元「データ」を得るコストは本来ほとんど掛からないはずである。

オープンデータを語る時に悪の象徴とされている感のある「PDF」は「情報」であるにも関わらず、その公開者が「データ」処理を外部委託している場合には手元に「データ」が無い場合がある。このため、データをオープンにしようと思っても即座には対応できない、という問題を抱えている。過去の契約に遡ることは難しいかもしれないが、これからのものについては委託時の契約見直しなどの対策が待たれるところである。

Leave a reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Shu Higashi (東 修作)

Written by

Georepublic Japan に勤務。OKJP事務局長及びオープンストリートマップ・ファウンデーション・ジャパン 事務局を兼務。Code for Japan設立発起人。内閣府電子行政オープンデータ実務者会議利活用推進WG構成員。 OpenStreetMapという自由な世界地図を作る活動をきっかけにオープンデータの活動に関わりはじめました。主な関心領域はデータのライセンシング、コミュニティ活動、市民参画、国際連携など。 投稿記事の内容はあくまで個人としてのものであり、所属する組織を代表する見解ではありません。