You are browsing the archive for 2012 10月.

オープンデータのライセンスを考える(7)CC BYはオープンデータ?

2012年10月24日 in Special

ODbLの内容紹介に入る前に白状しておこう。ここまでお付き合い頂いた方は勘付いておられるだろうが、実はクリエイティブ・コモンズの表示ライセンスであるCC BYはあくまで著作物に対するライセンスであり、事実情報としてのデータ/データベースをカバーしていないのだ。CC BY-SAも然りである。

正確にいえばCC のバージョン3までがそうで、最新のバージョン4のドラフトではデータも対象とするべく意見を募集中である。バージョン4ではデータベース権に対応するほか、Wikiなどでの共同作業による成果に適用しやすくするためにクレジット表記を一箇所に集めることも検討されている。

尚、現状でもOKFの認識ではCC0(CCのパブリックドメイン・ライセンス)だけは著作物(コンテンツ)とデータの両方をカバーするとされている。(詳細はConformant Licenses 参照)

国内ではいくつかの自治体においてオープンデータの提供が始まっているが、そのライセンスとしてCC BYが表記されている場合がある。これを厳密に解釈すると写真、画像、文章などの著作物には適用されるが、事実情報由来のデータには適用されない可能性が高い。現時点では、著作物と事実情報が混在する可能性のあるデータに関して、国内法と十分なすり合わせが終わっているライセンスはまだ存在しない。

しかしながら、細部の厳密な解釈を論じて現状に留まっていてもあまり生産的とは思えない。大事なことはオープンにしようとする意志であり、その意思表示として現時点でのCC BYの適用表示はひとつの有効な手段であろう。あるいはライセンスという形での表記にこだわらず日本語でその利用条件をシンプルに記述するのも現時点ではひとつの手段といえるのではないだろうか。

オープンデータのライセンスを考える(6)オープン・データ・コモンズ

2012年10月24日 in Special

(c) Open Data Commons, licensed under CC BY.

著作権に対してオープンなライセンスで利用許諾を明示できるように、データベース権に対してもオープンなライセンスがある。その代表的なものがオープン・データ・コモンズ(ODC)による3つのライセンス

  1. PDDL:Open Data Commons Public Domain Dedication and License
  2. ODC-By:Open Data Commons Attribution License
  3. ODbL:Open Data Commons Open Database License

であり、制約の緩い順に上から並んでいる。

ODCはオープン・ナレッジ・ファウンデーション(OKF)のプロジェクトのひとつでオープン・データを推進する法的なツールとしてオープン・データに必要なライセンスを取りまとめた組織である。

最初のPDDLは一言で言えばデータをパブリックドメインに置くものである。
次のODC-Byは権利保有者のクレジット表記さえすれば自由に使って良い(表示条項)とするものであり、3つ目のODbLはクレジット表記に加えて、派生して作られたデータベースにも同じライセンスの適用を要求する、いわゆる継承条項がある。
それぞれが順に、クリエイティブ・コモンズのCC0、CC BY、CC BY-SA にほぼ対応している。

考え方がよく似ているとはいえ、データベース権に対するライセンスなのでデータベース権に特有の概念やCC のライセンスでは明確にされていなかった部分をより分かりやすく改善した部分がある。3つのうち、ODbL が最もデータベース権の対極にあるものと言え、いちばん複雑なので次回はまずこちらから見て行こう。

オープンデータのライセンスを考える(5)データベース権

2012年10月23日 in Special

Photo (c) umjanedoan, licensed under CC BY.

1996年3月11日、EUはいわゆる「データベース指令」を発表した。域内で元々進められていた法的な枠組みを統一するための整備と再構築の一環であり、データベース産業の育成を狙いとして策定されたものである。

この指令は知的財産権のひとつにスイ・ジェネリス(特別)権、すなわち「データベース権」を加えた。この権利はデータの入手、検証、提供に関して量的、質的に実質的な投資(substantial investment)をしてデータベースを作成した人に与えられるものだ。
この権利の保有者はデータベースの全体または実質的な部分(substantial part)を抽出あるいは再利用する行為を妨げる権利を持つ。保護期間は15年であるが、内容の追加修正のために実質的な投資を行った場合にはさらに保護期間が与えられる。

何をもって実質的(substantial)と判断するかという点には多分に曖昧さが含まれるが、これはデータベースの価値が様々であることによる。著作物で無いもの、例えばWeb上に掲載された事実情報を集めても付与される権利なので、例えば1万件のデータベースから単純に1件、1回だけ抽出したというだけでは、量的にその権利を侵害したとは考えづらく、またそのデータベースから抽出したことを証明することも難しい。逆にごく一部であってもそのデータベースの根幹をなす情報であれば質の面で抽出したものと捉えることができるかもしれない。

仮に「競馬予想師的中率データベース」なるものが合法的に存在したとする。全国の予想師1万件のデータがあり、そのうち的中率90%以上の予想師がひとりだけいたとしよう。そのデータを1件だけ抽出した場合には「質的」に実質的と判断される可能性は十分にある。

今やデータ/データベースが国境を越えるのは極めて容易な時代である。EU加盟国は全てこの「データベース指令」に基づき2002年までに法制化を終えている。一方国内ではデータベースの権利は著作権の拡大解釈や他の法令とのあわせ技でなんとかカバーしている印象がある。これまで産業界自体にその権利に対するニーズが薄かったのかもしれないが、このところ注目が集まるビッグデータに関してはどうであろうか。グローバルな視点での法整備がなされないままではオープンとは逆の方向に向かう懸念がある。この点においてビッグデータにはオープンデータとはまた別の文脈がありそうな気がしてならない。

参考資料:
CA1155 – データベースの法的保護に関するEU指令
カレントアウェアネスNo.219 1997.11.20

データベースの法的保護に関する動向調査 調査報告書
平成15年12月 財団法人データベース振興センター

Total Weather Insurance、10兆ものシミュレーションポイントでリスク分析

2012年10月22日 in Special

アメリカのThe Climate Corporationは、国立気象サービス(National Weather Service)から気象データを、農務省から収穫量と土壌データとを得て、新しい農家向け保険商品Total Weather Insuranceを開発しました。The Climate Corporationは、2006年に元Googleの従業員によって設立された企業で、元の名前をWeatherBillといいます。Total Weather Insuranceはオープンデータビジネスにおける新サービスの代表的な事例の1つです。

出典:(※1)

The Climate Corporationは、国立気象サービスがリアルタイムに提供する地域ごとの気象データと、農務省が提供する過去60年の収穫量データ、さらに2.5平方マイル単位で取得した14テラバイトにも及ぶ土壌情報などを活用して、地域や作物ごとの収穫被害発生確率を独自技術で予測します。この予測結果に基づいて、それぞれの顧客である農家あるいは農場ごとに保険をカスタマイズして販売しています。

出典:(※2)

Total Weather Insuranceは、農作物の収穫を妨げる原因となる悪天候に対して、年間を通じた収入補償を提供する保険であり、トウモロコシ、大豆、ソルガム(※3)を対象としています。保険によってカバーされるリスクは作物ごとに違いがありますが、例えばトウモロコシに対しては、種まき期の降水量、過剰降雨、干ばつ、日中の熱による影響、夜間の熱による影響、冷害や凍結などの危険要因が保険の対象となっています。

Ttotal Weather Insuranceを可能にしているのがFarm-Level Optimizerという技術です。この技術によって、作物、場所、土壌のタイプが異なる個々の生産者の収穫量を左右する気象条件を動的に判定することが可能になり、その生産者の農地を保障するのに最適な、年間を通じた保険を自動的にカスタマイズして作り出しています。

The Climate Corporationは、250万ヶ所から得る気象測定データと、主要な気象予測モデルから得られる日々の気象予報データとを、1,500億ヶ所の土壌観察データと合わせて処理することで、10兆にも上る気象シミュレーションポイントを生成し、保険の価格決定やリスク分析に活用しています。The Climate Corporationは、任意の時点で50テラバイトのライブデータを取り扱うことができる能力を備えています。

The Climate Corporationはこうした膨大なデータを、巨大なデータセットを分散コンピューティングによって高速処理するフレームワークであるMapReduceによって処理しており、システムとしてはアマゾンのAmazon Web Services(AWS)を利用しています。The Climate Corporationには数学、統計、神経科学などの博士号を取得したデータ解析の専門家が10数名在籍しており、こうしたビッグデータの解析業務に従事しています。

(※1)http://radar.weather.gov/radar.php?rid=box&product=N0R&overlay=11101111&loop=yes

(※2)http://www.climate.com/growers/total-weather-insurance/corn

(※3)イネ科の一年草の植物・穀物。熱帯アフリカ原産。主要な栽培食物のひとつであり、穀物としての生産面積ではコムギ、イネ、トウモロコシ、オオムギに次いで世界第5位である。熱帯、亜熱帯の作物で乾燥に強く、イネ、コムギなどが育たない地域でも成長する(Wikipediaより)

オープンデータのライセンスを考える(4)データベースを巡る国内の判例

2012年10月21日 in Special

データベースを巡る国内の判例には以下の様なものがある。
(出典:http://www.softic.or.jp/YWG/reports/dbrelated.html)

◆オフィスキャスター-デジタルピクチャー事件
情報分類体系について創作性を認定し、データベースの著作権(複製権)を侵害するものと認められた。

◆日本電信電話-ダイケイ事件
タウンページのデータを元に作成された職業別データベースが著作権を侵害するとして損害賠償を求めたもの。
職業分類体系によって電話番号情報を職業別に分類した点において,タウンページデータベースのデータベースの著作物性を認定。

◆アサバン印刷-東日本電信電話事件
東京23区を地域別に6分冊化した職業別電話帳についてタウンページがその編集著作権を侵害しているとして損害賠償を請求したもの。
編集著作物として狭い範囲の創作性を認定したが、一部複製だけでは権利侵害とならず。

◆翼システム-システムジャパン事件
データベースの著作物として創作性は否定されたが、民法不法行為として損害賠償を認定。

これらの判例からは、著作物性の認定だけが絶対条件ではなく、複製の度合いや他の法令(不法行為法)との組み合わせで、総合的に判断されるケースがあることが分かる。
翼システム-システムジャパン事件の例では、著作物性を認定されない(例えば事実情報のみの)データベースであったとしても損害賠償を認定される可能性があることが示されている。

言い換えると、日本には「データベース権」は無いが、著作権法以外の法令により事実情報だけのデータベースであっても保護される可能性があると言える。

オープンデータのライセンスを考える(3)データとデータベース

2012年10月21日 in Special

Photo (c) dullhunk, licensed under CC BY.

次に「データ」と「データベース」の違いをみてみよう。Wikipedia によれば「データベース」の定義は以下の通り。

データベース(英: database, DB)は、特定のテーマに沿ったデータを集めて管理し、容易に検索・抽出などの再利用をできるようにしたもの

つまり特定のテーマに沿ったデータの集合体が「データベース」であり、再利用しやすいように構成されている。画像、音声、映像、論文などであればデータそれ自体に加えて内容を把握するために日付、タイトルといったいわゆるメタデータ(あるいはリファレンス)も付加されるであろう。

日本の著作権は「データベース」を以下のように捉えている。

データベースとは
・「論文、数値、図形その他の情報の集合物であって、それらの情報を電子計算機を用いて検索できるように体系的に構成したもの」(2条1項10号の3)
データベースの著作物
・「情報の選択又は体系的な構成」に創作性があるかどうかで著作物に該当するかどうかを判断(12条の2第1項)

つまりデータベース内の情報の選択や体系的な構成に創作性がある場合は、内容が事実情報であるか否かに関わらず著作物と判断されるのだ。例えば「日本のIT業界に影響を与えた100人」というメタデータ(リファレンス)のデータベースがあり、独自の視点で100人を選んでいる場合には著作物とみなされる可能性が高い。逆に言えば、事実情報を単純に、例えば発生順やあいうえお順で並べたものは著作物とはみなされない。これが日本の著作権である。

一方、ヨーロッパには「データベース権」というデータベース固有の権利が存在する。データベース指令(その修正、及び加盟国による国内法への置き換えを含む。)の第3章(スイ・ジェネリス特別権)に基づく権利を意味し、コンテンツの全体又は実質的部分の抽出及び再利用、並びに第10.4条に基づいて関連する法域で行使可能な類似の権利を含む。

「データベース権」とはすなわち著作権でカバーされない事実情報であっても、相応のコストを掛けて収集したデータの集合に一定の権利を認めるものである。EU発祥で、日本やアメリカではまだ認められていない。

オープンデータの基本理念のひとつはデータの利用者を可能な限り制限しないことである。すなわちそれは国の垣根を超えた活動であることを意味する。こういった国際的な動きであるオープンデータ、オープンガバメントを語る上で「データベース権」は避けて通れない概念であるが、上述の通り国により法制度のカバー範囲が異なるので、各国でその差異を理解し、ギャップを埋めるという作業がどうしても必要となってくる。本稿の主眼はそこにある。

オープンデータのライセンスを考える(2)データの種類と著作権

2012年10月20日 in Special

Photo (c) Horia Varlan, licensed under CC BY.


それでは「データ」にはどのようなものがあるだろうか。問題解決に役立つ「情報」を取り出せる可能性のある数値、写真、図画、録音、録画、記事、等々、といったものは幅広く「データ」と考えられるであろう。その多くは電子化され、コンピュータ内では通常その種別は拡張子で区別される。

これらのデータを取り扱う際に注意しなければならないのが知的財産権、とりわけ著作権である。日本では著作権は特別な手続き無しに著作物に発生し、放棄できないものとされる強い権利である。

データの中には写真などのように明らかに著作物とみなされるものと、統計値などのように事実情報であり著作権が及ばないとされるものがある。その境界についての判断は専門家の領域であり、最終的には司法判断を待つべきものであるが、いずれにしてもデータには著作物と事実情報が混在している可能性があると考えるべきである。

著作物に生じる著作権を、著作権者の判断で利用許諾するための宣言、あるいは契約がライセンスである。著作物(コンテンツ)に対するオープンなライセンスとしてはクリエイティブ・コモンズの「CC0」「CC BY」「CC BY-SA」などが、ドキュメントに対するものとしてはフリー・ソフトウェア・ファウンデーションの「GFDL」などが代表的なものである。

オープンデータのライセンスを考える(1)データとは?

2012年10月20日 in Special

Photo (c) tiseb, licensed under CC BY.

オープンデータのライセンスについて、シリーズで考えてみたい。まず「データ」とは何だろうか。Wikipediaによればその定義は以下の通りだ。

概念

伝達、解釈、処理などに適するように形式化、符号化されたもの、または再度情報として解釈できるものをいう。与件または所与ともいう。data, datum(英語)はラテン語・イタリア語のdare(与える)を語源とする。中国語では「資料」または「数据」ともいう。
直面している問題の解決や、意思決定に役立つか否かという観点から、データと情報を区別する場合もある。その場合においてデータとは、情報を生みだすための素材のことを呼び、データのなかの問題解決に役立つ材料のみを情報とよぶ。データを受けとった人によって、さらにはその人の状況によって、データであるか、情報であるかは変化することになる。
端的に言うと、意味のあるデータが「情報」となる。

規格上の定義

国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は “A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing.”「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。

この定義を基にすると、「データ以前」ともいうべき、形式化、符号化されていないものの存在に気づく。例えば「手書きメモ」や「手書き調査票」などは情報を取り出しやすい形式化、符号化が行われていないことが多い。一方、人が理解しやすい「情報」はデータ処理の結果として、視覚化や改竄防止措置などの加工が加えられた上で発表されることが多く、データとして使いやすい形になっていない。

このように「データ以前」「データ」「情報」の3段階があるとすればオープンデータとして求められているのは2番めの「データ」であり、即ちこれがティム・バーナーズ=リーの言う「Raw Data」である。

「データ以前」のものはコンピュータ・システムに乗せる場合には必然的に「データ」化されるが、コストを要するのですぐさま対応できるわけではない。しかしながら「情報」についてはその基となった「データ」がどこかに存在している可能性が高い。従ってその元「データ」を得るコストは本来ほとんど掛からないはずである。

オープンデータを語る時に悪の象徴とされている感のある「PDF」は「情報」であるにも関わらず、その公開者が「データ」処理を外部委託している場合には手元に「データ」が無い場合がある。このため、データをオープンにしようと思っても即座には対応できない、という問題を抱えている。過去の契約に遡ることは難しいかもしれないが、これからのものについては委託時の契約見直しなどの対策が待たれるところである。

debugIT、オープンデータで抗菌薬耐性と闘う

2012年10月19日 in Special

世界保健機関(WHO)によれば、感染症の原因となる微生物がその治療薬の効果から逃れる方法(耐性)を身につけ、治療薬が効かなくなる抗菌薬耐性は、以下に示すような深刻な問題を世界中で引き起こしています

  • 毎年44万人もが新たに多剤耐性結核(MDR-TB)にかかり、そのうち少なくとも15万人が死亡している
  • 院内感染の多くがメチシリン耐性黄色ブドウ球菌(MRSA)のような高度耐性菌によって引き起こされている

出典:(※1)

抗菌薬耐性に関するこうした危機的な状況に立ち向かうために、EUが始めたプロジェクトがdebugITです。DebugITとは、”Detecting and Eliminating Bacteria Using Information Technology”のことであり、多数の医療機関が保有するデータを集めて解析し、抗菌薬耐性と闘う方法を協働で発見する仕組みです。DebugITは、欧州委員会の第7次枠組計画(FP7–217139)から資金を得て、2008年1月1日から2012年6月30日にかけて実施され、ベルギー、ドイツ、ブルガリア、フランス、チェコ、スウェーデン、ギリシャ、イギリス、スイスから14の医療機関・大学が参画しました。

出典:(※1)

debugITでは、形式も内容も異なる、さまざまな病院情報システムから情報をかき集めて、それを共通のドメインのオントロジーにマッピングします。集めたデータに対しては、データマイニングの技術によって解析が行われ、有用な知識を抽出します。抽出された知識はクラウド上に1つのリポジトリとして置かれ、どこからも利用することができます。

出典:(※1)

医療関係者はdebugITを利用して、医療機関における抗菌薬耐性の発生状況をモニタリングし、どのタイプのバクテリアがどのタイプの抗生物質に耐性を示しているのかを突きとめ、その状況下において最も効果的な薬剤を選択し、治療計画を策定することができるようになります。

debugITプロジェクト関係者によれば、抗菌薬耐性へ迅速で的確に対応するためには、コミュニティや国レベルではデータ量が足りず不可能であり、EUレベルの多数の国から医療機関が参加し、大量のデータの蓄積と解析を行う必要があるとのことです。大きな問題に取り組むためには、大きな枠組みと協力体制が必要になる場合もありますが、その効果は非常に大きいものがあります。

(※1) http://www.debugit.eu/news/documents/DebugIT_Les_Pensi%C3%A8res__2_.pdf

ハザードマップポータルとRaw Data Now!

2012年10月18日 in Special

出典:http://disapotal.gsi.go.jp/

国土交通省は全国の地方公共団体が作成した各種ハザードマップにアクセスできる「ハザードマップポータル」を提供しています。洪水、内水、高潮、津波、土砂災害、火山、地震となんでもそろっています。日本地図から見たい地域をクリックしていくことで、最終的には地方自治体が作成し公開しているハザードマップ等の情報に到達できるようになっています。これはとても使いやすいポータルで、人が防災上必要な情報を得るのにはとても役に立ちます。

このポータルサイト自体は人を対象としているので、その点については素晴らしいポータルになっていると思います。しかし人には簡単なインタフェースになっているがゆえに、プログラムからは全くアクセスできません。ほとんどの場合、最終的に行き着く先はpdfです。プログラムから見たいのは、pdfではなく、それを描くために使った生データです。まさにこれがティム・バーナーズ=リーの”Raw Data Now!“なのです。

ライセンスの問題をひとまず置いておき、ここでの問題を考えてみると、「データをそのまま出してもわからない」だろうし、「住民にわかりやすく情報を伝えるのが地方自治体の使命」であるから、生データではなくできるだけ住民にわかりやすい形にしなければならないという考えが見えます。これは間違いではありません。ただ、すこし足りません。

住民の中には、「自分でデータを分析したり解釈したい人」や、「自分でデータをビジュアライズしたい人」が増えています。特に生まれた時からデジタル機器に囲まれ、ソーシャルメディアを遊び場としてきたデジタルネイティブ世代はその傾向が強いと思います。こうした住民がいることを理解してもらえれば、意外と早く”Raw Data Now!”と叫ばなくてもすむ時が来るかもしれません。