You are browsing the archive for 2012 10月.

オープンデータのライセンスを考える(12)PDDL

2012年10月31日 in Special

ODCの3つ目のライセンスであるPDDL (Open Data Commons Public Domain Dedication and License ) はデータ/データベースのパブリックドメイン・ライセンスである。(邦訳は未完)

PDDL もODC-By 同様、事実情報由来のデータのみに適用されるので著作物は別途に考えなければならない。これに対してクリエイティブ・コモンズのCC0 はデータとコンテンツの双方をカバーするとされているのでオープンデータをパブリックドメインに置きたい場合はCC0 を選んだ方がシンプルに宣言できるだろう。

CC0 の唯一の課題は正式な日本語化、すなわち国内法とのすり合わせがまだ終わっていない点だ。現時点ではパブリックドメインを宣言したとしても、それが日本の著作権法と整合しているのか、まだ一般的な認識は得られていないのではないか。

権利主張しないから自由に使って欲しい、と思った時に「パブリックドメイン」を高らかに宣言するとパブリックドメインとは何かが明確に定義及び法との整合性が明確化されていない以上、むしろその宣言の実効性が危うくなるという逆説的な状況がある。この点においてむしろ「パブリックドメイン」という言葉を使わず単に「誰でもご自由にお使いください」といった日本語での宣言の方が(現時点では)むしろ法的な明確さは増すのではないかと思うのだがどうだろうか。

メキシコの情報自由化法

2012年10月31日 in News

出典:(※1)

Sunlight Foundationのブログでアメリカとメキシコの情報自由化法について比較していましたので紹介します。メキシコの情報自由化法は”gold standard“と言われるほど進んでいて、そのポータルinfomexは、アメリカのFOIAonlineよりも先をいっているとのことです。メキシコがOpen Data Indexで2位になったのも、こうした先進的な情報自由化法が整備されていたからなのでしょう。

(※1)https://www.infomex.org.mx/gobiernofederal/home.action

オープンデータのライセンスを考える(11)ODC-By

2012年10月30日 in Special

次にODC-By(ODC Attribution License) を見てみよう。(英日対訳(試訳)
考え方は非常にシンプルで、ODbLから継承条項及び一体化したコンテンツ用のライセンスを外したものである。

即ちODbL と同様に「共有」「創作」「翻案」ができるが、従うべき条件は「(帰属)表示」のみであり「継承」と「キープ・オープン」は不要だ。ただし、コンテンツについては個々のコンテンツのライセンスに従うか、著作権者が自分であれば自分で決めることになる。このように包括的な取り扱いができない点は注意が必要である。

例えば、ODC-By と同時に著作物にはCC BYを適用するといったやり方についてのライセンス間の整合性が確認できれば、非常に使いやすいライセンスになるであろう。このあたり、専門家によるレビューを切望する次第である。

FactCheck.org、政治家のデタラメは許さない

2012年10月30日 in News

出典: http://factcheck.org/

アメリカではオバマ対ロムニーの大統領選がいよいよ目前に迫ってきました。一票でも多くの票を得るために、両候補者はそれぞれ刺激的な数字を上げてアピールしたり、相手を攻撃したりしています。しかし、意図的であるかどうかはわかりませんが、そうした数字にはかなりの頻度で間違いが含まれています。

こうした状況の中、有権者が頼りにしているのがFactCheckという団体です。FactCheckは政治家の演説、インタビュー、ビデオなど、さまざまなメディアを通じて発せられる発言を監視し、その中に含まれているデータなどが本当に正しいかどうかをチェックしています。たとえば、ある候補者が「今の政権になってから失業率が3パーセント上がった」という発言をすると、すぐさまそのデータが正しいかどうかがチェックされ、間違いであった場合には公表されます。「私はA法案に最初から賛成してきた」というような発言もチェックされ、途中で態度を変えたことが明らかになると、それも公表されます。

実際、オバマ対ロムニーの討論会においても、双方ともかなりの数のデタラメが含まれていました。有権者の中にはFactCheckの情報を見て、より誠実な、あるいはよりデータに熟知している候補者を選ぶ人もかなりいるようです。こうしたFactCheckのような団体が活躍できるのも、公的データがオープンにされている環境があるからこそです。

オープンデータビジネス1 1兆円を超える市場規模

2012年10月30日 in Special

オープンデータの市場規模はEUでは280~320億ユーロと見積られています。GDP比で換算すると日本では1.0~1.2兆円に相当します。さらに直接的な経済効果は1.5兆円、経済波及効果は5.4兆円にも上ります。

オープンデータ市場には大きく分けて2つの種類があります。1つ目は、オープンデータを活用したアプリケーション構築を支援するシステムやサービスを提供する分野で、アプリ構築市場と呼ばれています。2つ目は、オープンデータを活用した画期的で新しいサービスを創造する分野で、新サービス市場と呼ばれています。

アプリ構築市場における代表的な例は、政府などのデータポータルを開発・運用するビジネスです。例えば、イギリス政府のdata.gov.ukの開発や運営を行うCKANや、アメリカ政府のdata.govの運営を担うSocrataなどがこの領域の代表的なプレーヤーです。その他にも公的機関のデータを整形したり洗浄したりして、公開できるようにすることを支援する企業や、データに対してプログラムからアクセスできるようにするためのAPI開発に特化した企業などが現れています。

一方、新サービス市場の例としては、オープンデータを活用して全く新しい農家向け収入保障保険を開発したThe Climate Corporation や、不動産を選択する際に消費者に大きな影響を与える住環境に関する情報を詳細に提供するMRIS(Metropolitan Regional Information Systems)などがあります。

オープンデータのライセンスを考える(10)ODbLの主要概念

2012年10月29日 in Special

ODbLでキーとなる用語をもとに、その背景にあるデータベース権に関わる概念を見て行こう。

派生データベース(Derivative Database)

著作物でいえば二次的著作物に相当するもの。後述の「集合データベース」と対をなす概念であり、ODbLの継承が必要なデータベースを指す。まるごとコピーして改変した場合だけでなく、実質的な部分であれば一部の利用であっても該当する。

実質的(Substantial)

「実質的」な利用か否かの判断を一律に決めることは難しく、ケースバイケースでの判断とならざるを得ないだろう。OpenStreetMap(OSM)では暫定的に「実質的でない」ものの例として以下のようなものを挙げている。(詳細はOpen Data License/Substantial – Guideline 参照)

  • 100件未満の地物。
  • 100件以上の地物であっても、「抽出」が非系統的であり、明らかにあなた自身の質的な基準、例えば友人と共有するための個人的なマップのためにあなたが訪れたすべてのレストランの位置の抽出、あるいはあなたが書いている本の付録として選んだ歴史的な建物の位置の利用、といった場合に限り、我々は非「実質的」とみなします。あるエリア内の全飲食店や、全てのお城の系統的な抽出は系統的なものと考えられます。
  • 住民が1000人までのエリアに関連する地物。ヨーロッパの村落などのような小さくて人口密度の高いエリアや、例えばオーストラリアのブッシュの1区画のような広域で人口密度の低いエリアなどが考えられます。

集合データベース(Collective Database)

ODbLを継承する必要が無いケースを明らかにするための概念のひとつ。何をもって「集合データベース」と判断するか、その基準には議論の余地がある。OSMでは現在のところ「名前」や「位置」のようなシンプルな判断基準だけで他のデータベースとゆるやかに連携している場合は「集合データベース」と考えられる、とされている。ODbLでライセンスされたデータベースと他のデータベースを組み合わせたサービス提供等を考える場合には、「集合データベース」とみなされる使い方であれば、他のデータベースにODbLを適用せずに利用することができる。 (詳細はLegal FAQ の3d参照)

製作著作物(Produced Work)

オリジナルのデータベース、派生データベース、又は集合データベースの一部分としてのオリジナルデータベースについて、そのコンテンツの全体又は実質的部分を使用することによって発生した著作物(画像、視聴覚資料、テキスト、又は音声など)を意味する。ODbLの文脈で頭にProduced と付いているのは、データベースを元に製作された著作物の意味合いがある。例えば画像としての地図を指し、データベースではないのでODbLの継承条項は及ばない。由来となったデータベースの表記は必要だが、製作した人が新たにライセンスを設定することができる。(詳細はLeagal FAQ の3c あるいはProduced_Work – Guideline を参照)

オープンデータのライセンスを考える(9)ODbLの概要

2012年10月29日 in Special

それではODbLの要約文を見て行こう。(注:正式な内容は原文を参照のこと)

ODC オープン・データベース・ライセンス(ODbL)の要約

これはODbL 1.0 ライセンスの一般の人に読みやすいようにした要約です。下段の免責条項を参照してください。

あなたは以下の条件に従う場合に限り、自由に

  • 共有: データベースを複製、頒布及び利用することができます。
  • 創作: データベースから著作物を作成することができます。
  • 翻案: データベースへの改変、変形及び加工ができます。

「創作(Create)」について補足すると、例えば地理データベースであればその中身は無味乾燥な緯度経度や文字列の並びであるが、それを元に視覚化表現、つまり描画された地図の絵柄はそうではない。同一の地理データから異なる地図が作成されることはよくあることであり、そこには作成者の高度な美的センスが要求される。従って地図の絵柄(絵図)は著作物であると考えられ、ODbLのスコープから部分的に切り離される。絵図には改めて別のライセンスを設定することが可能だ。

あなたの従うべき条件は以下の通りです

  • 表示: あなたはデータベースを公衆利用する場合、又はデータベースから著作物を製作する場合にはODbLで指定された方式に従い、帰属表示をしなければなりません。データベースを利用若しくは再頒布する場合、又はデータベースから著作物を製作する場合、あなたは、データベースのライセンスを他者に対して明示するとともに、原データベース上のあらゆる通告を保持しておく必要があります。
  • 継承: あなたは、本データベースの翻案版、又は翻案版データベースから製作した著作物を公開利用する場合、その翻案版データベースもODbLに基づき提供しなければなりません。
  • キープ・オープン: あなたは、データベース、又はデータベースの翻案版を再頒布する場合、それらに制限をかける技術的手段(DRMなど)を用いることができます。ただし、あなたは、当該手段を使用していないバージョンも再頒布しなければなりません。

「継承(Share-Alike)」はオープンを強制する考え方である。ODbLのデータベースの内容を取得して他のデータベースと混ぜても良いが、その混ぜた結果のデータベース全体にODbLを適用しなければならない。政府・自治体のオープンデータに適用する際は、趣旨に合っているかどうか注意した方が良いだろう。

免責

この文書は、ライセンス契約ではありません。これは、ODbL 1.0を理解するための簡便な参考資料に過ぎず、ODbL 1.0の主要条件を人間が読める形式で記述したものです。この文書からは、いかなる法的効力も生じません。この文書の内容は、実際のライセンス契約に定められている内容とは異なります。適用される実際のライセンス条件については、ODbL 1.0 ライセンス契約の全文を参照してください。

オープンデータのライセンスを考える(8)ODbLとDbCL

2012年10月28日 in Special

前回「現時点では、著作物と事実情報が混在する可能性のあるデータに関して、国内法と十分なすり合わせが終わっているライセンスはまだ存在しない」と申し上げたのだが、現時点でこの条件を満たす可能性が最も高いライセンスがODCが策定した3つのライセンスであろう。国内法とのすり合わせはこれから行う必要があるが、枠組みとして著作物と事実情報が混在するデータに対応したライセンスとなっている。

以後、ODCのライセンスに対する解釈や国内法との整合性の確認は日本国内ではまだほとんど行われていないため、非専門家である筆者の理解によるものであり専門家のレビューを受けていない。認識誤り等にお気づきの際はコメント等でご指摘頂ければ幸いである。

ODbL(ODC Open Database License) はデータベースに対するライセンスであるが、コンテンツ(著作物)についてはODbLと一体化したもうひとつのライセンスであるDbCL(Database Contents License) がカバーする。このようにODbLとDbCLは一体化したライセンスとしてデータベースとコンテンツの双方をカバーしている。このためODbLライセンスを宣言すればそのデータの中身が著作物なのか事実情報なのか個々に判断せずとも包括的に適用できるという作りになっている。

また、コンテンツの中には例えば画像や映像などに既に何らかのライセンスが適用されていることがある。この場合、元のライセンスはそのまま有効であり、ODbL/DbCLは従来の著作物に対するライセンスを置き換えるものではない。ただし、ライセンス間の整合性の問題や国ごとの著作物の解釈差異が発生し得る点には注意が必要である。

ODbLとDbCLについてはオープンストリートマップ・ファウンデーション・ジャパンによるライセンス原文及び要約の英日対訳(試訳)があるのでご興味のある向きは参照願いたい。

オープンデータの便益(第2部) – 経済研究へのインパクト

2012年10月27日 in Special

数週間前、Open Data in Economics上で3部作のうち第1部を書いた。情報とデータの提供が、いかに公共サービス部門の質を高める支援ができるかという点に絞った研究の上位から例を引用し、その記事ではオープンデータに関する経済研究をいくつか調べた。この第2部では経済研究に関するオープンさのインパクトについて調べてみたい。

データ駆動の時代に生きる私たち

かつてデータの数がさほど多くなく、データが高価な時代があった。例えば比較可能なGDPデータは20世紀中頃から集められ始めたばかりだ。計算能力は高額で不経済であった。データとコマンドはパンチカードにストアされ、研究者たちには自分で利用できるコンピュータで統計解析を実行するのにごく限られた時間しか割り当てられなかった。

しかしながら今日では、統計と計量経済学的解析はどこのオフィスでも行われている。世界銀行のオープン・データ・イニシアティブと政府は各国の横断的なGDPと関連するデータをわずかなマウスクリックだけでダウンロードできるようにした。たとえばのようなオープンソースの統計パッケージが利用できることにより、誰もが自分のノートPCやデスクトップPCで定量解析を仮想的に実行できるようなった。その結果、経験主義的な論文の数が実質的に増加した。左図(Espinosa et al. 2012より)は論文ごとの各年の計量経済学的(統計的)なアウトプットの数をプロットしている。定量的な研究は実際、1960年代より始まった。当時の研究者たちは数ダース程度の観察によるデータセットを使っていたが、近年の応用計量経済学者たちになると今やしばしば何百万もの詳細なミクロレベルの観察を誇るデータセットを利用している。

オープンデータとオープンアクセスが必要な理由

オープンデータに関わる主要な経済上の論点は取引による収益である。これらの収益は複数の次元からもたらされる。まず最初に、オープンデータは冗長性の排除を促す。研究者として、あなたは、しばしば何百もの異なる研究者によって行われた何千回もの基礎的な手続き(例えばデータセットのクリーニングやマージ)は、しばしば同じものであるということをご存知だろう。また、既に他の誰かが取りまとめているにも関わらず、それを共有しようとしなかったがために、無駄な時間を掛けてデータの構成を行うといった経験もお持ちだろう。これらのケースでは、他の人の成果を利用することができるオープンデータは多くの時間を節約できる。このエコシステムにあなたの成果を還元することで、さらにあなたは自分のデータを使って他の人が研究できるということを確信できるだろう。何度も車輪の再発明に投資する必要が無いことに似て、データの共有によって、研究者たちは既存のデータ上で研究したり、貴重な時間を純粋に新しい研究に捧げることができる。

2番めに、オープンデータは少ないリソース – この場合はデータセット – の最も効率的な配置を確保する。繰り返しになるが、あなたは研究者として、学者はしばしばそのデータセットを個人所有の金鉱のように扱うことをご存知だろう。実際、全ての研究経歴はしばしば独自に保有するデータセット上に構築されている。こういった秘匿が、しばしば忘れ去られたハードディスク上の価値あるデータが十分に最後まで使われることなく放置されてしまう結果を引き起こすのだ。さらに悪いことに、研究者はたとえ独自のデータセットを所有していても、そのデータセットを最も有効に活用できる最高のスキルをもっているとは限らず、他方で誰か別の人は必要なスキルを持っていてもデータを保有していないかもしれないのだ。ごく最近、私は過去数十年で名声を得た研究者グループと話す機会があったが、彼らは信じられないほどリッチなデータセットを構築していた。会話の間に、彼らが自分たちで使ったのはそのデータの10%だけで、新しい博士や才能ある研究者を至急探し出し、そのデータの持つ潜在能力の鍵を開いて欲しいのだと語った。しかし、データがオープンになれば、探す必要は無く、データは最もスキルのある研究者の手元に置くことができるのだ。

最後の、そして最も重要なことは、オープンデータは、透明性を増すことにより、同時に科学的な厳格さを育成することになる点だ。データセットと統計的な手続きが誰でも利用できるようになれば、好奇心旺盛な大学生が複製して上級研究者による研究結果を論破することだってできる。実際、学会誌では次第に研究者に、論文と一緒にそのデータセットの公開を呼びかけることが増えてきている。しかし、これが大きな前進である一方で、多くの学会誌は依然実際の発行はクローズドで、驚くような購読料を要求している。例えば、私の最初の記事の読者は気づいているかもしれないが、リンクされた研究記事の多くは購読手続きや大学との提携無しにはダウンロードできないようになっている。原初より、複製と改竄は科学の大きな特徴である。オープンデータとオープンアクセスの役割はともに知識の生成に不可欠となっているのだ。

しかし、当然ながら挑戦が待ち構えている。例えばデータへのより広いアクセスと統計ツールが良い事である一方で、マウスの数クリックで容易に回帰実行できるデータは多くの思慮のないデータマイニングや無意味な計量経済学的アウトプットを増やす結果を招く。それ故、品質保証が従来に劣らず重要なのだ。データ共有にとって何らかの障壁となる場合も出てくるであろう。いくつかのケースでは、研究者は自分の生活のうち相応の時間をそのデータセットの構築に投資しており、この場合、単に誰とでも自分の「赤ちゃん」を気持よく共有できる訳ではないという点は理解できることだ。これに加えて、匿名化してあっても、ミクロレベルのデータのリリースに際しては、しばしばプライバシー保護についての関心を喚起することになる。これらの問題と既にある解決法については、次の記事で論じる予定だ。

原文(2012/10/23 Open Knowledge Foundation Blog 記事より):
Original post The Benefits of Open Data (part II) – Impact on Economic Research / Guo, licensed under CC BY 3.0.

Hurricane Sandy に見るオープンデータの使われ方

2012年10月27日 in Special

カリブ海で発生したハリケーン「サンディ」はジャマイカ、キューバを縦断し、勢力を落としながらも米国東海岸に迫りつつあります。

自然災害などの危機に際しては多方面にわたる情報収集や対策が必要なため、政府・公共機関に任せるだけでなく様々な立場からの協力が当たり前のように行われるようになってきました。

「サンディ」に関しても既に自発的な情報収集・提供サイトがいくつか立ち上がっています。

ハリケーン上陸を前に、なぜここまで情報を準備できているのでしょうか。今回は2つ目のHurricane Sandy User Map Gallery を例に、その理由を探ってみたいと思います。

このギャラリーには2012/10/27現在、ハリケーン「サンディ」に関する33種類の様々な地図が作成・公開されています。ESRI社はGISソフト分野では世界最大といわれ、利用者に災害時用の「Disaster Response」というサービスを提供しています。そのテンプレートのひとつに「Hurricanes & Cyclones」があり、アクティブなハリケーンとして「サンディ」の情報が提供されています。内容としては地図上に台風の進路予測などの気象情報が表現され、同時にtwitter、Flickr、YouTubeといったソーシャルなメディアからハッシュタグなどで関連情報を自動収集することもできるようになっています。Ushahidiとよく似た仕組みです。

そのサービスの情報源を見ると、ソーシャルなメディアからの情報と並んでアメリカ合衆国商務省海洋大気庁(NOAA)などから提供されているオープンデータを利用していることが分かります。

米国では政府のデータは基本的にパブリックドメインという文化があるため、気象情報も当然のようにオープンデータとして公開されています。例えばNOAA配下の「国立ハリケーンセンター」では進路予測情報などがGISソフトでよく使われるshp形式やkmz形式のファイルで公開されています。ちなみにshp形式はESRI社が策定した規格でもあります。

ESRI社はこれらのデータをダウンロードして自社サービス用サーバに格納し、利用者向けにはAPI形式でデータを提供しています(例:Hurricane, Active Hurricanes – NOAA)。

多様なデータの形式整理、API化、サーバ資源の準備など、手間とコストが掛かる部分を提供者と利用者の間に企業が入ることでうまく整理できている形だと言えるでしょう。

こういった事例を参考にすれば、我々の目指すべき道筋も具体的に見えてくるのではないでしょうか。