オープンデータの便益(第2部) – 経済研究へのインパクト

2012年10月27日 in Special


数週間前、Open Data in Economics上で3部作のうち第1部を書いた。情報とデータの提供が、いかに公共サービス部門の質を高める支援ができるかという点に絞った研究の上位から例を引用し、その記事ではオープンデータに関する経済研究をいくつか調べた。この第2部では経済研究に関するオープンさのインパクトについて調べてみたい。

データ駆動の時代に生きる私たち

かつてデータの数がさほど多くなく、データが高価な時代があった。例えば比較可能なGDPデータは20世紀中頃から集められ始めたばかりだ。計算能力は高額で不経済であった。データとコマンドはパンチカードにストアされ、研究者たちには自分で利用できるコンピュータで統計解析を実行するのにごく限られた時間しか割り当てられなかった。

しかしながら今日では、統計と計量経済学的解析はどこのオフィスでも行われている。世界銀行のオープン・データ・イニシアティブと政府は各国の横断的なGDPと関連するデータをわずかなマウスクリックだけでダウンロードできるようにした。たとえばのようなオープンソースの統計パッケージが利用できることにより、誰もが自分のノートPCやデスクトップPCで定量解析を仮想的に実行できるようなった。その結果、経験主義的な論文の数が実質的に増加した。左図(Espinosa et al. 2012より)は論文ごとの各年の計量経済学的(統計的)なアウトプットの数をプロットしている。定量的な研究は実際、1960年代より始まった。当時の研究者たちは数ダース程度の観察によるデータセットを使っていたが、近年の応用計量経済学者たちになると今やしばしば何百万もの詳細なミクロレベルの観察を誇るデータセットを利用している。

オープンデータとオープンアクセスが必要な理由

オープンデータに関わる主要な経済上の論点は取引による収益である。これらの収益は複数の次元からもたらされる。まず最初に、オープンデータは冗長性の排除を促す。研究者として、あなたは、しばしば何百もの異なる研究者によって行われた何千回もの基礎的な手続き(例えばデータセットのクリーニングやマージ)は、しばしば同じものであるということをご存知だろう。また、既に他の誰かが取りまとめているにも関わらず、それを共有しようとしなかったがために、無駄な時間を掛けてデータの構成を行うといった経験もお持ちだろう。これらのケースでは、他の人の成果を利用することができるオープンデータは多くの時間を節約できる。このエコシステムにあなたの成果を還元することで、さらにあなたは自分のデータを使って他の人が研究できるということを確信できるだろう。何度も車輪の再発明に投資する必要が無いことに似て、データの共有によって、研究者たちは既存のデータ上で研究したり、貴重な時間を純粋に新しい研究に捧げることができる。

2番めに、オープンデータは少ないリソース – この場合はデータセット – の最も効率的な配置を確保する。繰り返しになるが、あなたは研究者として、学者はしばしばそのデータセットを個人所有の金鉱のように扱うことをご存知だろう。実際、全ての研究経歴はしばしば独自に保有するデータセット上に構築されている。こういった秘匿が、しばしば忘れ去られたハードディスク上の価値あるデータが十分に最後まで使われることなく放置されてしまう結果を引き起こすのだ。さらに悪いことに、研究者はたとえ独自のデータセットを所有していても、そのデータセットを最も有効に活用できる最高のスキルをもっているとは限らず、他方で誰か別の人は必要なスキルを持っていてもデータを保有していないかもしれないのだ。ごく最近、私は過去数十年で名声を得た研究者グループと話す機会があったが、彼らは信じられないほどリッチなデータセットを構築していた。会話の間に、彼らが自分たちで使ったのはそのデータの10%だけで、新しい博士や才能ある研究者を至急探し出し、そのデータの持つ潜在能力の鍵を開いて欲しいのだと語った。しかし、データがオープンになれば、探す必要は無く、データは最もスキルのある研究者の手元に置くことができるのだ。

最後の、そして最も重要なことは、オープンデータは、透明性を増すことにより、同時に科学的な厳格さを育成することになる点だ。データセットと統計的な手続きが誰でも利用できるようになれば、好奇心旺盛な大学生が複製して上級研究者による研究結果を論破することだってできる。実際、学会誌では次第に研究者に、論文と一緒にそのデータセットの公開を呼びかけることが増えてきている。しかし、これが大きな前進である一方で、多くの学会誌は依然実際の発行はクローズドで、驚くような購読料を要求している。例えば、私の最初の記事の読者は気づいているかもしれないが、リンクされた研究記事の多くは購読手続きや大学との提携無しにはダウンロードできないようになっている。原初より、複製と改竄は科学の大きな特徴である。オープンデータとオープンアクセスの役割はともに知識の生成に不可欠となっているのだ。

しかし、当然ながら挑戦が待ち構えている。例えばデータへのより広いアクセスと統計ツールが良い事である一方で、マウスの数クリックで容易に回帰実行できるデータは多くの思慮のないデータマイニングや無意味な計量経済学的アウトプットを増やす結果を招く。それ故、品質保証が従来に劣らず重要なのだ。データ共有にとって何らかの障壁となる場合も出てくるであろう。いくつかのケースでは、研究者は自分の生活のうち相応の時間をそのデータセットの構築に投資しており、この場合、単に誰とでも自分の「赤ちゃん」を気持よく共有できる訳ではないという点は理解できることだ。これに加えて、匿名化してあっても、ミクロレベルのデータのリリースに際しては、しばしばプライバシー保護についての関心を喚起することになる。これらの問題と既にある解決法については、次の記事で論じる予定だ。

原文(2012/10/23 Open Knowledge Foundation Blog 記事より):
Original post The Benefits of Open Data (part II) – Impact on Economic Research / Guo, licensed under CC BY 3.0.

Leave a reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Shu Higashi (東 修作)

Written by

Georepublic Japan に勤務。OKJP事務局長及びオープンストリートマップ・ファウンデーション・ジャパン 事務局を兼務。Code for Japan設立発起人。内閣府電子行政オープンデータ実務者会議利活用推進WG構成員。 OpenStreetMapという自由な世界地図を作る活動をきっかけにオープンデータの活動に関わりはじめました。主な関心領域はデータのライセンシング、コミュニティ活動、市民参画、国際連携など。 投稿記事の内容はあくまで個人としてのものであり、所属する組織を代表する見解ではありません。