考古学プロジェクト・リポジトリの構築II:研究データのリポジトリはどこにあるか?

2014年5月1日 in News


これは、Honorary フェローのAnthony Beck とリーズ・コンピューティング学校の大学で研究フェローのDave Harrison によるゲスト投稿です。

DART_UML_DART_2011_2013_RAW

研究ツールとしてのデータ・リポジトリ

ひとつ前の投稿で、私たちはなぜオープンサイエンスが現代科学によって創出された巨大なデータ集を利用するのに必要なのか調べました。

私たちのDetection of Archaeological residues(考古学の残留物検知)プロジェクトでは、リモート・センシング技術すなわちDARTを使用して、オープンサイエンス原則を採用し、すべてのプロジェクトの広範囲なデータをオープン・ソースCKAN プラットフォーム上に構築されたデータ・リポジトリを通じて利用可能にしました。しかし、非常に多くの学術的なリポジトリがある中で、なぜ私たちは自分たちのものを推進する必要があったのでしょうか?最後の投稿ではポータルがどのように実装されたかをじっくりと見て行きます。

DART:データ駆動の考古学

DARTの最終目標は、考古学の堆積物と非考古学の層を区別するために遠隔で検知された現象(例えば抵抗力、明白な誘電性の誘電率、作物生育、熱的性質など)に基づいて、分析手法を開発することです。DARTはデータ豊富なプロジェクトです:14か月以上にわたり、イン・シトゥー土壌水分、地温および気象データが少なくとも1時間おきに集められました。地面をベースとした地球物理学の調査とスペクトロ放射線測定横切は少なくとも毎月1回行われました。超スペクトル、LiDAR および従来斜角及び垂直の写真を集める航空写真測量は、年間を通じて開催され、研究所の分析とテストは土壌と植物サンプルの両方に関して行われました。データ・アーカイブはそれ自体テラバイトの単位です。

このアーカイブの分析は進行中です。その間に、このデータと他のリソースは自由なライセンスの下のオープンアクセス機構によって利用可能になり、そして幅広い聴衆に対してアクセス可能となっています。これを達成するために、私たちは、オープン・ソースCKAN プラットフォームを使用してデータ・リポジトリを構築しました。それがDARTPortal です。誰でも問合せることができる空間・時間データベース(同一ホスト上の)を含み、統合されたデータのマイニングや分析と同様に個々のデータへのアクセスを支援することができます。

これは、私たちがデータの分析と変換の手順を共有することができ、いかにしてデータを情報に変換し、この情報を知識へと合成するかを示すことができるかということを意味します(例えば、ダイナミックにデータベース接続を開発するこのIpythonノートを参照)。これがオープンサイエンスの本質です:他の人が複製し、より効果的に私たちの科学の上に構築することができるデータと手順の公開。

既存インフラの欠如

私たちはデータ・リポジトリを持っていますが、それを構築する必要がないということはどんなに素晴らしいことでしょう!個々の研究プロジェクトは、自分のデータ・リポジトリ・フレームワークを実装するという重荷を背負うべきでありません。これは、一人立ちできる経済規模の地方機関や国立機関により適しています。しかし、2010年には、DARTの活動を支援する研究データ・インフラの提供は存在しないか、あるいはひっそりと広告されている程度でした。個々の大学が自組織のリポジトリを提供したところもありましたが、それはデータではなく出版物(名声と業績の促進の流通)に集中していました。他の環境とは無関係に、DARTの協働パートナーの誰もそのようなデータ・インフラを提供しませんでした。

Figshareのようなデータ共有サイトは当初ありませんでしたがそれができた時は、私たちの超スペクトルデータのサイズが、とりわけ心配でした。この状況はゆっくり変わっていますが、まだ理想にはほど遠いものです。データへのアクセスの改善に関して英国Research CouncilsEngineering and Physical Science Research Council(EPSRC)が取った立場は変化への鍵となる触媒の役割を果たします。EPSRCステートメントは特に簡潔です:

原則のうちの2つは特に重要です:第1に、公的資金による研究データは広く自由に利用可能なものとして、そしてタイムリーで信頼できる方法でやり方でできるだけ広く自由に利用可能なものとして、一般に作られるべきです。そして、第2に、研究プロセスは不適切なデータのリリースによって傷つけられてはなりません。

これは単純な経済問題を作り出しました – 資金提供する会議が要求する方法で、研究データを管理できることを機関側が示すことができなければ、その会議から資金提供を受けるのは不適当ということになるでしょう。そのインパクトは、大多数の大学が今彼ら自身の、あるいはコミュニティ的に協働するデータ・リポジトリを開発しているということです。

しかし公式なデータ供託環境はどうでしょうか?

DARTは、Arts and Humanities Research Council (AHRC)、およびEPSRCが支援するScience and Heritage Programme(科学および遺産プログラム)から豊富な資金提供を受けました。これは、これらの研究会議が適切な領域リポジトリのデータアーカイブに代価を支払うであろうことを意味します。この場合はArchaeology Data Service(考古学データ・サービス)(ADS)です。そうすると、なぜ私たちは自分自身のリポジトリを作成するのでしょうか?

ADSへの供託は、プロジェクト終了後にのみ生じていたはずです。DARTでは、主としてアーカイブに保管することについてではなく再利用と協働に重点が置かれました。これらの目標は相互に排他的という訳ではありません:DARTによって採用された方法は、より多くの迅速な公開と「全ての」アーカイブへのアクセスも認める一方で(よく文書化されたASCII形式、豊富な補足説明および探すためのメタデータなど)アーカイブ化に直接適しているデータを作ったということを意味します。これは、データが単にADSに置かれた場合よりはるかに豊富なリソース探索と説明のためのメタデータの作成をDARTにもたらしました。

DARTリポジトリのポイントは、プロジェクトの実施期間中にデータ管理の良き実践と協働を促進する環境を生み出すことでした。これは思考の重大なシフトを表しています。そこではプロジェクトとデータ収集者は、プロジェクト・ライフサイクル中のかなり初期の段階で再利用、検索、ライセンスおよびメタデータについて考慮します:要するに、もっぱら学術コミュニティにフォーカスするのではなくむしろ幅広い利害関係者のコミュニティに横断的にインパクトを持つ、動的でアクセス可能なリポジトリを作ることを。再利用を推奨する同じような支柱となる哲学はFigShareDataHub の両方に見られます。公式なデータのアーカイブ化が推奨されるべきである一方で、もし組織化された科学的なワークフローの枠組み内で、それが再利用可能でないか、より重要なことには、容易に再利用可能でない場合、そこがポイントです。

さらに、ADSはDARTのアーカイブを引き取りそうもありません。考古学のアーカイブは多くの外来あるいは余分の「材料」を生み出すことができると言われています。これはデジタル技術の無制限な利用で悪化することもあり得ます – どれだけのデジタル画像が、実際のところ同じ溝に必要でしょうか?私たちはこの議論に共感しますが、一方で「データ」と「きれいな画像」の間には差があります:データ・アナリストとして、私たちは、デジタル写真は通常はデータリソースであり、ごくまれにきれいな画像であると考えています。従って、すべての画像には価値があります。

技術における進歩が「余分な」リソースから新しいデータを抽出することができることを意味する場合、これが合成されます。例えば、Structure from Motion (SfM)は2Dの対象物から3Dの情報を抽出するコンピューター・ビジョン技術です。SfM技術は、一連のオーバーラップする写真から3Dポイント・クラウドを抽出し、そして正確な測量結果を得られるオルソ化画像を生成するのに使えます。SfMの場合には、イメージがそれぞれ「ひと束」の一部になり、ひと束の統計的特性が、合成モデルの正確さを決定するので、余剰のようなものはありません。しかしながら、人は実際的である必要があります。ADSのような組織にとって無制限のアーカイブを受け入れることは今のところ非現実的です。すなわち、レビューが必要なのは領域なのです:研究対象がその詳細なメタデータが必要なほど十分に重要な場合、アーカイブ化は十分に重要であるに違いありません。

DARTにとって、これは、ADSがアーカイブの部分集合を長期に再利用できる形式でホストしていることを意味します。これは永続的に利用可能でしょう(正式には最長25年)一方、DARTリポジトリは、私たちがサーバ費用を使い果たすまで、長期に再利用できる形式で全アーカイブを保持しているでしょう。私たちは全てのデータオブジェクトを輝かしく新しいDOIs を新たな学会用のリポジトリに移行するために、リード大学と議論しているところです。そして私たちはCKANが持っているメタデータをオープンな知識のリポジトリ、dataHub に転送することができます。
理論上、失われるものは何も無いはずです。

ずっとというのはどれくらいですか?

永続性(perpetuity)に関するポイントは興味深いです。コリンズ辞書は永続性(perpetuity)を「永遠(eternity)」として定義しています。しかしながら、ADSは「デジタル」の永続性を25年と定義します。これは問題を提起します:長期的に見て、より効果的なのは(再利用に関する保存形式への固有の焦点を持って)「公式の」環境に供託することでしょうか?あるいは「非公式な」環境(再利用と保存(Flickr、Wikimedia Commons、CKANベースのDARTリポジトリ等)への約束にフォーカスして)でしょうか?Flickr とWikimedia Commons は両方とも10年間以上存在してきました。Gitで使われているような分散型のピア・ツー・ピア共有は、より長期的な保存に適する、より強健で弾力性のある環境を生み出します。状況がより多くの微妙な差異を含むことを著作者が高く評価している一方で、特に、協働的なワークフロー開発を促進するプラットフォームの導入で、これは長期的な展開にインパクトを与えます。

私たちのライセンス選定

ライセンスはコンテンツ再利用がうまく行くためには必須のものです。ライセンスには、誰がリソースを利用できて、そのリソースで何ができて、どうやってそのリソースを出典表記するか(要求があれば)といったことが記述されています。

2つの指導的な組織、クリエイティブ・コモンズ(CC)およびオープン・データ・コモンズ(ODC)がコンテンツのライセンス設定用に法的な枠組みを開発しました。2013年11月に公表されたCCバージョン4 のリリースまでは、CCライセンスはデータをカバーしていませんでした。それらの間で、CCとODCのライセンスは、デジタル作品の形式をすべてカバーすることができます。

リソースの利用に際してライセンシーに何らの制限も課さない、最上位のレベルにあるのは、緩やかなパブリック・ドメインのライセンス(それぞれCC0とPDDL)です。パブリック・ドメインのライセンスで「何でも行く」:ライセンシーはリソースを取得し、翻案し、翻訳し、改変し、それを元に改善し(しなくても良い!)、パッケージングし、マーケティングし、販売し、等々といったことができます。制約は次の条項を使用してトップ・レベル・ライセンスに加えることができます:

  • BY – 帰属表示:ライセンシーは出典を表記しなければなりません。
  • SA – 継承:ライセンシーがリソースを翻案した場合、それらは同じライセンスの下で翻案したリソースをリリースしなければなりません。
  • NC – 非営利:ライセンシーは、事前承認なしに営利活動においてこの作品を利用してはなりません。興味深いことに、世界の多くのエリアでは、大学の講義資料の利用は営利活動と考えられる可能性があります。活動の性質に関する非営利制限であり、作品を作る機関の法的地位ではありません。
  • ND – 派生作品禁止:ライセンシーはリソースから新しいコンテンツを派生して作ることができません。

これらの各条項は、リソースの「オープン性」を減少させます。実際、NCおよびND条項は本質的なオープンではありません(これらは、誰が利用できるか、そしてこのリソースで何ができるかということを制限します)。これらの条項には中長期的にみて深刻な問題をもたらすライセンスの非互換性を生み出す可能性があります。これは、SA(継承)条項に特に当てはまります。Share-alike(継承)とは、あらゆる派生物が元となるコンテンツと同じ条件の下で利用許諾されなければならないことを意味します。コンテンツが組み合わせられた(あるいはマッシュアップされた)場合- 遺産のリソース集を構築する場合にはこれは不可欠なのですが – SA(継承)条項の下で作成されたコンテンツは、元のライセンスにない条項(BY、NCあるいはND)を含むコンテンツとは混ぜ合わせることができないのです。このライセンス非互換性はデータのコモンズ(共有地)の性質に重要な影響を及ぼします。それには主流の分析、研究あるいは政策作りの中ではめったに使われない、知識のポケットを作成するデータの景観をばらばらにする可能性があります。自動的なデータ収集と分析システムが標準になった場合、これはさらに悪化するでしょう。非営利、継承、派生作品禁止といった条項のない緩やかなライセンスは、このようなライセンスや下流再利用者の分断問題を取り除きます。

より完全なものにするために、特定のライセンスがオープンガバメント・データ向けに作成されました。公共セクター情報向けの英国ガバメント・データ・ライセンスは本質的にはBY帰属表示条項を備えたオープンライセンスです。

DARTでは、私たちは、Open Data Instituteのガイドラインに従い、クリエイティブなコンテンツ(イラスト、文字など)とデータのコンテンツとを分けました。従って、DARTのコンテンツはそれぞれCC-BY あるいはODC-BY のいずれかです。将来的には、BY(帰属表示)条項を落とした方が良いだろうと私たちは考えています。これは帰属表示のスタック(あなたが利用しているリソースが派生の派生の派生の…、といったものであった場合、どの段階で帰属表示を止められるでしょうか)を中断させるでしょう。そして、パワーポイントのプレゼンテーションにある画像に帰属表示するような、官僚的な手続きを必要とするあらゆるものが再利用を妨げることになります(人は本質的に怠惰であると常に想定しておくべきです)。Dan Cohen によるccZero+を主張している記事があります。しかしながら、影響を追跡してみると、BY条項が学術的な供託においてデフォルトになることを意味するかもしれません。

ADSは、全国のあるいは国際的なライセンスのスキーム(それらもCC以外のライセンスを認識しません)に対応していない、より制限のある独自のデフォルトのライセンスを使用しています。このライセンスの下のリソースは教育、学習および研究目的にのみ利用することができます。NC条項の利用と場合によってはND条項の利用(あなたがどのようにライセンスを解釈するかに依存しますが)が特に重要です。興味深いことに、ポリシー変更は、大学教育活動が営利であると判断された場合、独自のADSライセンスの下でのデータ利用が問題になることを意味します。
授業料の支払いが営利活動にあたるのかどうかは議論の余地があります。これが正しい場合、ADSライセンスの下で公開されたリソースは、営利活動の一部である大学教育で利用することができません。従って、学生の授業料および大学の資金調達におけるポリシー変更は、大学が、どんなデータやリソースに利用許可を与えられるかということに後々関わってくる、大学教育の営利的性質に影響を及ぼします。この潜在的な逆説を備えたライセンスを作成することが、ADSの意図でなかったかもしれない反面で、元々は比較的ゆるやかなライセンスであったとしても、独自のライセンスが開発されている場合には問題です。この曖昧さを取り除くために、ADSへの登録は、独自のADSライセンス空間を書き換えるCC ライセンスの下で提供されることが推奨されます。

DARTの場合には、ADSによるこれらのライセンス変更は問題にはならないでしょう。私たちのライセンスは緩やかなものです(帰属表示が、我々が求める唯一の条項です)。これは、出典を引用する限りにおいて、ADSは私たちのリソースでやりたいことは何でもできるということを意味しています。私たちのケースでは、これはDARTポータル上の個々のリソースの対象物や収集物になるでしょう。DARTポータル上のメタデータはADSが持っているメタデータよりはるかに豊富なので、これは良いことです。

データをオープンにすることについての関心、及び有効だと判明した反応

Christopher Gutteridge(サザンプトン大学)とAlexander Dutton(オクスフォード大学)は「データをオープンにすることへの関心、及び有効だと判明した反応」というタイトルのgoogle doc を突合せました。このドキュメントは、データへのアクセスを増やすことについて学会の同僚がよく取り上げる多くの関心について記述しています。DARTにとって、このドキュメントがカバーしていない2つの課題が問題になりました:

  • オープンデータおよび研究の新規性と、これが博士号申請に与えるかもしれないインパクトとの関係。
  • ジャーナル出版 – 特に基礎データがオープンであれば、ジャーナルは研究報告を出版しないでしょう。

前者のポイントは興味深いものです – オープンサイエンスに取り組むプロセスは、あるいは少なくともオープンデータの提供は、結果として生じる科学的プロセスの新規性を損なうでしょうか?オープンサイエンスで、一人の博士号学生の貢献や新規性がオープンな共同研究プロセスに対して、直接帰属表示するのは難しくなる可能性があります。しかしながら、それはすなわち、もしGit のようなオンラインのバージョン管理ツールが利用された場合、コードの一部やワークフローに誰が何を貢献したかは明らかです(BY条項の利点)。私たちがもっぱらオープンデータについて話している場合、この議論はさほど確かなものではありません。他の研究者(あるいはその事項のための誰か他の人)がデータにアクセスできるのが正しい一方で、正確に同じ質問に答えるために多数の研究者が同じデータを利用するということはほとんどありません。彼らが同じ質問(そしてそれらが同じ結論に達するという楽観的な仮定をすること)をする場合、同じ手法でそれを行ったであろうということはさらにありそうもないことです。仮に彼らが行ったとしても、その実装方法は異なるでしょう。同じ原始データを利用する複数の手法が同じ結論に達する場合、結論が正確であり、科学がより確かなものになったという蓋然性が高まったことになります。ここでの根本的なポイントは、21世紀の科学的な実践は、彼らの作業成果を示す人々から実質的に利益を得るであろうということです。科学的な追究(アルゴリズム、コードなど)の実際のプロセスの公開は、データ収集と出版の間のステップをより透明で、再現可能で、ピアレビューが可能なものにするでしょう。従って、もし盗作が問題となった場合、私たちは、オープンデータと研究の新規性だけが問題だと主張できるでしょう。

ジャーナル出版のポイントは同じように興味深いものです。出版物はアカデミックな業績の進歩と栄誉のための主要な基準です。この例では、公表済みのデータセットを使った論文は出版されないであろうというのは「この分野での指導的なジャーナル」のポリシーでした。ひどく極端に見えるこの条項には、信頼に足る理由は提供されていません。それはまさに、アカデミックな風景においては、ひとつのサイズが全てのアプローチに合致することは無い、ということを示しています。主にEPSRC が資金提供する作品を公表する、このジャーナルが、オープンデータに関するEPSRC ガイドラインにどのように対応するか確かめることも興味深いでしょう。

これはまた、学界には、アカデミックな業績の進歩を出版を超える他のインパクトを持つソースに直接リンクすることで21世紀の研究と奨学金により適する、新しい尺度の開発が必要だという、明確な実証です。更に、アカデミズムは、そのような変更に対処する方法を明白に実証する、地位の高いお手本をいくつか必要とします。ポリシー転換および英国での「オープンアクセス」出版に関する進行中の議論は、資金提供者、大学、研究者、ジャーナルと公共との関係を変えています。 – 同様の議論はオープンデータとオープンサイエンスに関しても生じる必要があります。

altmetrics コミュニティは「奨学金の分析と通知」のための新しい尺度を開発しています。またそのマニフェストに自分たちの精神(エトス)について記述しました。 Research Councils および政府は、公的に資金提供された研究のインパクトにはるかに大きな興味を持ちました。特筆すべきは、公共、社会及び産業へのインパクトが学術的なインパクトと同じくらい重要であるということです。アカデミックな業績の進歩を通じてインパクトに直接リンクさせ、そして基本的なデータに対するアクセスの改善を推奨し、研究プロセスのアウトプットを処理することで、データのレポジトリとワークフローの環境を通してこれに対応することは大学の責務です。

原文(2014/4/17 Open Knowledge Foundation Blog 記事より):
Original post Building an archaeological project repository II: Where are the research data repositories? / Anthony Beck, Honorary fellow, and Dave Harrison, licensed under CC BY 3.0.

Leave a reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

okfj

Written by