You are browsing the archive for open Access.

ContentMine(コンテンツ・マイン) のご紹介

2015年12月6日 in Featured, News

この記事は、オープンデータをテーマにした、「オープンデータ Advent Calendar 2015」企画の6日目の原稿です。他の記事は一覧から見られるようになっており、日ごとに記事が増えていく予定です。ぜひ、ご覧ください。
————————————————–
(訳注:この記事は Open Knowledge ブログ記事の日本語訳です)

もしオープンアクセスやオープンデータに興味があって、まだContentMine のことを聞いたことがなければ、あなたは大事なことを聞き逃しています!グラハム・スチール〈ContentMine のコミュニティマネージャ〉が、このエキサイティングな新しいツールを紹介するための記事を書いてくれました。

contentmine2

ContentMine は、100,000,000の事実を学術文献から解放することをめざしています。

私たちは「読む権利は取り出す(訳注:mine)権利である」と信じています:自分の目で文献を読むために合法的にアクセスできる人なら誰でも機械を使ってそうできるべきです。

私たちはこの権利を現実のものとし 、誰もが人文科学の蓄積された科学知識を使って研究を実施できるようにしたいのです。抽出された事実情報はCC0です。

パントン・アーム(ケンブリッジ)のContenMine チーム

パントン・アーム(ケンブリッジ)のContentMine チーム & ヘレン・ターベイ、常任理事、シャトルワース財団

社会の利益のために大量の動的な情報を集める必要のある研究は、とりわけ私たちの成果へのカギとなります。 – 私たちは適切なタイミングで適切な人々にたどりつける適切な情報を見たいのです。そして臨床試験専門家や保護論者などのプロフェッショナルとともに働きたいのです。ContentMine のツール資源、サービス、およびコンテンツは完全にオープンで、あらゆる適法な目的のために誰でも再利用できます。

ContentMineは、WikimediaOpenStreetMap、オープン・ナレッジ、その他のコミュニティの成功に触発されたもので、それぞれが個々の目的を設計し、実装し、追求する小コミュニティの成長を奨励しています。私たちはシャトルワース財団の資金提供を受けています。彼らは世界を改めて考え直すことを恐れず、世界を変えようとしている人々に出資しています。

ContentMine ウェルカムセッション

ContentMineウェルカム・トラスト・ワークショップ

ContentMine への参加方法はいくつかあります。あなたは私たちを、GitHubGoogleグループEメールTwitterで見つけることができますし、最近ではDiscourse 上に各種のオープン・コミュニティを立ち上げました。

この記事はオープンアクセス・ワーキンググループのブログからの転載です。

原文(2015/7/21 Open Knowledge Foundation Blog 記事より):
Original post Introducing ContentMine / Marieke Guy, licensed under CC BY 4.0.

okfj

by okfj

考古学プロジェクト・リポジトリの構築II:研究データのリポジトリはどこにあるか?

2014年5月1日 in News

これは、Honorary フェローのAnthony Beck とリーズ・コンピューティング学校の大学で研究フェローのDave Harrison によるゲスト投稿です。

DART_UML_DART_2011_2013_RAW

研究ツールとしてのデータ・リポジトリ

ひとつ前の投稿で、私たちはなぜオープンサイエンスが現代科学によって創出された巨大なデータ集を利用するのに必要なのか調べました。

私たちのDetection of Archaeological residues(考古学の残留物検知)プロジェクトでは、リモート・センシング技術すなわちDARTを使用して、オープンサイエンス原則を採用し、すべてのプロジェクトの広範囲なデータをオープン・ソースCKAN プラットフォーム上に構築されたデータ・リポジトリを通じて利用可能にしました。しかし、非常に多くの学術的なリポジトリがある中で、なぜ私たちは自分たちのものを推進する必要があったのでしょうか?最後の投稿ではポータルがどのように実装されたかをじっくりと見て行きます。

DART:データ駆動の考古学

DARTの最終目標は、考古学の堆積物と非考古学の層を区別するために遠隔で検知された現象(例えば抵抗力、明白な誘電性の誘電率、作物生育、熱的性質など)に基づいて、分析手法を開発することです。DARTはデータ豊富なプロジェクトです:14か月以上にわたり、イン・シトゥー土壌水分、地温および気象データが少なくとも1時間おきに集められました。地面をベースとした地球物理学の調査とスペクトロ放射線測定横切は少なくとも毎月1回行われました。超スペクトル、LiDAR および従来斜角及び垂直の写真を集める航空写真測量は、年間を通じて開催され、研究所の分析とテストは土壌と植物サンプルの両方に関して行われました。データ・アーカイブはそれ自体テラバイトの単位です。

このアーカイブの分析は進行中です。その間に、このデータと他のリソースは自由なライセンスの下のオープンアクセス機構によって利用可能になり、そして幅広い聴衆に対してアクセス可能となっています。これを達成するために、私たちは、オープン・ソースCKAN プラットフォームを使用してデータ・リポジトリを構築しました。それがDARTPortal です。誰でも問合せることができる空間・時間データベース(同一ホスト上の)を含み、統合されたデータのマイニングや分析と同様に個々のデータへのアクセスを支援することができます。

これは、私たちがデータの分析と変換の手順を共有することができ、いかにしてデータを情報に変換し、この情報を知識へと合成するかを示すことができるかということを意味します(例えば、ダイナミックにデータベース接続を開発するこのIpythonノートを参照)。これがオープンサイエンスの本質です:他の人が複製し、より効果的に私たちの科学の上に構築することができるデータと手順の公開。

既存インフラの欠如

私たちはデータ・リポジトリを持っていますが、それを構築する必要がないということはどんなに素晴らしいことでしょう!個々の研究プロジェクトは、自分のデータ・リポジトリ・フレームワークを実装するという重荷を背負うべきでありません。これは、一人立ちできる経済規模の地方機関や国立機関により適しています。しかし、2010年には、DARTの活動を支援する研究データ・インフラの提供は存在しないか、あるいはひっそりと広告されている程度でした。個々の大学が自組織のリポジトリを提供したところもありましたが、それはデータではなく出版物(名声と業績の促進の流通)に集中していました。他の環境とは無関係に、DARTの協働パートナーの誰もそのようなデータ・インフラを提供しませんでした。

Figshareのようなデータ共有サイトは当初ありませんでしたがそれができた時は、私たちの超スペクトルデータのサイズが、とりわけ心配でした。この状況はゆっくり変わっていますが、まだ理想にはほど遠いものです。データへのアクセスの改善に関して英国Research CouncilsEngineering and Physical Science Research Council(EPSRC)が取った立場は変化への鍵となる触媒の役割を果たします。EPSRCステートメントは特に簡潔です:

原則のうちの2つは特に重要です:第1に、公的資金による研究データは広く自由に利用可能なものとして、そしてタイムリーで信頼できる方法でやり方でできるだけ広く自由に利用可能なものとして、一般に作られるべきです。そして、第2に、研究プロセスは不適切なデータのリリースによって傷つけられてはなりません。

これは単純な経済問題を作り出しました – 資金提供する会議が要求する方法で、研究データを管理できることを機関側が示すことができなければ、その会議から資金提供を受けるのは不適当ということになるでしょう。そのインパクトは、大多数の大学が今彼ら自身の、あるいはコミュニティ的に協働するデータ・リポジトリを開発しているということです。

しかし公式なデータ供託環境はどうでしょうか?

DARTは、Arts and Humanities Research Council (AHRC)、およびEPSRCが支援するScience and Heritage Programme(科学および遺産プログラム)から豊富な資金提供を受けました。これは、これらの研究会議が適切な領域リポジトリのデータアーカイブに代価を支払うであろうことを意味します。この場合はArchaeology Data Service(考古学データ・サービス)(ADS)です。そうすると、なぜ私たちは自分自身のリポジトリを作成するのでしょうか?

ADSへの供託は、プロジェクト終了後にのみ生じていたはずです。DARTでは、主としてアーカイブに保管することについてではなく再利用と協働に重点が置かれました。これらの目標は相互に排他的という訳ではありません:DARTによって採用された方法は、より多くの迅速な公開と「全ての」アーカイブへのアクセスも認める一方で(よく文書化されたASCII形式、豊富な補足説明および探すためのメタデータなど)アーカイブ化に直接適しているデータを作ったということを意味します。これは、データが単にADSに置かれた場合よりはるかに豊富なリソース探索と説明のためのメタデータの作成をDARTにもたらしました。

DARTリポジトリのポイントは、プロジェクトの実施期間中にデータ管理の良き実践と協働を促進する環境を生み出すことでした。これは思考の重大なシフトを表しています。そこではプロジェクトとデータ収集者は、プロジェクト・ライフサイクル中のかなり初期の段階で再利用、検索、ライセンスおよびメタデータについて考慮します:要するに、もっぱら学術コミュニティにフォーカスするのではなくむしろ幅広い利害関係者のコミュニティに横断的にインパクトを持つ、動的でアクセス可能なリポジトリを作ることを。再利用を推奨する同じような支柱となる哲学はFigShareDataHub の両方に見られます。公式なデータのアーカイブ化が推奨されるべきである一方で、もし組織化された科学的なワークフローの枠組み内で、それが再利用可能でないか、より重要なことには、容易に再利用可能でない場合、そこがポイントです。

さらに、ADSはDARTのアーカイブを引き取りそうもありません。考古学のアーカイブは多くの外来あるいは余分の「材料」を生み出すことができると言われています。これはデジタル技術の無制限な利用で悪化することもあり得ます – どれだけのデジタル画像が、実際のところ同じ溝に必要でしょうか?私たちはこの議論に共感しますが、一方で「データ」と「きれいな画像」の間には差があります:データ・アナリストとして、私たちは、デジタル写真は通常はデータリソースであり、ごくまれにきれいな画像であると考えています。従って、すべての画像には価値があります。

技術における進歩が「余分な」リソースから新しいデータを抽出することができることを意味する場合、これが合成されます。例えば、Structure from Motion (SfM)は2Dの対象物から3Dの情報を抽出するコンピューター・ビジョン技術です。SfM技術は、一連のオーバーラップする写真から3Dポイント・クラウドを抽出し、そして正確な測量結果を得られるオルソ化画像を生成するのに使えます。SfMの場合には、イメージがそれぞれ「ひと束」の一部になり、ひと束の統計的特性が、合成モデルの正確さを決定するので、余剰のようなものはありません。しかしながら、人は実際的である必要があります。ADSのような組織にとって無制限のアーカイブを受け入れることは今のところ非現実的です。すなわち、レビューが必要なのは領域なのです:研究対象がその詳細なメタデータが必要なほど十分に重要な場合、アーカイブ化は十分に重要であるに違いありません。

DARTにとって、これは、ADSがアーカイブの部分集合を長期に再利用できる形式でホストしていることを意味します。これは永続的に利用可能でしょう(正式には最長25年)一方、DARTリポジトリは、私たちがサーバ費用を使い果たすまで、長期に再利用できる形式で全アーカイブを保持しているでしょう。私たちは全てのデータオブジェクトを輝かしく新しいDOIs を新たな学会用のリポジトリに移行するために、リード大学と議論しているところです。そして私たちはCKANが持っているメタデータをオープンな知識のリポジトリ、dataHub に転送することができます。
理論上、失われるものは何も無いはずです。

ずっとというのはどれくらいですか?

永続性(perpetuity)に関するポイントは興味深いです。コリンズ辞書は永続性(perpetuity)を「永遠(eternity)」として定義しています。しかしながら、ADSは「デジタル」の永続性を25年と定義します。これは問題を提起します:長期的に見て、より効果的なのは(再利用に関する保存形式への固有の焦点を持って)「公式の」環境に供託することでしょうか?あるいは「非公式な」環境(再利用と保存(Flickr、Wikimedia Commons、CKANベースのDARTリポジトリ等)への約束にフォーカスして)でしょうか?Flickr とWikimedia Commons は両方とも10年間以上存在してきました。Gitで使われているような分散型のピア・ツー・ピア共有は、より長期的な保存に適する、より強健で弾力性のある環境を生み出します。状況がより多くの微妙な差異を含むことを著作者が高く評価している一方で、特に、協働的なワークフロー開発を促進するプラットフォームの導入で、これは長期的な展開にインパクトを与えます。

私たちのライセンス選定

ライセンスはコンテンツ再利用がうまく行くためには必須のものです。ライセンスには、誰がリソースを利用できて、そのリソースで何ができて、どうやってそのリソースを出典表記するか(要求があれば)といったことが記述されています。

2つの指導的な組織、クリエイティブ・コモンズ(CC)およびオープン・データ・コモンズ(ODC)がコンテンツのライセンス設定用に法的な枠組みを開発しました。2013年11月に公表されたCCバージョン4 のリリースまでは、CCライセンスはデータをカバーしていませんでした。それらの間で、CCとODCのライセンスは、デジタル作品の形式をすべてカバーすることができます。

リソースの利用に際してライセンシーに何らの制限も課さない、最上位のレベルにあるのは、緩やかなパブリック・ドメインのライセンス(それぞれCC0とPDDL)です。パブリック・ドメインのライセンスで「何でも行く」:ライセンシーはリソースを取得し、翻案し、翻訳し、改変し、それを元に改善し(しなくても良い!)、パッケージングし、マーケティングし、販売し、等々といったことができます。制約は次の条項を使用してトップ・レベル・ライセンスに加えることができます:

  • BY – 帰属表示:ライセンシーは出典を表記しなければなりません。
  • SA – 継承:ライセンシーがリソースを翻案した場合、それらは同じライセンスの下で翻案したリソースをリリースしなければなりません。
  • NC – 非営利:ライセンシーは、事前承認なしに営利活動においてこの作品を利用してはなりません。興味深いことに、世界の多くのエリアでは、大学の講義資料の利用は営利活動と考えられる可能性があります。活動の性質に関する非営利制限であり、作品を作る機関の法的地位ではありません。
  • ND – 派生作品禁止:ライセンシーはリソースから新しいコンテンツを派生して作ることができません。

これらの各条項は、リソースの「オープン性」を減少させます。実際、NCおよびND条項は本質的なオープンではありません(これらは、誰が利用できるか、そしてこのリソースで何ができるかということを制限します)。これらの条項には中長期的にみて深刻な問題をもたらすライセンスの非互換性を生み出す可能性があります。これは、SA(継承)条項に特に当てはまります。Share-alike(継承)とは、あらゆる派生物が元となるコンテンツと同じ条件の下で利用許諾されなければならないことを意味します。コンテンツが組み合わせられた(あるいはマッシュアップされた)場合- 遺産のリソース集を構築する場合にはこれは不可欠なのですが – SA(継承)条項の下で作成されたコンテンツは、元のライセンスにない条項(BY、NCあるいはND)を含むコンテンツとは混ぜ合わせることができないのです。このライセンス非互換性はデータのコモンズ(共有地)の性質に重要な影響を及ぼします。それには主流の分析、研究あるいは政策作りの中ではめったに使われない、知識のポケットを作成するデータの景観をばらばらにする可能性があります。自動的なデータ収集と分析システムが標準になった場合、これはさらに悪化するでしょう。非営利、継承、派生作品禁止といった条項のない緩やかなライセンスは、このようなライセンスや下流再利用者の分断問題を取り除きます。

より完全なものにするために、特定のライセンスがオープンガバメント・データ向けに作成されました。公共セクター情報向けの英国ガバメント・データ・ライセンスは本質的にはBY帰属表示条項を備えたオープンライセンスです。

DARTでは、私たちは、Open Data Instituteのガイドラインに従い、クリエイティブなコンテンツ(イラスト、文字など)とデータのコンテンツとを分けました。従って、DARTのコンテンツはそれぞれCC-BY あるいはODC-BY のいずれかです。将来的には、BY(帰属表示)条項を落とした方が良いだろうと私たちは考えています。これは帰属表示のスタック(あなたが利用しているリソースが派生の派生の派生の…、といったものであった場合、どの段階で帰属表示を止められるでしょうか)を中断させるでしょう。そして、パワーポイントのプレゼンテーションにある画像に帰属表示するような、官僚的な手続きを必要とするあらゆるものが再利用を妨げることになります(人は本質的に怠惰であると常に想定しておくべきです)。Dan Cohen によるccZero+を主張している記事があります。しかしながら、影響を追跡してみると、BY条項が学術的な供託においてデフォルトになることを意味するかもしれません。

ADSは、全国のあるいは国際的なライセンスのスキーム(それらもCC以外のライセンスを認識しません)に対応していない、より制限のある独自のデフォルトのライセンスを使用しています。このライセンスの下のリソースは教育、学習および研究目的にのみ利用することができます。NC条項の利用と場合によってはND条項の利用(あなたがどのようにライセンスを解釈するかに依存しますが)が特に重要です。興味深いことに、ポリシー変更は、大学教育活動が営利であると判断された場合、独自のADSライセンスの下でのデータ利用が問題になることを意味します。
授業料の支払いが営利活動にあたるのかどうかは議論の余地があります。これが正しい場合、ADSライセンスの下で公開されたリソースは、営利活動の一部である大学教育で利用することができません。従って、学生の授業料および大学の資金調達におけるポリシー変更は、大学が、どんなデータやリソースに利用許可を与えられるかということに後々関わってくる、大学教育の営利的性質に影響を及ぼします。この潜在的な逆説を備えたライセンスを作成することが、ADSの意図でなかったかもしれない反面で、元々は比較的ゆるやかなライセンスであったとしても、独自のライセンスが開発されている場合には問題です。この曖昧さを取り除くために、ADSへの登録は、独自のADSライセンス空間を書き換えるCC ライセンスの下で提供されることが推奨されます。

DARTの場合には、ADSによるこれらのライセンス変更は問題にはならないでしょう。私たちのライセンスは緩やかなものです(帰属表示が、我々が求める唯一の条項です)。これは、出典を引用する限りにおいて、ADSは私たちのリソースでやりたいことは何でもできるということを意味しています。私たちのケースでは、これはDARTポータル上の個々のリソースの対象物や収集物になるでしょう。DARTポータル上のメタデータはADSが持っているメタデータよりはるかに豊富なので、これは良いことです。

データをオープンにすることについての関心、及び有効だと判明した反応

Christopher Gutteridge(サザンプトン大学)とAlexander Dutton(オクスフォード大学)は「データをオープンにすることへの関心、及び有効だと判明した反応」というタイトルのgoogle doc を突合せました。このドキュメントは、データへのアクセスを増やすことについて学会の同僚がよく取り上げる多くの関心について記述しています。DARTにとって、このドキュメントがカバーしていない2つの課題が問題になりました:

  • オープンデータおよび研究の新規性と、これが博士号申請に与えるかもしれないインパクトとの関係。
  • ジャーナル出版 – 特に基礎データがオープンであれば、ジャーナルは研究報告を出版しないでしょう。

前者のポイントは興味深いものです – オープンサイエンスに取り組むプロセスは、あるいは少なくともオープンデータの提供は、結果として生じる科学的プロセスの新規性を損なうでしょうか?オープンサイエンスで、一人の博士号学生の貢献や新規性がオープンな共同研究プロセスに対して、直接帰属表示するのは難しくなる可能性があります。しかしながら、それはすなわち、もしGit のようなオンラインのバージョン管理ツールが利用された場合、コードの一部やワークフローに誰が何を貢献したかは明らかです(BY条項の利点)。私たちがもっぱらオープンデータについて話している場合、この議論はさほど確かなものではありません。他の研究者(あるいはその事項のための誰か他の人)がデータにアクセスできるのが正しい一方で、正確に同じ質問に答えるために多数の研究者が同じデータを利用するということはほとんどありません。彼らが同じ質問(そしてそれらが同じ結論に達するという楽観的な仮定をすること)をする場合、同じ手法でそれを行ったであろうということはさらにありそうもないことです。仮に彼らが行ったとしても、その実装方法は異なるでしょう。同じ原始データを利用する複数の手法が同じ結論に達する場合、結論が正確であり、科学がより確かなものになったという蓋然性が高まったことになります。ここでの根本的なポイントは、21世紀の科学的な実践は、彼らの作業成果を示す人々から実質的に利益を得るであろうということです。科学的な追究(アルゴリズム、コードなど)の実際のプロセスの公開は、データ収集と出版の間のステップをより透明で、再現可能で、ピアレビューが可能なものにするでしょう。従って、もし盗作が問題となった場合、私たちは、オープンデータと研究の新規性だけが問題だと主張できるでしょう。

ジャーナル出版のポイントは同じように興味深いものです。出版物はアカデミックな業績の進歩と栄誉のための主要な基準です。この例では、公表済みのデータセットを使った論文は出版されないであろうというのは「この分野での指導的なジャーナル」のポリシーでした。ひどく極端に見えるこの条項には、信頼に足る理由は提供されていません。それはまさに、アカデミックな風景においては、ひとつのサイズが全てのアプローチに合致することは無い、ということを示しています。主にEPSRC が資金提供する作品を公表する、このジャーナルが、オープンデータに関するEPSRC ガイドラインにどのように対応するか確かめることも興味深いでしょう。

これはまた、学界には、アカデミックな業績の進歩を出版を超える他のインパクトを持つソースに直接リンクすることで21世紀の研究と奨学金により適する、新しい尺度の開発が必要だという、明確な実証です。更に、アカデミズムは、そのような変更に対処する方法を明白に実証する、地位の高いお手本をいくつか必要とします。ポリシー転換および英国での「オープンアクセス」出版に関する進行中の議論は、資金提供者、大学、研究者、ジャーナルと公共との関係を変えています。 – 同様の議論はオープンデータとオープンサイエンスに関しても生じる必要があります。

altmetrics コミュニティは「奨学金の分析と通知」のための新しい尺度を開発しています。またそのマニフェストに自分たちの精神(エトス)について記述しました。 Research Councils および政府は、公的に資金提供された研究のインパクトにはるかに大きな興味を持ちました。特筆すべきは、公共、社会及び産業へのインパクトが学術的なインパクトと同じくらい重要であるということです。アカデミックな業績の進歩を通じてインパクトに直接リンクさせ、そして基本的なデータに対するアクセスの改善を推奨し、研究プロセスのアウトプットを処理することで、データのレポジトリとワークフローの環境を通してこれに対応することは大学の責務です。

原文(2014/4/17 Open Knowledge Foundation Blog 記事より):
Original post Building an archaeological project repository II: Where are the research data repositories? / Anthony Beck, Honorary fellow, and Dave Harrison, licensed under CC BY 3.0.

okfj

by okfj

考古学プロジェクト・リポジトリの構築Ⅰ:オープンサイエンスとはオープンデータを意味します

2014年4月28日 in News

これは、Honorary フェローのアンソニー・ベックとリーズ・コンピューティング学校の大学で研究フェローのデイブ・ハリソンによるゲスト投稿です。

2010年に、私たちは「オープンなアプローチはどのように考古学者に力を与えることができるか。」という副題を付けたブログ記事シリーズをオープン・ナレッジ財団に寄稿しました。そこではDARTプロジェクトについて議論しましたが、これは既に到達点に達しています。

DART プロジェクトは大量のデータを集めました。また、プロジェクトの一部として、私たちは、そのカタログを作り、オープン・ナレッジ財団のオープンソース・データカタログおよびリポジトリであるCKAN を使って利用できるように目的に合わせたデータ・リポジトリを作りました。ここで、私たちは、DARTプロジェクトに照らしてオープンサイエンスの必要性を改めて確認してみます。次回の投稿では、様々な非常に多くのリポジトリと共に、オープンサイエンスを成功に導くには自ら動き始める必要があると私たちが感じたのはなぜか、見てみる予定です。

オープンデータは科学を変えられる

公開調査は科学系企業の中心にあるものです。科学理論、そしてその基になった実験と観測のデータの公開は、他の人が誤りを識別し、理論を支持、拒絶、あるいは洗練し、より深い理解と知識のためのデータ再利用を可能にします。科学の自己補正に対する強力な能力は、この調査と挑戦に対するオープン性から生まれます。(英国学士院、オープンな企業としての科学、2012年)

英国学士院のオープンな企業としての科学という報告書は、21世紀のコミュニケーション技術が、いかに科学者の行動を変えているのか、いかに社会が科学と関わっているかを識別します。その報告書は、「オープンな」質問が、研究と社会の両方において、科学の成功には極めて重要であることを認めています。これは、データおよび他の研究の出力へのアクセス(オープンデータ)と、さらにデータが知識に変えられるプロセス(オープンサイエンス)を含むことで出版物へのオープンなアクセス(オープンアクセス)を越えるものです。

オープンデータの根本的な論理的根拠はこちらです:大量の「生の」データへの足かせの無いアクセスは、それまで不可能だった再利用と知識生成のパターン化を可能にします。豊富で、オープンにアクセス可能なデータ集を作成することは、一連のデータ・マイニングと視覚化の挑戦につながります。実際に行う場合、これには領域横断的(学術界内外の)で学際的な共同作業が必要です。これに向けての重要なステップは、データに効果的にアクセスでき、再利用できるフレームワークの作成です。継続に対する賞は、コミュニティ、実践者、科学および社会を変革する、改善された知識に導かれる政策と実践です。

そのようなフレームワークの必要性は、大量データ、データの分析に対するアプローチの範囲、そして幅広い分野横断的な連携での学問分野において、最も重要になるでしょう。- そのため私たちのプロジェクト、リモート・センシング技術を利用した考古学残留物の検知(DART)にとってそれが重要であることが分かるのは必然的な帰結でした。

DART:データ駆動の考古学

目標にするDARTは、考古学の沈殿物と非考古学の層を区別するために、遠隔で検知された現象(例えば抵抗力、明白な誘電性の誘電率、作物生育、熱的性質など)に基づいて、分析手法を開発する予定です。DARTによって集められたデータは広範囲の異なるコミュニティに関連しています。オープンサイエンスは2つの目的で採用されました:

  • 公共領域にプロジェクト・データおよび処理アルゴリズムを置くことにより、研究のインパクトを最大限にするため。
  • 共同作業、そして拡張研究価値によって、増強することができるように、データの周りの研究者そして他のエンドユーザのコミュニティを構築するため。

DARTが提供するデータ種別である「コントラスト力学」は政策決定者と学芸員マネージャが歴史的景観における状態と変化率の両方を評価するのに不可欠で、ヨーロッパ景観協定(ELC)コミットメントへの取り組みを支援します。しかしながら、データを最大限利用することは欧州宇宙機関が開発中の、環境とセキュリティのためのグローバル・モニタリング(GMES)の衛星配置のために開発されたラインに沿って、オープンにアクセス可能な動的な監視に依存します。必要なものは、このデータがすべて適切なやり方で統合、処理、モデル化できる、アクセス可能なフレームワークです。

政策決定者と学芸員マネージャが歴史的景観の状態および変化率の両方を評価することができることは重要です。この必要性はヨーロッパ景観協定(ELC)に対する公約に含まれています。しかしながら、データを最大限利用できるかどうかは、環境およびセキュリティ(GMES)の衛星配置のためのグローバルなモニタリングのために欧州宇宙機関によって提案されたものと類似のラインに沿って、どれだけ動的な監視にオープンにアクセスできるかどうかにかかっています。必要なものは、このデータがすべて適切なやり方で統合、処理、モデル化できる、アクセス可能なフレームワークです。理解を改善し遺産差異検知力学のモデル化を拡張するために、DARTの中で開発したアプローチは、この長期的な議題に直接つながっています。

分野横断的な研究とオープンサイエンス

そのようなアプローチは、専門知識の単一領域だけで引き受けることはできません。このビジョンは他の科学者にオープンに協力し、共有データ、ツールおよび技術に基礎を置くことによってのみ構築することができます。重要な開発は、GMESコミュニティから、特に精密農業、土壌学、そして十分立証されたデータ処理フレームワークおよびサービスから生まれるでしょう。同時に、DARTのようなプロジェクトによって収集された情報は、他の人が簡単に再利用できます。例えば、DARTデータは、障壁、土壌管理、土圧縮およびコミュニティ・マッピングにおけるcarbon sequestration(炭素隔離)のようなアプリケーションで使うために王立農業大学(RAU)によって開発されました。そのようなオープン性はさらに協働を促進します:DARTパートナーは多くの国際的な助成提案に関係し、RAUとのより長期間のパートナーシップを発展させました。

オープンサイエンスは、従来のアプローチより研究ライフサイクル中のかなり初期の段階で、データと他の科学的な対象へのアクセスをオープンにすることを提唱します。オープンサイエンティストは、他の研究者(その問題を見る、より多くの目や心)とオープンに協働することで、研究の相乗効果やセレンディピティが生じると主張します。科学的プロセスがそれ自身透明で、ピアレビューを受けられるという事実が非常に重要です:データとそのデータが情報に変換されるプロセスを他人の目にさらすことで、他の研究者はその技術を複製し検証することができます。結果として、協働が増強され、社会と専門家およびアマチュアの間の境界が薄れてくる、と私たちは信じます。

オープンサイエンスへの挑戦

DART がそのすべての目的を達成した訳ではありませんが、一方で、目覚しい進歩を見せ、このようなオープンなアプローチの達成におけるいくつかの障壁を識別しました。これに対する鍵は、データアクセス(認定)、ライセンス設定および倫理を取り巻く課題の首尾一貫した表現です。誰がデータにアクセスするか、いつ、そしてどのような条件の下で、といった点は歴史的遺構部門にとって重大な倫理的問題です。これらは明らかに、領域ごとのグループからの横断的な入力で英国研究会議のような組織によって調整を必要とする問題です。芸術および人文学コミュニティは、普及力のある社会的、倫理的インパクトを備えたデータとアウトプットを作成します。また、これらの討論において発言権があることは明らかに重要です。

原文(2014/2/24 Open Knowledge Foundation Blog 記事より):
Original post Building an archaeological project repository I: Open Science means Open Data / Anthony Beck, Honorary fellow, and Dave Harrison, licensed under CC BY 3.0.

okfj

by okfj

オープン・リサーチ・データに関するEC協議

2014年4月14日 in News

(訳注:この記事は本家OKFn.org記事の日本語訳です)

欧州委員会は、研究者、産業、資金提供者、ITおよびデータセンターの専門家、出版者および図書館からの意見陳述を招請し、リサーチ(研究)データへのオープン・アクセスに関して7月2日にブリュッセルで公の協議を開催しました。これらの利害関係者からのインプットは委員会の政策を改訂する際に一定の役割を果たし、次の大きなEU研究プログラムHorizon 2020(約250-300億ユーロが学問研究に利用可能)について進行中の交渉にとって特に重要です。
5つの質問が、議論の基礎を形成しました:

  • どのように研究データを定義し、どのような種類の研究データをオープンにすべきですか?
  • オープン性が制限されるべき時期や方法がありますか?
  • データ再利用の問題はどのように扱うべきですか?
  • 研究データはどこに保存してアクセス可能にすべきですか?
  • どうすれば「データの意識」と「共有の文化」を拡張することができますか?

オープン・ナレッジ財団は質問に次のように答えました:

どのように研究データを定義し、どのような種類の研究データをオープンにすべきですか?

研究データは極端にばらつきがあり、数値データ、テキストのレコード、イメージ、オーディオおよびビジュアルデータ、カスタマイズされたソフトウェア及びそれと同様に研究の基礎になっているその他のコード、さらに事前分析計画、といったものを(これだけというわけではありませんが)含むでしょう。研究データはまた、メタデータ(研究データそのものに関するデータ)も含むでしょう。不確実性と方法論、版管理されたソフトウェア、標準と他のツール、といったものも含みます。メタデータの標準は専門分野に固有なものですが、「オープン」とみなされるには、少なくとも、同じ専門分野の研究者仲間が、データを、それ自身がオープンに利用可能であり同時に、解釈・再利用するのに十分な情報を提供することが期待されます。ここで、他の人が作成したものを研究者が利用するかもしれないデータとは対照的に、私たちは研究者が作成し、それゆえ制御できるデータにはっきりと関心を持っています。

オープン・リサーチ・データを語る場合、私たちの多くは、デジタル・データ、あるいは非デジタル・データのデジタル化表現されたものに関心があります。化石のような主要な研究文化遺物は明白で本質的な価値を持っていますが、それらが「オープンにできる」範囲は明らかではありません。しかしながら、3D撮影技術の利用は自然遺物への広いアクセスを可能にして、多くの物理的な特徴や画像の取得を可能にするために利用することができ、また利用すべきです。これは、典型的にはそのようなアイテムにアクセスできない、関心のある市民と、対象物を訪れるために旅行することができない研究者の両方に役立つでしょう。

公開可能な、全てのメタデータを含む、あらゆる種類の研究データが、機械可読な形式において利用可能になるべきであり、オープンの定義に従ってオープンであるべきだという期待が、デフォルトで存在することは間違いありません。これは、公共事業に由来するデータは、せいぜいオリジナル著者へのクレジット表記や派生作品への継承要求程度で、誰でも自由に利用、再利用、再配布することができるということを意味します。それは公に利用可能であるべきであり、このオープンなライセンスで利用を許諾されるべきです。

オープン性が制限されるべき時期や方法がありますか?

デフォルトのポジションは、上で定義されているように、研究データがオープンの定義に従ってオープン化されるようになるということであるべきです。しかしながら、研究データへのアクセスが根本的に民主化されている一方で、全部のデータは公表できない状況があるでしょう。例えばプライバシーの理由で。

これらの場合では、研究者は、法的な要求事項と一致し、そして研究助成金の条件で指示されるような研究者倫理によって守られる、最も制限が少ない条件の下で分析を共有するべきです。これには機微な内容ではないデータ、要約データ、メタデータおよびコードをオープンにすることも含むべきです。また、適切な手段があらゆる危険を緩和するために適所にあることを保証することができる人々に、利用可能なオリジナル・データへのアクセスを提供することも。

研究データへのアクセスは発表時間制限期間の導入によって制限されるべきでありません。また、発表時間制限期間を支持する議論は、学界の何人かのメンバー内に固有の保守主義の現れと考えられるに違いありません。代わりに期待されるのは、データ作成に資金提供するプロジェクトが完了する前に、データが公表されること、そしてそれから生じるあらゆる研究のアウトプットの公開に、確実に遅れないことになっていることでしょう。

データ再利用の問題はどのように扱うべきですか?

他の人が再利用できるような形式及びオープンなライセンスの下で利用可能な場合にのみデータは有意義なオープン化がされているといえます。しかし、データを単に利用可能にするだけでは多くの場合それを再利用するのに十分ではありません。メタデータは、他の研究者が実験結果を再現することを可能にするのに十分な文書を提示するように提供されなければなりません。

データを他の人が利用可能に、そして発見可能にしようと努力するために、データ公開者とリポジトリ管理者の役割がここにあります。これは一層の文書化の提供や、標準コード・リストなどの利用により行うことができます。これらはすべてデータをより相互運用可能で、より再利用可能にすることを支援するので。標準の登録簿へのデータの登録と共通のメタデータの使用により、さらに発見をしやすくすることができます。機械可読な形式でのデータの相互運用性と有効性は、データのマイニングとテキストマイニングを実行できる、ということを保障するのに重要です。再利用の形式は制限されてはなりません。

私たちがどのデータセットを持っておかなければならないか動的に決められるように、データ再利用のレベルを監視するべきであるという議論が、時々行われます。私たちはこの案に反対します。否定的な結果を表わしたり、出版物に明確にリンクされていないデータを含め、納税者の資金によって作成されたデータを保存する道徳的な責任があります。可能な将来の用途を予測することはできません。また、直ちには明らかにならないかもしれない再利用の機会が、現在存在するかもしれません。さらに、研究の興味は時間とともに変わるということに注目することは重要です。

研究データはどこに保存してアクセス可能にすべきですか?

規律にはそれぞれ、データを格納し、かつそのコミュニティと世界に対してそれをオープンにするのに利用できる様々な選択肢が必要です。全てに適合する解決法はありません。研究データのインフラストラクチャーはオープンソース・ソフトウェアに基づき、オープンスタンダードに基づいて相互運用可能であるべきです。これらの条件で、私たちは、自分たちのニーズと期待にいちばんフィットするデータ・リポジトリ(例えば組織ごとや主題ごとのリポジトリ)を利用するように研究者を奨励するでしょう。収蔵されたデータに関する適切なメタデータが、このデータがより簡単に発見したり再利用できることを保証するために、同様に保存されることは重要です。

データとメタデータの両方はオープンに利用許諾されるべきです。それらは、機械可読でオープンな形式(米国の政府が政府情報に関する大統領令内でどのようにこれを許可するかに似ています)で収蔵されるべきです。これは、様々なポータルを横切ってリポジトリとデータをリンクする可能性を保証し、よりデータを見つけやすくします。例えば、オープンソースのデータポータルCKANはオープン・ナレッジ財団によって開発されています。それは、データとメタデータを置くことを可能にし、データを見つけて再利用することを簡単にします。ブリストルとリンカーンの大学のような様々な大学は、既にCKANをこれらの目的に使用しています。

どうすれば「データの意識」と「共有の文化」を拡張することができますか?

データ共有の文化を発展させるにあたり、学者、研究所、資金提供者および学会はすべて大きな責任を持っています。公的資金を支出する年金基金積立機関と組織は担うべき中心的な役割を持っており、公的に支援された大学を含む研究機関がより長期的なデータ管理のための適切な資金にアクセスできることを保証しなければなりません。更に、彼らはこれらの原則をサポートする方針と許可を確立するべきです。

研究データの出版(より一般的には共有)は、アカデミックな文化に深く浸透しているべきであって、学究的なコミュニケーションの根本部分と見なされるべきです。しかしながら、一部は大学と資金提供者がセットアップした現在の奨励システムの結果として、一部は問題の多くの誤解の結果として、経歴に有害であるとしばしば見なされます。

教育および宣伝活動は、研究者内の研究データへのオープンアクセスの意識を促進し、多くの神話を解放するのを手伝い、オープンアクセスの支援を自己同一視するように彼らを励ますためにセット・アップされるべきです。これらの活動は、様々な異なる規律が共有の文化の開発における様々な段階にあるという事実を認識した上でセット・アップされるべきです。同時に、大学と資金提供者は、研究データをオープンに公表するように研究者を奨励するインセンティブを与えることに対する選択肢を調査すべきです。伝統的に出版に限定される、研究資金調達の承認は研究データに拡張することができるでしょう。また、データ・キュレーターによる貢献が認識されるべきです。

参照

原文(2013/7/16 Open Knowledge Foundation Blog 記事より):
Original post EC Consultation on open research data / Sander van der Waal, licensed under CC BY 3.0.

BioMed Central、論文中のデータをCC0で利用可能に

2013年8月26日 in News

Open Access出版のBioMed Centralは、2013年9月3日から論文中のデータに対してCreative Commons CC0を採用すると発表しました。CC0とは、いかなる権利も保有しないことを宣言するものです。9月3日からBioMed Centralが発行する論文中のデータはパブリックドメインとなり、誰でも自由に利用することができるようになります。

 

BioMed Centralによると、対象となるのはBioMed CentralおよびChemistry Centralで発行される論文中のデータであり、表のデータ、グラフのデータポイント、文献データなどを自由に再利用することができるようになります。論文に添付されているファイルも対象になります。ただし論文自体に対しては従来通り、原著作者のクレジット表示を義務付けるCC BYが適用されますので注意してください。

BioMed Centralが他社に先駆けてデータに対するCC0適用に踏み切ったのは、ECの施策によってOpen Accessが世界中に広まり、今後採用する国が急速に増えることが予想される中、データに対するOpen Access分野でリーダーシップを取る狙いがあります。

 

出典: Opening up the data – an update to BioMed Central’s Copyright and License Agreement

Open Accessは間もなくティッピング・ポイント越え、ECが調査結果を発表

2013年8月26日 in News

欧州委員会(European Commission, EC)は2013年8月21日、公的機関から資金を得て実施した研究成果を誰でも自由の無料で利用できるようにする取り組みOpen Accessが間もなくティッピング・ポイントを超えると発表しました。ECはOpen AccessがEUのイノベーション推進の原動力になると考え、2012年7月17日に研究成果のオープン化に大きな一歩を踏み出しましたが、いよいよその努力が実を結びつつあります。

今回のECの発表は、EUおよびその近隣国に加え、ブラジル、カナダ、日本、アメリカにおいて、このOpen Accessが各国でどの程度実施されているのかを調査した結果に基づいています。ECの調査によれば、2011年に出版された科学論文誌の約50%が無料で利用可能になっており、これは前回行った調査の約2倍の割合に相当します。2004年から2011年の間に世界で出版されたピアレビュー済み科学論文の40%以上がOpen Accessの要件を満たすフォーマットでオンラインで利用可能になっています。

ECの調査によれば、一般科学技術、生物医学研究、生物学、数学、統計などの分野では大部分の論文が自由に利用可能となっている一方で、社会学、人文科学、応用科学、工学、技術などの分野はOpen Accessが一番遅れているとも指摘しています。また現在、出版物に対するOpen Accessポリシーは整備されつつあるものの、その基礎となった科学的データに関するポリシーはまだまだ整備されていません

ECは、研究やイノベーションを促進するフレームワークであるHorizon2020から資金提供を受けた2014年から2020年までのプログラムにおいて、データに対するOpen Accessを検証するパイロットプログラムを実施するとしており、被譲与者の商業利益やプライバシー、セキュリティなども考慮しながらデータのOpen Accessを進めていく計画です。

 

出典: Open access to research publications reaching ‘tipping point’