You are browsing the archive for 2014 3月.

okfj

by okfj

データのためのGit(およびGithub)

2014年3月31日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

データのために「バージョン管理」を行う能力は重要な関心事です。様々な選択肢がありますが、最も魅力的なもののひとつは、GitMercurial のように、コード用の既存ツールを再利用することです。この投稿では、私たちが暫くの間使用してとても効果的だということが分かったツールを利用する、データの格納とバージョン管理のための単純な「データ・パターン」について記述しています。

序章

行われた変更を格納し、それを他の人と共有する、データのバージョンとリビジョンを管理する能力、とりわけ分散的な手法は(オープン)データ・コミュニティにとって大きな便益となるでしょう。私はその理由を以前こちらの初期の記事を参照)議論しましたが要約すると:

  • 効率的な分散型の共同作業が可能です。私のデータセットを取り出し、変更し、それを再び私と(同時に他の人とも!)共有することができます。
  • 出所をより良く(つまり、どの変更がどこから来たのか)追跡することが可能です。
  • シンプルで効率的なやり方で、更新内容を共有し、データセットを同期させることができます。例えば、ファイル全体を再取得しなくても過去数か月のGDPや雇用データを取得する自動的なやり方で。

「データのためのリビジョン管理」問題に取り組む方法はいくつかあります。ここでのアプローチは、私たちがGitMercurial のようにコードのために設計された既存の強力な分散型バージョン管理システムを利用し、データにそれらを適用することができるということを意味する形式でデータを取得することです。そのため、データのための最良のGithubは、実際のところGithub それ自身かもしれません。もちろん、Git(hub)の上にデータ特有のインターフェースを重ね表示したいかもしれません。 これは私たちがhttp://data.okfn.org/で行っていることにほかなりません。

このアプローチには制約があり、私は、これらといくつかの代替モデルについて以下に論述します。これは特に、「小さな(あるいはミクロな)データ」、例えば10MB あるいは100K行以下の場合に最適です。(ひとつの代替モデルはマックス・オグデンが最近始めた非常に面白いDatプロジェクトで見つけることができます- 彼とは、この話題について何度も話し合いました。)

しかしながら、ツール類に成熟と力があってますます発展しそうであり、そして多くのデータは小さいという事実から、私たちはこのアプローチは非常に魅力的であると考えています。

パターン

パターンの本質は次のとおりです:

  1. 行指向のテキスト、および特にCSV(*1)(コンマ区切り変数)ファイルとしてデータを格納すること。「行指向のテキスト」は、テーブルの列(あるいは個別のセル)のようなデータの個々の単位が1行(*2)に相当することを単に示します。
  2. データを格納し管理するのにGit やMercurial のように最適な種類(すなわちコード)のバージョン管理を使用してください。

GitMercurial のような強力な分散型バージョン管理ツールがそれによって有効に(なぜなら、それらのツールはたいてい行(ライン)指向のテキストであるコードのために構築されるからです)動作することができるので、行指向のテキストは重要です。しかしながら、それは単なるバージョン管理ではありません:これらの種別のファイル(grepからエクセルまで!)を管理し操作するためのツールには多数の、こなれたセットがあります。

基礎的なパターンに加えて、追加できる、いくつかの特別オプションがあります:

  • GitHub(やGitorious、あるいはBitbucket等々)にデータを格納する。下記の全ての例はこのアプローチをとっています。
  • datapackage.jsonファイルを加えて、集めたデータをSimple Data Format のデータ・パッケージに変えます。これはライセンス、出所およびスキーマ(このカラムは数字、これは文字列)といった不可欠な情報の小さなセットを提供します。
  • データの処理と管理に使ったスクリプトを加えてください。このようにして、あらゆるものがひとつのリポジトリにうまくまとまります。

このアプローチの何が良いのでしょうか?

行指向のファイルの管理および操作のために存在する、ツールのセットは巨大で成熟しています。特に、GitMercurial のような強力な分散バージョン管理システムは、既にコード周りの分散型でピア・ツー・ピアの共同作業を行うための非常に堅牢な方法であり、このパターンはそのモデルをとり、それをデータに適用可能にします。ここに、なぜそれが良いのか、いくつかの具体的な例があります。

出所のトラッキング

Git とMercurial はコミットメッセージとdiff(差分)によって、個々の貢献の完全な履歴を提供します。

コミットメッセージの例

ピア・ツー・ピアの共同作業

データをフォーク(分岐)したり、プル(取り込み)することは、個々の貢献者がそれに関して同時に作業することを可能にします。

プル・リクエストのタイムライン

データのレビュー

Git やMercurial の使用によって、コードレビュー用ツールは、データ調査のために転用することができます。

プル・スクリーン

シンプルなパッケージング

リポジトリ・モデルは、単一の場所にデータ、コードおよびメタデータを格納する、シンプルな方法を提供します。

データ用のリポジトリ

アクセシビリティ

このようなデータ格納および、バージョン管理手法は非常にローテクなものです。フォーマットとツールは両方とも非常に成熟していてユビキタスです。例えば、すべてのスプレッドシートおよびすべてのリレーショナル・データベースはCSVを扱うことができます。すべてのunixプラットフォームにはこれらの種類のファイルに使えるgrep、sed、cut のようなツール一式があります。

私たちは、このアプローチと共に長い間使用しています:2005年、私たちは最初にSubversion そして次にMercurial にCSVを格納しました。次に、3年前にGit(そしてGithub)に切り替えた時、私たちはそこに格納し始めました。2011年に、私たちは上記のパターンによって管理されたデータセットの全体のリストを含んでいるGithub 上でデータセットの組織化を始めました。ここに、いくつか具体例があります:

メモ:ほとんどのこれらの例はGithub 内で管理されているCSVを示すだけでなく、同時にシンプル・データ形式データ・パッケージです。-その中にあるdatapackage.json を参照してください。

付録

制限と選択肢

行指向のテキストおよびそのツールはもちろんデータ保存およびバージョン管理に対する完全な解決策からはほど遠いものです。それらはすべての形およびサイズのデータセット用には動作しません。また、いくつかの点で、それらは、表形式のデータへの変更を追跡しマージするには厄介なツールです。例えば:

  • 行指向のテキストとして保存されたデータ上の単純な操作が非常に大きな変更セットにつながる場合があります。例えば、2つの項目(=カラム)の順序の入れ替えはすべての行の変更につながります。diff(差分)、マージ等が行指向だとすれば、これは不幸なことです(*3)。
  • それは、小さめのデータ(例えば<100k の列、<50mb のファイル、最適なのは<5mb のファイル)に対していちばんうまく動作します。Git とMercurial は、大きなファイルの扱いはさほどうまくなく、diffのような機能はより大きなファイル(*4)ではさらに厄介になります。
  • それは、多くの同じ記録(理想的には表形式のデータ)から構成されたデータにとっていちばんうまく動作します。行指向のストレージと適切なツールのためには、行指向のCSV構造に適したデータのレコード構造を必要とします。あなたのCSVがあまり行指向で無い(例えば、項目内に多数の改行がある)場合、diffやマージで問題を引き起こすので、パターンはそれほどよくありません。
  • CSVは多くの情報、例えば項目(全て文字列です)の種別についての情報を欠いています。
    その単純性を危険にさらしたり、純粋なデータとしての利用がもはやできなくなることを犠牲にせずに、メタデータをCSVに加える方法はありません。しかしながら、個別のファイル内にこの種の情報を追加することができます。それこそデータ・パッケージ標準がそのdatapackage.jsonファイルで提供するものです。

最も基本的な制限は、とりわけ行指向のdiff とマージの、その原子単位が行でない(それはセル、あるいは何らかの2カラムを入れ替えるような変換)構造データへの適用で発生します。

下記で議論されている最初の問題は、テーブルへのシンプルな変更がファイルの全行への変更として扱われる、明確な事例です。完璧な世界であれば、便利な構造とそれをサポートする強健なツールの全体セットの両方があるでしょう。例えばCSVの2カラムの入れ替えをシングルの単純な変更と認識する、あるいは個々のセルのレベルで機能するツールです。

基本的に、リビジョンシステムはdiff フォーマットおよびマージプロトコルの周辺に構築されます。これらを正しくすれば、残りの多くは後からついてきます。基本的な3つの選択肢は次のとおりです:

  1. 行指向のテキストにシリアライズしてGit のような偉大なツールを利用(上述の通り)。
  2. 原子構造(例えば文書)を識別し、そのレベル(CouchDB やRDBMS のための標準的な列レベルでの copy-on-write(書き込みの都度コピーする)を考えてください)でdiff を適用する。
  3. 変換を記録する(例えば、リファイン)。

オープン・ナレッジ財団では、私たちは、2.のラインに沿ったシステムを構築しました、また2.と3.の両方の調査および研究に関係しています – dataprotocols.org 上のデータのための変更および同期を参照してください。これらの選択肢は絶対に詳しく調査する価値があります – また、例えば、マックス・オグデン(彼と私はこの話題に関して多くの大きな議論をしています)は、Dat と呼ばれる刺激的なプロジェクト(「スリープ」プロトコルを使用する共同的なデータ・ツール)に現在取り組んでいます。

しかしながら、ここまでの私たちの経験は、行指向のアプローチがそれらの他の行(少なくともより小さなサイズのファイル用の!)に沿ったどんな現在利用可能なオプションにも打ち勝つということです。

data.okfn.org

数年間このようにGithubにデータを格納してきて、私たちは最近 http://data.okn.org/ をローンチしました。それは明示的にこのアプローチに基づいています:

  • データは https://github.com/datasets のGitHub上のGit リポジトリに格納されたCSVです。
  • データセットはすべてdatapackage.json のメタデータを持つデータ・パッケージです。
  • フロント・エンド・サイトは、非常に単純です – 単にカタログとAPIを提供し、Githubからデータを直接プルします。

なぜ、行指向なのか

行指向のテキストはコードの自然な形式で、したがって巨大な数の優れたツールがサポートしています。しかし、行指向のテキストは、一般的なレコード指向のデータを格納するための最もシンプルで簡潔な形式であり、たいていのデータはレコードになることができます。

最も基礎的な構造化データには、項目用の区切り文字およびレコード用の区切り文字が必要です。コンマまたはタブ区切り値(CSV、TSV)ファイルはこの符号化の非常に単純で自然な実装です。それらは、スペース、改行に加えて最も自然な区切り文字でレコードを区切ります。項目区切り文字として、スペースはあまりに一般的すぎるので、自然とコンマまたはタブに頼ることになります。

バージョン管理システムには、動作の原子単位が必要です。データ用のバージョン管理システムは、とても有効に原子単位としてレコードを扱うことができます。行指向のテキストをレコード指向のデータの符号化に使用することで、私たちはレコード指向のコードのバージョン管理のために構築された既存ツールの形式でバージョン管理システムを自動的に得られます。


  • (*1)ファイル中の区切り文字は必ずしもコンマである必要はないので、CSVという場合に、実際は「DSV」を意味するということに注意してください。しかしながら、列終端は改行(あるいはキャリッジリターンと改行)であるべきです。
  • (*2)CSVにはひとつの行にひとつの列があるとは限りません。引用符のある項目に改行があることがあります。しかしながら、ほとんどのCSVはひとつの列にひとつの行です。CSVは入手可能な中では、可能な限り単純な構造化データ形式です。
  • (*3)具体的な例として、マージ機能は、レコードの様々なセット、すなわち行に影響する2つの変更セットの調和においておそらくとてもうまく動作するでしょう。しかしながら、各々カラムを移動させる2セットの変更はうまくマージしないでしょう。
  • (*4)より大きなデータについては、私たちは、Git(そして例えばGitHub)をs3のような単純なファイル記憶装置と交換することを提案します。s3が基礎的なcopy-on-writeのバージョン管理をサポートできることに注意してください。しかしながら、copy-on-writeであるため、それは相対的にかなり非効率です。

原文(2013/7/2 Open Knowledge Foundation Blog 記事より):
Original post Git (and Github) for Data / Rufus Pollock, licensed under CC BY 3.0.

okfj

by okfj

オープンデータをスケールさせる9つのモデル – 過去、現在そして未来

2014年3月29日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

Golden spiral, by Kakapo31 CC-BY-NC-SA

オープンデータの可能性はこの10年間私たちを魅惑しています。

私はTheyWorkForYou のようなサイトを構築することで、政府を実際に利用可能なものにしたいと思いながら過ごしてきました。

しかし、そのような興奮は最終的には重要なことではありません。

重要なのはスケール(規模の拡大)です。どのような組織構造がこの運動を爆発的に加速させるでしょうか?

自律成長しているボランティア・コミュニティを作ることによってでしょうか、あるいは資金フローを作り出すことによってでしょうか?

この投稿は、機能しているものも(まだ)機能していないものも含め、手短にそして挑発的に俯瞰します。

現在機能しているもの

1) 新しいデータを登録するためにコミュニティを形成する。OpenStreetMapMusicBrainz は2つの大きな事例です。これが機能するのはコミュニティがデータの発生源であるからです。しかしながら、これまでのところどちらも私が思ったほどにはその産業の支配力を持っていません。

2) オープンデータの上流側の生成者にツールを売る。これは、中央政府のためにCKAN が行っている(そして新しいScraperWiki のCKAN ツールが支援している)ことです。これはmySociety が行っていることであり、FixMyStreet のインストール一式を地方自治体に売る場合は、その結果としてRSSフィードで道路の陥没を公表します。

3) オープンデータを(ひっそりと)利用。あらゆる組織がこれを行っていますが、決してそのことを話しません。これはブルームバーグのような全く古いデータ再販業者の鍵です。これはScraperWiki のプロフェッショナル・サービスの顧客のうちのほとんどが私たちに依頼するものです。社会に対する価値は巨大で目に見えません。大きな欠点は、それがオープンデータの供給をスケールさせるのを支援しないということです。

4) 下流側の利用者にツールを売る。これは必ずしもオープンデータに固有の話ではありません。スプレッドシートやビジネス・インテリジェンスのような既存のソフトウェアはオープンなあるいはクローズドなデータと共に使用することができます。多くのオープンデータがウェブ上にあります。したがって、ウェブ・データをうまく使える新しいScraperWiki のようなツールは特にこれに適しています。

まだ機能していないもの

5) 協働的なキュレーションScraperWiki が、スクレイピング用のコードの編集に基づいてオープンデータ・キュレーション・コミュニティを作る大胆な試みとして始められました。その最初の形式(今後はScraperWiki クラッシックと呼びます)では、これはスケールしませんでした。なぜそれはスケールしなかったのか、ここに、オープンデータモデルの点から、いくつかの理由があります。

a. それは上流側ではありませんでした。あなたがいかなる出所を与えても、人々は自分が直接出所から取得するデータを最も信頼します。例えば、スクレイピングされたデータを電話を使って、手動で集められた新しいデータで補うことなどによって、これは部分的に上流側になることもできます。

b. それは内密なものではありません。理論的には、商品のデータも一緒になって公開で議論することで得るべきものは多数ありますが、それはほとんどの組織の本能に反します。

c. 既存の文化はそう多くはありません。フリー・ソフトウェア運動は、約15年後にオープン・ソース運動によって、そして25年後にGithubのようなツールによって開発準備が整った協働の豊かな文化を構築しました。少数の例外(特にOpenCorporates)を除いて、まだオープンデータのキュレーションプロジェクトはありません。

6) 多目的のデータ市場(特に主としてオープンデータを再利用しているもの)はまだ立ち上がっていません。いつかはできるかもしれませんが、それにはまずデータの整形や同期のためのうまく採用された、より高レベルの標準(おそらくCSVファイルを基にしたdat のようなもの)がまず必要だと思います。

これからが期待されるもの

今後、多数の輩出が期待される、すばらしく刺激的なモデルです。

7) 上流側に労働/金銭を与えて、よりよいデータの作成を支援する。これは全く新しいものです。その唯一かつ最も優雅な例は英国の国立公文書館の制定法データベースのキュレーティングです。彼らは、商用の法令関連出版社と政府の他の部分から支持されたスタッフの助けを借りて仕事をします。

これは人々が最も信頼し、データの品質を改善する最大の能力を持っている上流側に金銭を生み出すので、賢明なやり方です。

8) バイラルなオープンデータのライセンス設定。MySQLは、組込システム・メーカーにGPLdソフトウェアのプロプライエタリなデュアル・ライセンスを提示することで、この種のやり方として多大な利益を出しました。データでは、これにOKFNのOpen Database License を使用することができるでしょう。オープンデータを自分のクローズドデータと混ぜたい場合に、組織はお金を払うでしょう。私はこれを積極的に利用している人は知りませんが、OpenCorporates のクリス・タガートは数年前に私にこのモデルを教えてくれました。

9) 株式会社が、戦略的優位性のためにデータをリリースする。会社は戦略的な利得のために自らのデータの公開を始めています。これは非常に新しいもので、これからがより期待できます。

何か見逃していますか?あなたはオープンデータをスケールさせ、何10億もの利益をもたらすのはどんなモデルだと思いますか?

原文(2013/7/18 Open Knowledge Foundation Blog 記事より):
Original post 9 models to scale open data – past, present and future / Francis Irving, licensed under CC BY 3.0.

okfj

by okfj

オープン・タックス・データか、あるいは単なるVATの「オープン・ウォッシュ」か

2014年3月28日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

この投稿は、世界の会社の中で最大のオープン・データベースであるオープンコーポレーツの共同創設者兼CEO、およびオープン・ガバメント・ワーキンググループのメンバーであるクリス・タガートによるものです。

[告知:私は英国税透明性委員会に所属し、まだこれらの提案については議論していませんが、9月前半の次の会合ではその予定です]

1週間ちょっと前に、英国歳入関税委員会(HMRC)は、そのデータをより広く公表することについてのコンサルテーションを公表し、その中でオープンデータ運動に参加する意図を述べました。

英国は、G8のオープンデータ憲章の制定を支援しました。もしそれを留保する十分な理由がなければ政府が持つデータが公衆に利用可能となるだろうと考えられます。HMRCがあらゆる部分で役割を果たすことは重要です。HMRCのビジネスと個人との関係はユニークで、これはHMRCが納税者を代表して収集、作成、保護する情報の範囲と深さに反映されています。

素晴らしい。しかしノーです。

問題は、上述の内容にもかかわらず、このコンサルテーションとその中の提案は、オープンデータやアクセスの拡張に関わる部分はほとんど無く、代りに主としてデータを選別された少数に渡すことに関する内容で、その多くは普通の人々や関連する個人のデータです。さらに、それは、政府内の警報ベルを鳴らしているはずのHMRCの内でいくつかの懸案となっているデータ関連の問題を白日の下にさらします。

それでは、正確には何が提案されているでしょうか?2つの部分があります:

  1. HMRCのデータ(特に収集され、匿名化されたデータ)の共有に関する提案。現時点では、たとえそれが広く公益に資するものであっても、HMRCの機能に関係がある場合のみ、HMRCは一般にそのようなデータを共有することができます。
  2. VAT登録関連の提案。VAT登録(訳注:VAT(付加価値税)の課税に関わる登録情報。登録番号の有無で課税方法が変わる。詳細はこちらを参照)は現在プライベートの扱いです。たとえ、情報の大半がレシート上、請求書上、ウェブサイト上、そして様々な個人のデータセットの中など、「そこに出ている」としても。実際のところこれは、多くの国々で既に公開されています。

どちらもそれぞれの問題を抱えていますが、いったん私たちは2番目に専念します。

郵便番号住所ファイル、会社登記簿、あるいは英国陸地測量部データなどとは異なり、オープンデータの活動家からのVAT登録に対する大きな要求の声はありませんでした。そうすると、なぜそれはオープンになっているのでしょうか?さて、なぜ駄目なのか、コンサルテーションは次のように述べています:

本章中の提案の開発における根本原理はShakespeare Review の中で明らかにされています。データは市民のものであり、害悪を引き起こさない限り、政府の判断はオープン化の方向へと向かうでしょう。この好機の性質を述べるのは政府のためではありません。その結論は下の引用が示しているように、政府が潜在的利益の範囲や規模に必ずしも気づくとは限らないであろうということです。このコンサルテーションは、これらの確立を支援するでしょう。

したがって、提案はVAT登録をオープンデータとして公表するというものです。その結果、より広いコミュニティーが、その番号を使ってすばらしいものを作ることができるでしょうか?いいえ。そのコンサルテーションは、何かしら薄汚れたところのある部分を高尚な目標から巧妙に省略します。

利益を生み出す資源としてのVAT登録データの公表において、例えば信用格付け機関(CRA)からの公益が暫くの間ありました。

3つの大きな信用格付け機関(Experian 、Equifax およびCallcredit)は、会社について多くのことを知っているのではありませんか?きっと、彼らはその多くのVAT番号を知っており、どの場合でもたいていの会社、特に活発な貿易商社(VAT用に登録される種類)についてもっと多くのことを知っているのではありませんか?

しかしながら、彼らに無いものは(付随する情報の公表に対する責任を負いながら自らの自己勘定上で、そして有限責任の保護なしで取り引きする)個人事業主や小さなパートナーシップや個人に関する多くの情報です。そのため、VAT登録は彼らにとって非常に重要で、それはこのコンサルテーションが彼らに与えるこをを提案しているものです。

もちろん、彼らはその情報をただ単に人々に求めることができました。しかし、特に彼らがお金を借りる必要がない場合、人々は拒絶するかもしれません。そして、マネタイズ可能なそのデータセットの構築に関する限り、それは問題となる可能性があります。単に政府がそのデータへのアクセスを彼らに与えるようにできた場合、つまり情報の提供を強いる法律の力で、自分自身のデータ収集用の腕として政府を働かせる場合、それは素晴らしいことでしょう。彼らにとって。個人およびより広い世界にとって、それは全く良いことではありません。

第一に、私たちがここで話しているものが個人(彼らはプライバシーとデータの保護の権利を持っている)であり会社では無いので、まず第一にそれを公開する強制的な理由が必要です。大きな3つの信用格付け機関すなわちCRA(Experian、Equifax、CallCredit)が、そこからお金が稼げると考えるだけでは十分には良い訳ではありません。

第二に、もしオープンデータがひとつのことについてのものだとすれば、データへのアクセスを民主化することに関するものであり、チャンセラーやジョージ・オズボーンの言葉を借りると「世界の情報へのアクセスやそれと対話する能力は少数のエリートによってコントロールされていた」従来の位置を逆にすることに関わるものなのです。また、ひとつ確かなものがあるとすれば、CRA は多くの力を持っている、ということです。

でもちょっと待ってください。コンサルテーションも、さらにVAT登録のうちのいくつか、とりわけ「単に3つのデータ項目をカバーする非常に選択的な抜粋として、VAT登録番号(VRN)、取引名および標準の業種コード(SIC)分類番号」がオープンデータとして公表されることを提案しているのではありませんか?

一見して、これは良いこと、あるいは無いよりはましと見なされているかもしれません。実際のところ、これはHMRCがデータを取得しないことを示しているか、あるいは、それは単に「openwash(訳注:みせかけのオープン)」です。CRAへの個人のそしてプライベートなデータの卸し売りを人目につかなくさせるオープンデータのイチジクの葉(訳注:恥ずかしいものを隠すもの)であり、より大きな不正行為に潜在的に結びつくかもしれないものです。これがその理由です:

  • 3つの項目(VAT番号、取引名、SICコード)は、ともに孤立したデータセット、つまり他のデータとつながっておらず、したがって、もしあなたが自分を「AAA 配管工事」と呼んで請求書を不正に書き、それにVATを課し、20%をポケットに入れて、自分が決して逮捕されれないのか、それとも本当のAAA 配管工事が最初にHMRCが見に来る場所なのかを知る、といったことをしたくなければ基本的に無意味であるものを構成しています。不正行為は、基本的に情報の流れの不均衡に関係しています。(詐欺師は、あなたが彼らについて知っている以上に、あなたのことを知っています)例えば、実際のAAA 配管工事が例えばスコットランドのカーコーディーに本拠地を持つ会社であることを知っていたり、あるいはBBBサービスが解散しているのか、それが航空機ビジネスで働くことを示すウェブサイトがあるということを知っていれば、不正行為を回避するはるかに大きなチャンスがあります。
  • 取引する名前は非常に問題で、たいていどこにも登録されておらず、そのため支援もほとんどありません。さらに、個人、会社のどちらでも、法的な名前との関係がある必要がありません。したがって、ZZZ金融専門家の背後の会社を見つけたければ、実際にひとつでもある場合、あなたには幸運が不足していると言わざるを得ません。HMRCが法的形式(会社の場合には、会社番号)無しでVAT登録の公表を考慮することすらはっきりしません。
  • さらに、登録を公表するための公開された理由のうちのひとつは、「VAT登録データは個人部門のビジネス登録のための基礎を提供することもできるだろう」ということです。本当でしょうか?オープンデータの世界および中核となる参照データの重要性において、HMRCは、プライベートな、プロプライエタリな識別子のセットが、それに伴うあらゆる問題と共に作成されることを望むでしょうか?実際、HMRCはビジネス、革新&スキル部門と協力してこのような公共データセットを構築すると思われました。これを行うほどには十分によくデータを理解していないということは決定したのでしょうか?あるいは、政府だけでなく、民間セクター全体としてむしろそのようなデータセットに縛り付けることになるでしょうか。
  • 最後に、VAT登録が会社の設立日およびSICコードのような項目を含むように見えることを発見することもやや驚くべきことです。ギークの世界では、私たちは、別のテーブルあるいはデータセットに正当に属するものを複製したデータであるという意味で、これを非正規化されたデータセットと呼びます。これを行うのに十分な理由がある場合もあります。しかし、同期(VAT登録やCompanies House record上にあるものと、どちらが正しいSICコードなのか)から外れるデータとなる危険性があります。

それでは、HMRCは何をするべきでしょうか?第一に、信用格付け機関のデータ収集者として働くあらゆる計画を放棄し、VAT登録、あるいはVAT登録の一部を単一のオープンなデータセットとして、同じ条件下のあらゆるものと等しく公表すべきです。これは革新への純粋な刺激になり、競争と透明性の促進という結果さえも生み出すかもしれません。

第二に、個人(人権を持ち、生活し、呼吸している人)と会社の間には基本的な違いがあることを理解するべきです。人権と同様に、個人はそのデータの保護権やプライバシー権を持っており、公的な登録上には存在しません。いっぽう会社は、社会の利益のための状態によって別個の法人格を与えられた人工的な実体で、代わりに公的に(公の会社登記上で)存在します。VAT登録の場合には、実用的なアプローチは会社に関係のある部分だけオープンデータとして登録を公表することでしょう。

第三に、基本的にデータビジネスの中であることを理解する必要があります。また好むと好まざるとに関わらず、良いことや悪いことのためのデータの力を含め、現代のデータの世界にすばやく取り組む必要があります。英国は、オープンコーポレイツオープン・ナレッジ財団およびオープン・データ・インスティテュートを含め、おそらくこの領域において世界で指導的な組織を持っています。

原文(2013/7/30 Open Knowledge Foundation Blog 記事より):
Original post Open tax data, or just VAT ‘open wash’ / Chris Taggart, licensed under CC BY 3.0.

okfj

by okfj

オープンデータのプライバシー

2014年3月27日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

「はい、政府は他の人々のデータをオープンにすべきです」

伝統的に、オープン・ナレッジ財団は個人に関わらないデータをオープンにする活動をしてきました。公的機関からの受託研究論文、財政支出データといったものです。個人のデータが国勢調査のような何らかの共有されたデータセットの一部である場合、個人のプライバシーが保護され、公表された集計データは共有され、公共の資産であることを保証するために、大量の検討や努力がなされました。

しかし時代は変わります。政府や企業が集めるデータは次第に増えつつあります。(本人がそれに気付いているかどうかに関わらず)個人に関わる大量のデータです。データの収集と共有によるプライバシーへのリスクは恐らく以前よりも大きくなっています。データが「ビッグ」か「スモール」かに関わらず、データ解析はこれまでに無い洞察を導き出す可能性を持っています。しかしながら、個別のデータセットが連結されたり、対応付けられたりするので、その洞察の中には個人のプライバシーを犠牲にするものがあるかもしれません。

Medical data loss dress

オープンデータおよびビッグデータの両方とも今ちょうどホットな話題です。そしてこのような時に、組織はあらゆる問題についての必要な検討を行うこと無しに、そのような話題に関係したいという誘惑に駆られがちです。ビッグデータの現在の潜在成長力とオープンデータの経済的便益を組み合わせる誘惑によってプライバシーへの関心が無視されるかもしれないので、ビッグデータとオープンデータの交差は多少気懸かりな点です。プライバシー・インターナショナル開発のためのデータに関する最近の記事でこの点に注意を促していることは正しいのですが、もちろん他の領域も影響を受けます。

本日(訳注:2013/8/27)、私たちはオープンデータとプライバシーに関して進みつつある議論を支援するために、いくつかの用語を提案したいと思います。

私たちのデータとは、個人の要素を持たず、共有物の意識が明確なデータです。例えば次のようなものです。バスは私の都市でどこを走っているのか、政府は私の税金を何に使うと決めたのか、国勢調査やその集計結果はどのように組み立てられているのか。オープン・ナレッジ財団において、私たちのデフォルトの立場は、私たちのデータがオープンデータであるべきということです。それは私たちがみな利益を得ることができ、またそうすべき共有資産です。

私のデータとは個人的な私に関する情報で、誰が集めたかに関わらず、何らかの方法で私のことを識別することができます。それは、私の直接の許可なしに他の人によってオープンにされたり公表されるべきではありません。しかし、それは、私(私は自分が望めば、利用可能な形式で私に関するデータにアクセスできるべきであり、それを私自身が共有する権利を持っているべきです)には「オープン」であるべきです。

変換されたデータとは個人に関する情報で、個人が識別可能な要素を除去するためにデータを匿名化、収集する努力が行われたものです。

Medical data loss dress

私たちは、変換されたデータが私たちのデータとしてオープンに公表できるかどうかを確認するために引き続き行う必要のある、いくつかの明確なステップが存在すべきだ、ということを提案します。どのような考察が行われるべきかを述べる、オープンデータ用のプライバシー原則のセットはよい出発点になるでしょう。そこには、データが関係しているすべてのグループの代表およびデータの変換方法にまつわるデータプライバシー専門家を含む重要なステークホルダーに意見を求めることなどが含まれるでしょう。いくつかのデータセットについては、市民のために合理的なレベルのプライバシーを維持することができるようにこれを十分に変換することが可能だとは、証明するのが難しいかもしれません。これらのデータセットはシンプルに非公開とすべきです。他のものについては、データがオープンに公表されるのに適している状態になる前に、受入れ可能なプライバシー標準を達成するために、変換に関してさらなる研究が必要だということかもしれません。データの公表が必須となる前に、リスクに対する保証は考慮され管理されます。変換が関係のある個人に十分なプライバシーを提供し、原則が厳守された場合、データはオープンデータとして公表することができます。

私たちは「私たちのデータ」のうちのいくつかは個人の要素を持つだろうと述べておきます。例えば、議会のメンバーは公共圏に入る肯定的な選択を行ない、議員に関する情報のいくつかを市民は漏れなく利用可能です。このタイプのデータは、比較する標準は公益とは異なるかもしれませんが、私たちが公開前に提案するオープンデータのプライバシー原則に照らして依然として考慮されるべきです。

これは、オープンデータおよびプライバシーの領域を調査するシリーズ投稿の一部です。私たちは、これは非常に重要な問題であると感じています。これらの問題に興味を持っているか、オープンデータ用のプライバシー原則の開発を支援したい場合は、ワーキンググループ・メーリング・リストに参加してください。私たちはメーリング・リスト、下記コメント欄等での提案や考察、もしくは私たちや一緒に作業しているオープン・ライツ・グループとの2013年秋のOKConや他のイベントでの意見交換を歓迎します。

原文(2013/8/27 Open Knowledge Foundation Blog 記事より):
Original post Open Data Privacy / Laura James, licensed under CC BY 3.0.

okfj

by okfj

重要な問いに答える力を与えるオープンデータ

2014年3月26日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

ルーファス・ポロック(オープン・ナレッジ財団の創設者兼ディレクター)によるこの記事は、2013年12月5日にリリースされた「テレフォニカ・ディジタル・ハブ」からのクロスポストです。

私たちは、最短で仕事を始める方法や何を食べるかといった個人的なことから、気候変動や持続的に70億人を扶養し教育する方法のようなグローバルなものまで、日々挑戦に直面しています。オープン・ナレッジ財団では、データをオープンにしてそのデータを洞察に変えるということは、こういった挑戦に取り組むために、そしてまた(一部の少数ではなく)誰もが変化を理解して影響を与えるのに必要な知識によって力を付与されている社会を構築するために、極めて重要になり得ると信じています。

Neon sign Open 2005  Photographer User Justinc cc-by-sa

オープンデータとオープンナレッジは、力を付与するための、そして人々(市民、ジャーナリスト、NGO、会社および政策決定者)が自分の周りの世界を理解し、形作るのに必要な情報へのアクセスを付与するための基盤です。

オープン性を通じてこそ、私たちは技術とデータが科学、政治そして社会を改善することを保証することができるのです。それが無ければ、増え続ける知識の集中化とそれゆえの少数の人々が牛耳る権力を、また私たちの個々のそして集団的な、周囲の世界を刷新し、理解し、また改善するための潜在能力の途方も無い損失を目にすることになるかもしれません。

オープンデータは誰でも目的を問わず、自由にアクセスし、利用し、その上で構築し、そして共有できるデータです。モバイルからインターネットへといったデジタル技術で、私たちは次第にあらゆる場所でデータの革命を目にすることが増えています。それは、利用可能なデータの量、およびそのデータを利用、共有する私たちの能力の両方における革命です。これにより、仕事からどうやって家に帰るか、といったことから科学者はどうやって調査するかとか、政府はどうやって政策を設定するかといったことまで、私たちが行うあらゆることに変化が起きてきています。

現在、データの多くは個人的なものです。あなたに関するデータ、そしてあなたがすることに関するデータです。例えばあなたが買うもの(ロイヤルティーカード、銀行口座取引明細)、あなたが行く場所(モバイルフォンの位置やインストールしたアプリ)、あるいはあなたがオンライン(フェイスブック、ツイッターなど)で交流する人などです。このデータは決して「オープン」であったり誰にでも自由にアクセス可能であってはなりません。それはあなたのデータであり、誰がそれにアクセスするか、そしてどのように利用されるかは、あなたがコントロールするべきです。

しかし、個人のものでないデータもたくさんあります。政府の予算のようなデータ、道路地図、列車時刻表、キャンディーバーの中に何が入っているか、そのジーンズはどこで作られたのか、去年どれだけの二酸化炭素が排出されたのか、等々。このようなデータは、それをコントロールしている政府や企業に公開することを説得できるならオープンにすることができますし、またそうすべきです。

これは、私たちがこの十年間オープン・ナレッジ財団で行っていることであり、政府や企業に働きかけてそのデータを公開し、オープンにしてもらう活動をしています。

私たちは、革新、創造性および洞察を解放するために、オープンデータに力を与えるべく、こういったことを行っています。これは、起業家、活動家あるいは研究者といった人たちに限らず、誰にでも情報にアクセスし、そして自分たちが適切だと思うものにそれを使用する力が得られる可能性があります。例えばガーナの市民は、地元の学校や病院に支払うための税収の公平なシェアを保証するために鉱山の採掘に関するデータを利用しており、あるいは英国オープン・ヘルスケアのようなスタートアップ企業は、健康サービス用の数億ポンドもの貯蓄を識別するために英国政府によってリリースされた薬剤処方箋データを利用しています。

ここでは、実際のインパクトがオープンデータそれ自体から直接来る訳ではないという点に気をつけることが重要です。新しいオープンデータ・イニシアチブや付加的なオープンなデータセットによって直ちに生活が改善される人はいません。データは知識へ、情報は洞察へと変えられなければなりません。そして誰かが、その知識に基づいて行動しなければなりません。

これを行うには、ツールとスキルが必要です。データを処理、分析、表示するツールとそのためのスキルです。そのためこれはオープン・ナレッジ財団の活動のもうひとつの重要分野となっています。SchoolofData のようなプロジェクトで、私たちはそれらを最も必要とする人々にデータを扱う技術を教えるために働いています。また、オープン・ナレッジ財団ラボでは、私たちは、人々がデータをより簡単に効果的に利用するのを手助けする軽量のツールを作成しています。

最後に、この記事で述べてきたのはデータを利用する人々のことであり、またそのデータから得られた洞察を利用して変化を加速する人々のことです。私たちは、アプリを作り、オープンデータから洞察を導き出す準備ができている「オープンデータ作成者」の文化を醸成する必要があります。私たちは、ザンビアの健康産業労働者、自宅に帰るロンドンの通勤客、といったオープンデータと最良の質問や最大のニーズを持っている人々とを結び付ける必要があります。ぜひデータギークや技術オタクを乗り越えてください。

画像 “Neon Sign Open” by Justin Cormack, CC-BY

原文(2013/12/9 Open Knowledge Foundation Blog 記事より):
Original post Open Data Empowers Us to Answer Questions that Matter / Rufus Pollock, licensed under CC BY 3.0.

okfj

by okfj

文脈に応じたオープンの定義:オープンの実践へ

2014年3月25日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

私たちは、様々な組織が公表した多様なデータおよびコンテンツに、オープンの定義がどのように適用できるかということを見てきました。ここではオープン性の特定の原則、および様々な種類のオープンデータ用の定義とガイドラインに、この定義がどのように関係しているかについて述べたいと思います。

定義以上のものが必要な理由

オープンの定義がするのはたったひとつのことだけで、できるだけ簡潔明瞭にオープンとみなされるひとまとまりの情報にとっての条件を定義します。

定義は広く普遍的であり、オープン・ナレッジの運動における多様なグループとプロジェクトを通して共通の理解を提供するのは重要な統一志向のコンセプトです。

同時に、オープンの定義は特定の地域で公開されている情報のために掘り下げたガイダンスを行っているわけではないので、政府のデータから科学的調査や文化遺産機関のデジタル保有物に至るまで、オープンにしている特定の種別の情報に対する詳細な助言や原則がそれぞれに適した形で必要です。

例えば、オープンの定義はデータがタイムリーであるべきかどうかを明示していませんが、一方でこれは多くのデータ種別にとって優れたアイデアです。もっとも、1世紀前からの国勢調査データが「タイムリー」かどうかを尋ねても意味をなさないのですが!

ひとつの領域の情報をいかにオープンにするかというガイドラインは、別のところでは必ずしもそのまま再適用できるとは限りません。したがって、特定の種別のデータをターゲットにした、特にそれを公表しているかもしれない種別の組織のために書かれたオープン性のための原則とガイドラインが重要なのです。これらはオープンの定義と共にあり、あらゆる分野のデータにおいて人々がオープンな情報を享受し共有する手助けをします。ここでは、いくつかの例をご説明しましょう。

オープン・ガバメント・データのための原則

2007年には、オープンガバメント提唱者のグループがオープン・ガバメント・データ向けの1セットの原則を開発するためにミーティングを行い、これは「オープン・ガバメント・データの8原則」になりました。

2010年には、サンライト財団はこの最初のセットを彼らのガバメント情報をオープンにするための10原則で改訂し、世界中のオープンガバメント情報のための標準を定めました。これらの原則は、他の種類のデータ公開者にも当てはまるかもしれません。しかし、これらはとりわけオープンガバメントのためにデザインされており、実施要項と支援はこの領域にフォーカスしています。この原則は、オープンの定義の重要な側面の多くを共有していますが、ガバメント情報およびそれが公表、利用される方法について固有の付加的な要件とガイダンスを含んでいます。サンライト原則は次のような領域をカバーします:完全性、優位性、即時性、物理的・電磁的アクセスの容易さ、機械可読性、無差別性、一般的な標準の利用、ライセンス設定、永続性および利用コスト。

ティム・バーナーズ=リーのリンクトデータのための5つ星

2010年には、ウェブの発明者ティム・バーナーズ=リーが、リンクトデータのための5つ星を作成しました。これは、より多くの人々にリンクトデータ(情報を相互運用可能で、連結されたものにするために特定の技術的基準と技術のセットを使用している)としての公表を推奨することを目標としています。

最初の3つの星(法的なオープン性、機械可読性、および非プロプライエタリなフォーマット)は、オープンの定義でカバーされており、さらに追加されている2つの星はリンクトデータのコンポーネント(技術仕様であるRDF形式)を追加したものです。

データを相互に接続する方法には他にも多くのやり方がありますが、5つ星はオープンデータ・コミュニティの様々な部分、特にセマンティック・ウェブデータのウェブのビジョンに興味を持っている人々において影響力がありました。

特定の種類の情報のための原則

オープン・ナレッジ財団では、ワーキンググループの多くは、他の人々との様々な種別のオープンデータおよびオープンな要素を備えた作業分野での原則づくりに関係しました。このような原則は、そのコミュニティの作業の枠組みとなり、オープン性とデータのための法的な、規制にかかわる、技術的な基準と同様にベストプラクティスを提示しました。そして各分野における多数の指導者と組織によって支持されました。

これらは次のものを含んでいます:

オープンの定義:世界的なオープン・ナレッジ運動に力を与える重要な原則

政府、公共部門組織、研究者、企業、大学、NGO、スタートアップ、慈善事業家、コミュニティ・グループ、個人、その他、あらゆる種類の個人と組織は情報をオープンにすることができます。その情報には、スプレッドシート、データベース、イメージ、テキスト、リンクトデータ、その他多くの形式があり得ます。そして交通科学製品教育持続可能性地図立法図書館経済学文化開発ビジネス設計金融、その他など、思いつく限りのあらゆる分野からの情報があり得ます。

それぞれこれらの組織、情報の種類、そして情報の準備と公表に関係している人々は、自分たち独自の要件、挑戦、疑問といったものを持っています。各領域でオープンデータ活動を支援する原則とガイドライン(加えてトレーニング資料、技術基準など!)は不可欠です。このため関係者は情報をオープンにするにあたって特定の障害物、挑戦、好機を理解し、対応することができます。これらの作成と維持は、他のグループやコミュニティと同様、オープン・ナレッジ財団の多くのワーキンググループにとって主要な活動です。

同時に、様々な領域でオープン性にかかわる人々は(オープン・ガバメント、オープン・アクセス、オープン・サイエンス、オープン・デザイン、あるいはオープン・カルチャーのいずれであれ)興味と目標を共有し、そのコミュニティ固有の要件に適合させる一方で、いくつかの異なるデータ種別向けの原則とガイドラインは多くの共通要素をシェアすることができ、またそうしています。オープンの定義は、世界的なオープン・ナレッジ運動におけるこれらのグループの全てをつなぐ重要な原則を提供します。

近日公開予定のオープン性に関する記事

オープンデータの共有され同意された定義を持っていることがなぜそれほど重要なのか、そしてどのように「オープンデータの実践を行う」ことに取り掛かることができるか、オープンデータの定義オープンの定義の探索に関する我々の別のポストを見逃さないでください。

原文(2013/10/16 Open Knowledge Foundation Blog 記事より):
Original post The Open Definition in context: putting open into practice / Laura James, licensed under CC BY 3.0.

okfj

by okfj

オープン性とオープンの定義を探索する

2014年3月23日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

私たちは、オープンデータとは何を意味するのか、その基本を述べてきました。ここでは、オープンな情報への一括アクセスの重要性、オープンデータの商用利用、機械可読性、およびデータ提供者はどのような条件を課せられるのかといったことを含む、オープンの定義をより詳細に調べてみます。

商用利用

定義の重要な要素は、オープンデータの商用利用は許可されているということです。オープンデータの利用に際しては商用であれ非営利用途であれ制限があってはなりません。

オープンの定義全文では、これは「ライセンスは、分野によって作品の利用を差別してはいけません。たとえば、企業での使用や遺伝子研究分野での使用についても制限をしてはいけません」として含まれています。

この節の主な意図は、オープンな資料が営利目的での利用をさせないライセンストラップを禁止することです。私たちは、商用ユーザが疎外感を感じるのではなく、コミュニティに参加することを望みます。

商用のオープンデータ・ビジネス・モデルの例

会社がオープンデータから利益を生み出すことができるということは奇妙に見えるかもしれません。この領域のビジネスモデルはまだ発明の途上であり、調査中ですが、商用利用がオープン性の重要な側面である理由の例証を支援するいくつかの選択肢がこちらです。

オープンデータのボタン

オープンなデータセットを使って、他の人がそれを利用してアクセスしたりアプリやウェブサイトを構築できる高性能で信頼性の高いAPIを作成することができます。また、フリーの一括ダウンロードも利用可能である限り、アクセスに課金することもできます。(APIは、異なる数片のソフトウェアや異なるコンピュータが情報を接続したり交換する方法です。ほとんどのアプリケーションは、最新ニュース、地図、製品価格といったデータにインターネットを通じてアクセスするためにAPIを利用します。)

ビジネスでは、例えばオープンデータをいくつか取り上げてつないだり拡張したりして(例えばデータ内の項目のための一貫した命名を作成したり、あるいは2つの異なるデータセットをつないで新しい洞察を生成したりすることで)さらにデータの改善やクリーニングまわりのサービスを提供することができます。

(データの利用ライセンスへの課金がここでの選択肢ではないことに注目してください。データへのアクセスに課金することは、それがオープンデータではないことを意味します!このビジネスモデルは、ビジネスで収集された個人情報やデータセットの文脈内でよく話題になります。これらはデータ用の完全に素晴らしいビジネスモデルですが、オープンデータではありません。)

帰属表示、「完全性」、継承

オープンの定義はオープンデータの利用に際してごくわずかな条件しか付けてはならないとしている一方で、少数の特定の例外を許可しています:

  • 帰属表示:オープンデータ提供者は帰属表示(適切な方法でのクレジット表記)を要求するかもしれません。これは、オープンデータ提供者が自分たちの作品に対するクレジット表記を受け取り、そして下流の利用者が、データの由来をたどれるようにできるということにおいて重要となりえます。
  • 完全性:オープンデータ提供者は、データが変更されているかどうか、データの利用者がそれを明らかにすることを要求するかもしれません。これは例えば政府にとっては非常に適切となりえます。彼らはデータが修正されている場合に、人々がそれを公式なものだと主張しないことを確認したいと考えます。
  • 継承:オープンデータ提供者は、そのデータを利用して作成されたいかなる新しいデータセットもオープンデータとして共有することを要求する、継承ライセンスを課するかもしれません。

機械可読性と一括アクセス

データは多くの方法で提供することができますが、これはその利用しやすさに重要な影響を及ぼす場合があります。オープンの定義は、活用するのが難しくならないようにするために、データが機械可読でかつ一括して利用可能であることを要求します。

コンピュータによって容易にそれを処理することができる場合、データは機械可読であると言えます。これは、単にデジタルであるだけはなく、それが適切な処理がしやすいデジタル構造であるということを意味します。例えば、データの表を含んでいるPDFドキュメントのことを考えてみてください。これらはデジタルです。しかし、コンピュータはPDF(たとえそれがまさに判読可能な人間であっても!)から情報を抽出しようと奮闘するでしょう。スプレッドシートのようなフォーマットでの同じような表は機械可読と言えるでしょう。オープンデータ用語集内の機械可読性に関してもっと読みたい場合はこちら

機械が対応可能ないくつかの機械可読データ

機械が対応可能ないくつかの機械可読データ

全体のデータセットを容易にダウンロードするかアクセスすることができれば、データは一括して利用可能です。あなたが、例えば一度にデータデータセットのごく一部の要素しか得られないように制限されている場合、一括で利用可能ではありません。例えば、世界のすべての町のデータセットに一度に1か国ずつアクセスすることを想像してみてください。

API対一括取得

APIでデータを提供するのは素晴らしいことです。そして、データでやりたいことの多くは、例えばモバイルアプリ内に何らかのお役立ち情報を表示するような場合、一括でのアクセスよりも便利な場合が多いでしょう。

しかしながら、オープンの定義は、APIよりもむしろ一括アクセスを要求します。それには2つの主な理由があります:

  • 一括アクセスは、あなたがAPIを構築する(そうしたいなら!)ことを可能にします。全てのデータが必要な場合、その取得にAPIを使用するのは困難もしくは非効率になる場合があります。例えば、ツイッターについて考えてください:ツイートをすべてダウンロードするためにそのAPIを使用するのは非常に困難で遅いでしょう。したがって、一括アクセスは誰にでもデータへのフル・アクセスを保証する、唯一の方法です。いったん一括アクセスが利用可能ならば、別の誰でも他の人がデータを利用するのを支援するAPIを構築することができます。さらに、検索インデックスや複雑なビジュアライゼーションのような面白い新しいものを作成するために一括データを使用することができます。
  • 一括アクセスはAPIを提供するよりはるかに安価にできます。今日、月に1ドル未満で何ギガバイトものデータを格納することができます。しかし、基礎的なAPIですらその実行にはもっとコストが掛かるかもしれません。また、高度な要求をサポートする適切なAPIの実行は非常に高価になる場合があります。したがって、APIを持っていることはデータがオープンであるための要求事項ではありません。もちろん利用可能な場合、それはそれで素晴らしいのですが。

さらに、誰かがAPI経由でのオープンデータへのアクセスに課金しても、同時にそのデータを一括してフリーで提供している限り、まったく問題ありません。(厳密に言えば、要求は、一括データが無料で利用可能ということではなく、課金する場合には再生産原価を超えない程度であるべきということです。オンライン・ダウンロードについては、それは限りなく無料に近いはずです!)これには意味があります:オープンデータは無料でなければなりませんが、オープンデータサービス(APIのような)には課金することができます。

(新しい情報が現在の交通情報のように、絶えず生成されているリアルタイムデータにとって、これがどういう意味を持つかということは考慮する価値があります。ここでの答えは状況に多少依存しますが、オープン・リアルタイムデータについて、一括ダウンロードアクセスの組み合わせや迅速あるいは定期的な更新を取得する何らかの方法を想像するでしょう。例えば、いつでも利用可能な最新の更新情報の流れや、毎晩1日分全体の一括ダウンロードを提供してかまいません。)

ライセンス設定とパブリック・ドメイン

データセットが法律上オープンかどうか私たちが知りたい場合、一般に、それがオープンライセンスの下(あるいは、「献呈」によるパブリックドメイン内)で利用可能かどうかをチェックします。

しかしながら、何らかの独占的な、例えば著作権やスイ・ジェネリス(データベース)権といった、データにおける知的財産権のようなものがあるかどうかは必ずしも明らかだとは限らないことに注意することは重要です(例えば、これはあなたの法域に依存するかもしれません)。この複雑な問題については、データにおける権利のオープンの定義の法的な概要内でもっと読むことができます。データに独占権がなければ、自動的にパブリック・ドメインに置かれるでしょう。そして、それをオンラインで公開することはそれをオープンにするのに十分でしょう。

しかしながら、これは事態があまり明らかでない領域ですので、適切なオープンライセンスを適用することが一般に推奨されます。- あなたがライセンスした独占権がある場合、そして何らの害を及ぼす権利も無い場合(データは既にパブリック・ドメインにあります!)。

近日中に公開予定のオープン性に関する記事について

近日中に私たちはオープン性の説明というテーマの記事をさらに投稿予定です。オープンの定義とオープン性のための原則の特定のセットとの関係を含む、サンライト財団の10の法則やティム・バーナーズ=リーの5つ星システムのように、オープンデータの共有され同意された定義を持っていることがなぜそれほど重要か、また、人はどうやったら「オープンデータの実践」に取り掛かることができるか、といった内容です。

原文(2013/10/16 Open Knowledge Foundation Blog 記事より):
Original post Exploring openness and the Open Definition / Laura James, licensed under CC BY 3.0.

okfj

by okfj

オープンデータを定義する

2014年3月23日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

オープンデータは目的を問わず、誰でもどこででも自由に利用し、共有し、構築のベースにすることができるデータです。これは、オープンデータの簡潔な説明と詳細な定義の両方をお伝えするために、2005年にオープン・ナレッジ財団が作成したオープンの定義全文を要約したものです。

オープンデータの運動が広がり、より多くの政府や組織がオープンデータを受け入れるにつれ、オープンであることの便益の享受を実現し、プロジェクト間の非互換性を作り出したり、コミュニティを分裂させることの危険性を回避するためには、「オープンデータ」とは何を意味するのかという明瞭で同意された定義の存在がますます重要となっています。

オープンはあらゆる出所や話題からの情報に当てはめることができます。誰でも公衆による自由な利用とその便益のためにオープン・ライセンスの下で自分のデータを公表することができます。私たちはよく予算や地図のような公開情報を公表する政府と公共部門の組織、あるいは自分たちの成果としてのデータや出版物を共有する研究者たちについて考えがちですが、、どんな組織でも情報をオープンにすることができます(企業、大学、NGO、スタートアップ、慈善活動家、コミュニティグループおよび個人)。

オープンデータに対する1ページの紹介ではもっと様々な種類のデータについて読むことができます

交通科学製品教育持続可能性地図立法図書館経済学文化開発ビジネス設計金融…などにはオープンな情報があります。したがって、オープンの意味についての説明はこれらの情報源と種別のすべてに当てはまります。オープンにすることは、データ(ビッグデータであれスモールデータであれ)に対して、あるいは画像、テキストおよび音楽などのようにコンテンツに対しても適用することができます。

そこで、オープンの意味とは何なのか、そしてこの同意された定義がオープンデータおよびオープンコンテンツが成長し新たなコミュニティにリーチするにつれ、なぜ私たちが協働、共有、調整するのに極めて重要なのか、ここにあらためて明確にお伝えします。

オープンとは何ですか?

オープンの定義の全文には、オープンデータとは何かということについて詳しく書かれています。
オープン性には2つの重要な要素があります:

  • 法的なオープン性:データを取得し、その上で何かを作成し、それを共有することが法的に認められていなければなりません。法的なオープン性は通常、データへの自由なアクセスと再利用を認める適切な(オープン)ライセンスの適用によって、もしくはデータをパブリック・ドメインに置くことによって提供されます。
  • 技術的なオープン性:そのデータの利用に技術的な障壁があってはなりません。例えば紙への印刷物、あるいはPDFドキュメント中の表としてデータが提供されると、情報の活用に非常に困難を来します。したがって、オープンの定義にはデータが一括して(バルクで)、そして機械可読な状態で利用可能であることを要求するような「技術的なオープン性」のための様々な要件があります。

オープンにはいくつかキーとなる側面があり、オープンの定義はそれについて詳細に説明しています。オープンデータは、利用者が誰か、どこに住んでいるのか、あるいはこのデータで何をしたいのかといったことにかかわらず誰にでも利用可能です。利用者の制限があってはなりませんし、商用利用も問題ありません。

オープンデータは一括で(それゆえ作業しやすい状態で)利用可能でなければなりませんし、無料もしくは合理的な再生産原価以下で利用可能であるべきです。情報はデジタルであって、できればインターネット経由でダウンロードして利用可能で、コンピュータでも簡単に処理できるものであるべきです。もしそうでなければ、利用者はデータの力を完全には利用することができません。組み合わせることで新たな洞察を生み出すことができるのです。

オープンデータは、人々がそれを利用し、再利用し、他のデータセットと混ぜあわせた結果の頒布も含めて、再頒布することを許可しなければなりません。

オープンの定義は一般に、人々がどのようにオープンデータを利用できるかということについて、条件が付けられることを認めていません。しかし、データ提供者が適切な方法で利用者に帰属表示や、データに変更があったかどうかの明示や、元のデータを使って作られた新しいデータセットもオープンデータとして共有する、といったことを求めることは認めています。

オープンの定義の背後には3つの重要な原則があり、これがオープンデータの力強さの根幹となっています:

  • 利用可能性とアクセス:人々はデータを取得できます
  • 再利用と再頒布:人々はデータの再利用および共有が可能です
  • ユニバーサルな参加:誰でもデータを利用できます

オープンの定義のガバナンス

2007年以来、オープンの定義は諮問委員会によって管理されてきました。これは、定義と関連する材料の維持および開発に対して公式な責任を持つグループです。その使命は、オープンナレッジコミュニティの全般的な便益のためにオープンの定義という作業を前に進めることであり、どのライセンスがオープンの定義に適合しているかを決めるための特定の責任を持っています。

委員会はコミュニティが運営する組織です。委員会の新メンバーは、諮問委員会の既存のメンバーの合意にもとづいていつでも指名することができ、委員会の作業分野における実証された知識と能力により選ばれます。

諮問委員会はオープンに進められ、誰でもメーリング・リストに参加することができます。

オープンの定義について

オープンの定義は多くの人々からのインプットをもとにオープン・ナレッジ財団によって2005年に作成されました。定義は、直接的にはオープン・ソース・イニシアチブオープン・ソースの定義に基づきました。自由なコミュニティおよびオープン・ソース・コミュニティがソフトウェアのために開発したこれらのよく確立した原則とをほぼ再利用して、データとコンテンツに適用することができました。

コミュニティの多くの翻訳者の努力のおかげで、オープンの定義は30以上の言語で利用可能です。

近日公開予定のオープン性に関する記事について

近日中に、私たちはオープン性を説明するテーマに関する記事を投稿する予定です。その内容にはオープンの定義のより詳細な調査や、サンライト財団の10の原則やティム・バーナーズ=リーの5つ星システムのようなオープンの定義のオープン性に対する原則と特定のセットとの関係 、なぜ共有され、同意されたオープンデータの定義を持つことがそんなに重要なのか、そしていかに「オープンデータ化すること」について取り掛かることができるか、といったことが含まれます。

原文(2013/10/3 Open Knowledge Foundation Blog 記事より):
Original post Defining Open Data / Laura James, licensed under CC BY 3.0.

okfj

by okfj

すぐれたデータは英国政府の活動実績プラットフォーム上で自分自身をオープンにする

2014年3月22日 in Featured, News

(訳注:この記事は本家OKFn.org記事の日本語訳です)

これはフランシス・アーヴィング(@frabcus)によるゲスト投稿です。彼はScraperWiki のCEOであり、TheyWorkForYouとWhatDoTheyKnowのような世界初の市民ウェブサイトをいくつか作成しました。

これは、英国政府の活動実績(パフォーマンス)プラットフォームに関する一連の投稿のうち、3番目のものです。パート1ではこのプラットフォームはなぜエキサイティングなのかを説明し、パート2ではそれが内部でどのように動作しているかを説明しました。

すぐれたデータはそれ自体をオープンにします。国から情報を引き出すのに、情報公開(FOI)要求を行う必要はありません。公務員が、自分たちのリリースしているものを追跡すべきチェックリストとして巨大なディレクトリを構築する必要はありません。代わりに、データは単にそこにあるのです。コードは、それが実行することの一部としてそれを自然とオープンにします。英国政府の活動実績プラットフォームに関するあまり語られることのないエキサイティングなことのひとつは、それがオープンデータ全体のかたまりをリリースしているということです。

ここに、2つの例があります。

ペットショップの許認可

1. 許認可の実績

これは、様々な郡におけるペットショップの許認可申し込み数の時系列のグラフ(もちろん
その裏にはデータがあります!)です。これは大きなシステムの一部で、全国至る所で最終的にはあらゆる種別の許認可情報が保持されるものです。既にアルコール、食物、大道芸…多数のトピックがあります。

オープンデータではよくあるように、予測のつかない用途がきっと多数あるでしょう。たいていの利用者はごくひっそりと利用するので、あなたは何が行われたか気付くことは無いでしょう。おそらく、家庭用ペットのマネージャーは変動するペット・ショップの市場動向を、あるいは音楽家は大道芸の許認可データをじっくり調べることができます。

2. 車両用の道路税支払済証

車両道路税支払済証の申請

業務処理のサービスに関する基礎データは、潜在的に経済について多くのことをあなたに伝えることができます。例えば車両道路税支払済証の申請に関する右側のグラフ。これは自動車ディーラーに、あるいはヘッジファンドに、自動車の保有に関する情報を伝えることができます。

これは絶えず更新され、現時点のどの全国統計よりはるかに新鮮なデータを得られます。必要な場合には、現時点のオンライン利用者数がリアル・タイムに更新されています。活動実績プラットフォームの拡張に伴い、私は場所および車両の種別ごとに細分化されたものが提供されることを期待しています。

慈善事業はこのオープンデータからデジタル浸透率について学ぶことができます。
どれだけの人々が郵便局に行かずにオンラインを使っているでしょうか?

将来

活動実績プラットフォームはアルファのフェーズでありながら、既に多数のデータセットが副次的な効果としてリリースされています。これはいくつかの理由でさらに増えるでしょう:

GDSは、政府全体を通じた何百ものサービスをカバーすることを熱望しています。部門のサービス・マネージャは、データの多様性を拡張することで、必要とする特別なビジュアライゼーションを得ることができます。ある時点で、政治家はより計測可能なものを求め始めるでしょう。おそらく最終的には、活動家はリリースされたデータを改善するプルリクエストを送るようないなるでしょう。これはビジネス、慈善事業、市民そして政府自体にとって偉大なことです。業務処理のサービスが自動的に吐き出すことができものは、基本的に新しい種類のオープンデータです。オープンにすることでものごとは良くなります

どんなデータが偶然あなたのためにリリースされているでしょうか。ぜひ活動実績プラットフォームに期待してください。

原文(2014/1/20 Open Knowledge Foundation Blog 記事より):
Original post The best data opens itself on UK Gov’s Performance Platform / Francis Irving, licensed under CC BY 3.0.

okfj

by okfj

オープン・データ・デイのハイライト

2014年3月21日 in Events, Featured

(訳注:この記事は本家OKFn.org記事の日本語訳です)

先日の土曜日、世界中でオープン・データ・デイが開催され、190を超えるイベントが地球中で行なわれました。その多くはオープン・ナレッジ・ファウンデーションのローカル・グループによってオーガナイズされました。この要約では、全イベントのうちのいくつかを取り上げます(詳細は私たちのオープン・データ・デイに至るまでのブログ投稿記事オープン・データ・デイ用の概要ページを参照)。

アイルランドでは、4つのオープンデータと市民プロジェクトに取り組みました。データ探索者、プログラマ、活動家、市民社会の代表そして関心を持つ市民など約70人がボランティアとして様々なプロジェクトに参加し、さらにネットワークにつながり、アイデアを共有し、美味しい食事を楽しみました!エジプトでは、国中から多くの参加者が集まり、オンラインとオフラインの両方で共同作業を行いました。全般的に全国メディアやソーシャルメディア空間でも多数の注目を集めました。最大のハイライトは、エジプトの通信情報技術大臣Atef Helmy からの数件の支援ツイートでした。

インドの私たちの友人のところでも同様にオープン・データ・デイは大成功でした。ハッカソン、ウェビナー、データセットの公開、データ・ビジュアライゼーションの作成、その他多くの活動を含む丸一日のイベントでした。ネパールのローカルグループは、さらにトークやウィキの学校およびMozillaのWeb作成を含む一連の活動をオーガナイズしました。その多くは、このブログ記事、このフォト・ギャラリーおよびこのビデオに要約されています。

ロシアとベラルーシでは、ミンスク、ペルミ、モスクワといった都市で、ローカルのOpenStreetMap コミュニティやOpenAccess プロジェクトであるCyberleninka といったところと共同でいくつかのイベントが開催されました。ベルギーでは、オープン・データ・デイのプレイベント作成に注力しました。その結果、ベルギーでの「オープン・ベルギー」と題されたデータ・デイ会議はこの話題で埋め尽くされ大成功でした。彼らは180人以上のデータ・エキスパート(それは開催地の収容能力上限でした)を集めました。そこには地域および国の政策立案者や他の国々からの訪問者さえ含まれていました。

スカンジナビアでは、いくつかの活動が行われました。スウェーデンでは、この機会がオープン・ナレッジ・ファウンデーションのローカル・グループを公式に始動するのに利用され、プレス・リリースを発表しました。アイスランドはハッカソンを行いました。フィンランドはオープン・データ・ブランチを主催しました。また、デンマークでは、4つの異なるハッカソンやワークショップを含む大きなイベントが開催され、60名ほどの科学者、芸術家、データ探索者、プログラマ、活動家、データ提供者や関心のある市民が参加しました。オープンにライセンスされた文化遺産のコンテンツからビデオを作ってその結果をコペンハーゲンのダウンタウンで夕方催された大きなBring Your Own Beamer イベントに陳列する人々もいました。当日、この4カ国はビデオハングアウトを使ってやっていることを共有したり、オープン・ナレッジについての熱狂を共有したりもしていました!

OpenSpending とローカルのオープン・データ・センサス・スプリント

オープン・ナレッジ・ファウンデーションのネットワークのグローバルなオープン・データ・デイの話題のいくつかに参画するグループもありました。そのひとつはOpenSpending プロジェクトで、そこでは例えば、Burkino Faso の私たちのグループは公費について丹念に調べました。オープン・ナレッジ・ファウンデーション・ジャパンは別のマイルストーンを通過し、いまやOpenSpending 上に250を超えるデータセットを追加しました。ロンドンでは、Lewisham のロンドン自治町村からの業務処理の支出データが参加者によって公表されました。スペインでは、ビーゴの都市を視覚化しました。

多くのグループが世界的な各地のオープン・データ・デイのスプリントに参加しました。最も活発なもののひとつは米国で、スプリントがCodeAcrossサンライト財団との共同でオーガナイズされました。その結果は国中で20以上の都市のデータ・マッピングでした。さらに、ギリシャおよびドイツのグループは驚くべき仕事をやりとげ、印象的な10の都市11の都市をそれぞれマップしました。ギリシャからのこちらのフォト・ギャラリーを参照。ドイツでは、さらにあらゆる他のプロジェクトに取り組み、小さなビデオすらも放映しました。

さらに、ツイッター投稿は、地球全体でかなり活発でした。何千人もの人々が#ODD14や#ODD2014といったハッシュタグの周辺に集まってきて、自分たちのやっていることをメンションしたり、他の人々のすばらしい作業にコメントしたりしました。私たちは、こちらでいくつかのベスト・ツイートをハイライトとして取り上げました。

おおよそ、グローバルなオープン・データ・コミュニティの息吹と深さを実際に際立たせた素晴らしい一日でした。オープン・データ・デイ 2015が待ち遠しくて仕方ありません!

原文(2014/2/28 Open Knowledge Foundation Blog 記事より):
Original post Highlights from Open Data Day / Christian Villum, licensed under CC BY 3.0.