You are browsing the archive for Open Knowledge.

okfj

by okfj

コーディング・ダ・ヴィンチ – ドイツのOpen GLAM チャレンジ

2014年4月6日 in Events, Featured

(訳注:この記事は本家OKFn.org記事の日本語訳です)

以下のブログはヘレネ・ハーン(オープンナレッジ・ドイツのOpen GLAMコーディネータ)によるもので、Open GLAMブログからのクロスポストです。

ますます多くのギャラリー、図書館、アーカイブおよび博物館(GLAM)が、オンライン上でアクセス可能にして、将来の世代のために私たちの遺産を保存しておくために、そのコレクションをデジタル化しています。2014年1月までに、3千万点以上のオブジェクト (うち450万件以上の記録がドイツの団体から寄贈されました)が、Europeana 経由で利用可能になりました。

所属するセクターに関わらず、オープンデータ、オープンコンテンツの寄贈を通じて、文化団体は今日の思想家および実践家のためのツールを提供します。このように、文化遺産は審美的な美しさだけでなく、同時に当初の予想を上回る、より広い文化的・経済的価値をもたらします。

文化遺産団体とハッカーおよびデザイナーコミュニティの双方が一堂に会して、文化関連セクターと公衆のためのアイデアやプロトタイプを開発するために、ドイツで初めての文化的データのhackathon となる、コーディング・ダ・ヴィンチがベルリンで開催されます。これは、英国国立公文書館のジョウ・ピューによって作り出されたもので、「あなたのおもちゃで遊んでもらおう」というモットーの下、4月26日から7月6日まで10週間の挑戦ランニングとして企画される予定です。プロジェクトは全てみんなのためにオンラインで提供され、hackathon の最後には、最優秀プロジェクトに賞が与えられます。

参加するGLAMは、18~19世紀のベルリンの都市の画像(メタデータを含む)、ドイツの1930年代以降の昆虫やユダヤ人のアドレス帳を含んでいるシャドーボックスのスキャンしたもの、およびさらに多数のもの、といった呼び物を含め、hackathon で使うために多様な範囲のデータが寄贈されました!加えて、ドイツのデジタル・ライブラリーはhackathon 参加者にそのAPIを提供する予定です。さらに、嬉しいことに限定数の範囲で参加者のために、旅行と宿泊の経費負担を提供することができます。あなたがしなければならないのは、今すぐ応募することだけです!

価格、チャレンジの内容およびデータセットは全てオンラインで、まもなく公開されるでしょう。

このhackathon のオーガナイザー:
German Digital Library, Service Centre Digitization Berlin, Open Knowledge Foundation Germany, and Wikimedia Germany.

原文(2014/4/3 Open Knowledge Foundation Blog 記事より):
Original post Coding da Vinci – Open GLAM challenge in Germany / Lieke Ploeger, licensed under CC BY 3.0.

okfj

by okfj

「フリー、リブレそしてオープンな用語集」の紹介

2014年4月5日 in News

(訳注:この記事は本家OKFn.org記事の日本語訳です)

以下のゲスト投稿はChris Sakkas によるものです。

数か月前、私たちは仕事中に問題に遭遇しました。「これをオープン・ソースにしよう。」と私の上司は言って、紋切り型のブレインストーミング・セッションを行いました。私は、確立された定義を持つフリー、リブレ(自由)そしてオープンといった用語を誤用する人々によって、しょっちゅうフラストレーションがたまります。私は、これらの言葉の意味と相互の関係を徹底的に説明する用語集の最初のドラフトを書いて午後を過ごすことに決めました。私の希望は、誰かが始めから終わりまで用語集を読めば、オープン・ソースとクラウド・ソーシングや、ソフトウェアとフリーウェアを決して混同しない、いうことです。

これはその要約です:

  • フリー/リブレ/オープンな作品とは誰であれ、目的を問わず、著作権を侵害することなしに、共有し翻案(改変)することができるものです。
  • クラウドソースされた作品とは、内部的にとか請負契約によるものというよりもコミュニティから求められたものを指します。
  • フリーウェアは、無料でダウンロードできるソフトウェアのことを言います。
  • フリーソフトはフリー/リブレ/オープンですが、買うのにコストが掛かることがあります。

用語集はコミュニティによる共同作業です。しかし、さらに、私は修正した形式でODTおよびPDFとしてそれを公表しました。その利点は、これが校正、検証され、そして引用されることができるということです。しかしながら、さらに、それは、貢献が歓迎される生きたドキュメントとして生き残ります

用語集を書くのに行う必要のあった研究のおかげで、私は用語をあいまいにしたり誤用する人々に、以前よりは共感できるようになりました。一方、大きな概念 – オープンナレッジ、オープンソース、フリーソフトウェア、フリーカルチャーの作品 – は明確に定義され、それらは同義語とは全く違います。フリー、リブレ(自由)、そしてオープンとは何かということは起草者が何を期待しているかによってフィルターが掛けられてきました:オープンナレッジ財団のオープンな定義では、オープンな知識とみなされるためのオープンアクセスである作品を要求します。フリーカルチャーの作品の定義は、フリーカルチャーの作品として適格とされるフリーの形式にあることを要求します。このように、オープンナレッジでないフリーカルチャーの作品を持つことは可能であり、その逆もまた然りです。さらに、フリーカルチャー・ライセンス/オープンナレッジ・ライセンスの下にあって、フリーカルチャーの作品でもオープンナレッジでもないということも、異常なことではありません。

私の最初の草案に対するコミュニティの反応は興味深く有益でした。私は、ファイルをホストするのに、フリーでもリブレでもオープンでも無いGoogle Drive を使ったために初期にそして継続的に批判を受けるということを経験しました。さらに私は、飴とムチの支配力を直接に学習しました:私は、単にGoogle Drive の使用を批判する人々を無視しましたが、誰かがEtherpad を教えてくれた時、そこに移しました。

これがあなたに興味のある内容でしたら、ぜひ一緒になってチェックしてください


Chris Sakkas は、FOSsil Bank wiki およびLiving Libre のblog とTwitter feed の管理者です。

原文(2013/9/3 Open Knowledge Foundation Blog 記事より):
Original post Introducing “A free, libre and open Glossary” / Chris Sakkas, licensed under CC BY 3.0.

okfj

by okfj

天候のオープン化、パート2

2014年4月4日 in Featured, News

(訳注:この記事は本家OKFn.org記事の日本語訳です)

天候のオープン化、パート1」も参照

Stormy sea at Castletown

私は数年前にパラグライダーを始めました。それは恐らく世界で最も天候に依存するスポーツです。私たちは、よく山岳地方で飛びますが、山肌が間近に迫ることもあります。私たちは、熱の上昇気流、雲成長、山風、フェーン現象風そして他のあらゆるミクロな天候の結果といった、局所効果のことを知っている必要があります。

私は、このレベルの詳細なものには利用可能な情報がほとんどないことを発見しました。情報は存在します。しかしそれが特殊すぎるので、どこにも表示されないのです。

私自身のパラグライダー用予測を作るために私が必要とする生データを提供することができるかどうか、私は全国気象サービス「メテオ・フランス」に尋ねました。彼らは「ええ、もちろん。年間100,000ユーロです。」私の個人的利用(もしくは何らかのモバイルアプリ開発者のため)には少々高価すぎます…。

この調査は、ごくわずかな公的機関がこの(たいていは米国、カナダおよびノルウェーからの)データを自由に、世界規模で共有していることを明らかにしました。私は米国のグローバルモデル(GFS)からあるデータを取得しました。これはいろいろな天候ウェブサイトでかなり利用されています。しかし、これらの予測は非常に制限されたものです。グローバルなモデルは本当に粗く(55kmのグリッド)、地形や土地利用を見ることができません。これではアルプス山脈が見えません。つまりパラグライディングにはあまり役に立ちません。

私が必要とするレベルのデータを得るために、私は粗い米国のデータをインプットにして、私自身の高解像度の地域天候モデルを実行しなければなりません(私のmeteo-parapente.com ウェブサイトを参照)。それは容易ではありません。それは私たち自身のコンピューティング・クラスタ、サーバーおよびアーカイブするインフラストラクチャーと共に、ハイパフォーマンス・コンピューティング(HPC)技術を必要とします。

openmeteo

このプロジェクトは、私のパラグライディングのために、よりよい天候情報を得る、個人の試みとしてスタートしました。しかし、その過程でより大きな危うい問題があることに気付きました。

誰でも、天候がほとんどの活動に影響を及ぼすことを知っています。METNEXTによれば、フランスのGDPの25%は天候に依存しています。
天候は安価です:1ドル掛けてよりよい天候知識を得ることで、悪天候の間、20を超える損失や災難を避けることができます。#openagdata のマーガレット・ジーグラーは、作物の損失の90%が天候によるものであることを指摘しています。

米国では、気象データはパブリック・ドメインです。しかし、ほとんどのヨーロッパ諸国ではそうではありません。モデル出力、雨雲レーダー、地上局および衛星からのデータは、100,000ユーロで売られています。

この政策には多くの副作用があります:

  • 無料の公共サービスは全く良くありません。なぜなら「プレミアム」サービスを売る必要があるからです。
  • スタートアップ企業やSMEはこの価格を払う余裕がありません -> ヨーロッパには「天候」ビジネスがありません。米国の20%に対して1%の成長率です。
  • 公的機関や研究者は必要なデータを入手するのにかなり苦労します。

私は自分の部署がフランス国立の公的機関の代わりにベルギーの会社から天候を買っていることを知って悲しかったです。

したがって、OpenMeteoData にはいくつかのゴールがあります:

  • 既に利用可能なデータへの容易なアクセスの提供。
  • オープンな予測(人間の分析および数値モデルの両方)を作成するための人的および技術的な資源を集めること。
  • 組織機関によるデータのオープン化を支援したり、利点を説明すること。
  • 公共データをオープンにすることに関する討論で触媒として働きかけること。私は、既にフランス政府およびメテオ・フランスと連絡をとっています。
  • オープンな気象学に関するプロジェクトを集めるためのプラットフォームを提供すること。

天候について話したい場合は、私たちのオープン・サステナビリティのグリストがあなたに適切な場所かもしれません!

原文(2013/6/20 Open Knowledge Foundation Blog 記事より):
Original post Opening the weather, part 2 / Nicolas Baldeck, licensed under CC BY 3.0.

okfj

by okfj

天候のオープン化、パート1

2014年4月3日 in Featured, News

(訳注:この記事は本家OKFn.org記事の日本語訳です)

Red sky at night - Unst By Pete + Lynne, on Flickr

赤い夜空は、羊飼いの喜び
牛の尻尾が西を向けば明日は晴れ
タマネギの皮はとても薄く、穏やかな冬が到り来る

人間は、天候が何を用意して待ち受けているのかということや、何がやって来るのか予言するいろいろな方法を知りたいということを常に願ってきました。何かしら良いものを。

みなさんご存知の通り、天気予報は19世紀に熱心に始まりました。当時は、電信の発明が長距離通信に革命を起こし、入って来る天候に関する情報が天候そのものより速く移動することを可能にした時でした。それ以来、天気予報は私たちが以前よりはるかに詳細に将来の天候を知ることを可能にし、予測モデルと同様に報告と通信技術の改良に伴い、より正確になって来ました。

世界中の測候所で集められたデータは、アルゴリズムによってこれから来る天候に関する予測に翻訳されます。しかし、いくつかの生データは使いたい人々に自由に利用可能である一方、他のデータセットはそびえる課金の壁の後ろにロックされています。また、出力された予測はすべて一般に大手予測会社のクローズドな財産です。

これに挑戦するために最近登場した2つのプロジェクトがOpenWeatherMap.orgOpenMeteoData.org です。OpenWeatherMap のOlga Ukolova は次のように説明します:

「私たちは、ひとつのアイデアの周りに集まった熱狂家は大企業以上のことを達成できると信じています。私たちは、気象データは利用可能で、自由に簡単に使えなければならないと信じています。」

オープンな天気予報サービスは、一企業が達成できるものよりも、もっと高精度で詳細な予測を生み出すために世界中の熱狂家のインプットを利用する能力を持っています。ウィキペディアやOpenStreetMap の場合のようなコミュニティ駆動の知識生成の成功に触発されて、OpenWeatherMap の連中は利益駆動の企業の手からコントロールを奪い取る一方で、利用可能な情報の質を改善することを目指しています:

「プロジェクトはデータ収集のプロセスや、天気予報をより正確なものにするためのデータの正確性評価に熱狂家を惹きつけます。測候所を持っていれば、それをOpenWeatherMap サービスに接続することができます。あなたの測候所からデータを集め監視するための便利なインターフェースを得られるでしょう。また、自分のホームページに測候所データを埋め込むことができます。」

結果は、開発者向けにオープンに無料で利用可能です:

「モバイルのアプリケーション開発者は、JSON/XML APIを使うことでアプリケーション用のあらゆる気象データを受け取ることができます。アンドロイドとiOSのための多くの天候アプリが気象データのソースとしてOpenWeatherMap を使用しています。ところで、データはWMSサーバーから受け取ることができ、任意の地図作成ウェブアプリケーションに埋め込むことができます。

地図作成サービスを利用するWebアプリケーション開発者は、そこに簡単に気象通報を追加することができます。OpenWeatherMap はOpenStreetMap およびGoogle Maps にライブラリを提供しています。Drupalや他のCMS向けのプラグ・インも利用可能です。」

weather map

OpenWeatherMap.org の地図

今週(訳注:2013/6月)の終わりに、OpenMeteoData のNicolas Baldeck は、天候のオープン化についてこれまで彼がどんな興味を持ってきたのか、そしてプロジェクトにはどんな将来を描いているのか、私たちにもっと教えてくれるでしょう。

原文(2013/6/18 Open Knowledge Foundation Blog 記事より):
Original post Opening the weather, part 1 / Theodora Middleton, licensed under CC BY 3.0.

okfj

by okfj

オープンデータのビジネス的価値ばかりが重要ではない

2014年4月1日 in Featured, News

(訳注:この記事は本家OKFn.org記事の日本語訳です)

これは、サンライト研究所の所長トム・リーによって書かれたサンライト財団ブログからのクロスポストです。オリジナルの投稿はこちらで参照してください。

最近ロンドンで開催されたオープン・ガバメント・パートナーシップの会合は、私たちのコミュニティの方向性を評価する好機を提供しました。最新のものはジョナサン・グレイによるものですが、そのタイトル – オープンガバメントはデジタル経済ではなく、説明責任と社会正義に関するものであるべきです – は多かれ少なかれその内容を物語っています:

[首相デヴィッド]キャメロンのスピーチは、政治的な説明責任および社会正義から経済成長およびデジタル革新に向けて、説明する力の保有からスタートアップの支援まで、近年のオープンガバメント講演においてより広い枢軸を代表しました。近年、米国と英国の上級職員は、革新的な新事業および成長のためのデジタル技術およびデジタル情報の可能性と同様に、ハイ・レベルの透明性会談でも「オープンガバメント、オープン社会、オープン経済」の三位一体説を示唆し始めました。

透明性首脳会議で期待されるパネルの種類に加えて、官民のパートナーシップ、市民革新における起業家、およびスマートシティなどに関するセッションがありました。ウェブの発明者ティム・バーナーズ=リー卿は閉会の挨拶で次のように述べました。「私にとって、一日の終わりの最も刺激的な部分は、常に経済的価値です。」

[…]

時々、政府にとって「デジタルを推進」する計画を強調したり、公的なデータの公開で新規事業を可能にするのはより快適なことです。一方、透明性の提唱者は、社会的、環境的正義に対して市民に説明し、戦う力を持たせるための「自分たちの」使命から注意を逸らされてはなりません。

私は、オープンガバメント・データ・コミュニティ内の明瞭な特徴についてのジョナサンの診断に賛成します。しかし、私はそれらが相対するものでなければならないとは思いません。私は以前に、大きなテントは私たち全てにとって有益であるという議論をしたことがあります –
説明責任のためのオープンデータと経済発展のためのオープンデータの間の線をぼかすことは、両方の選挙民のニーズを満たすことができます。結局、オープンな情報に関する偉大なことは、その供給が無限であるということです。

しかし、たとえ私たちがこれらの原理のどちらかを選ぶ必要がなくても、その相対的な重要度を評価するのは有意義なことです。また、そのようなレンズを通して、ジョナサンの指摘はよく理解されます:データをオープンにすることのビジネス原理は莫大な量の注目を集めています – メリットを得られるということ以上に恐らく、このビジネス原理がオープンデータの潜在的利益の相対的に小さなシェアを表わすことは間違いありません。

これを立証する最新の証拠は、ちょうど先週オープンデータの経済的価値に関する新しいマッキンゼーの報告書という形で到着しました。その結果の見出しとpowerpoint のスライドは、報告書をリードする3兆ドルの評価に注目するでしょう。私は、評判の高いコンサルティング会社からのこの膨大な数字が提唱者にとって有用なツールになるだろうということを最初に認めましょう。

しかし、報告書が言っていること、およびそれが意味するものを正確に深掘りすることには価値があります。私は、オープンデータが私たちそれぞれの国の経済にとって有意義であることに私たちがみな合意することができるのかどうか、疑っています。しかし、いくら、だけでなく、どうやって、ということを尋ねることが必要です。報告書より:

この価値の多くは、価格と製品情報の透明性が改善されることで、より大きな消費者余剰に結びつくでしょう。会社がその解析手法にオープンデータを組み入れることにより競争優位性を獲得するので、市場占有率の変動がさらに産業横断的に生じるかもしれません。

私の意見を強調しておきます。「改善された価格および製品情報の透明性」は、より強硬に特価品を求める消費者を意味します。それはより薄い利ざやと、生産者というより消費者への価値の増加を意味します。

報告書は続けます:

消費者は最大限の利得を獲得するかもしれません。消費者は、既にオープンデータから価格の透明性を通じて(例えば価格比較を提供するオンライン・ショッピング・サイトを利用することで)利益を得始めています。製品とサービスに関する他の情報は、オープンデータ(例えば、列車が時間通りに運行されているか、あるいはメーカーの労働と環境上の実践状況はどうか)を通じて利用可能となることができ、自分の好みにいちばんよく合う製品とサービスを選択するために消費者が使用できるでしょう。[パーソナライズされたデータセット]のオープン化は、振る舞いの変化に結びつくことができる情報をしばしば明らかにして、消費者自身がその消費行動に関するよりよい判断材料を得ることができます。オープンデータは、さらに財貨・サービス(公共サービスを含む)の質およびデータの質を改善するための判断材料を提供するために個人(消費者および市民としての)に新しいチャンネルを与えます。ともに、私たちが見積もった潜在的価値の50パーセント以上は消費者および顧客余剰にあります。

これは信じられないほどに重要な点です:オープンデータのほとんどの利点は投資家および会社ではなく消費者および市民に生ずるでしょう。

それはオープンデータのスタートアップが重要でないとか、潜在的に不利だ、ということではありません。しかし、オープンデータが与えることができるより幅広い便益と比較して、それらが直接生成する富は相対的に小さいでしょう:よりよいガバナンス、より多くの効率的な市場およびより賢い経営意思決定など。

私は以前、ビジネスはオープンデータの価値のうち、一部の小さな部分の獲得しか期待できない、という点については構造的な理由があるのだという議論をしました。改めて繰り返します:このことは、それらのビジネスの重要性、あるいは市民、政府および産業に提供するサービスの有効性を無効にするものでは、全くありません。

しかし、それは私たちの優先順位付けの手助けとなります。オープンデータの価値は、配当や給料の形で明らかになることは比較的少ないでしょう。多くの場合、その便益は量を計ることが難しくなるでしょう。

レストラン検査スコアの今や古典的な透明性支持の場合を考えてみてください。このスコアを記入することにより13-20パーセントの間で、食物由来の病気入院が減少するということが、研究から分かりました。それは、食事客、および私たちの医療制度への実際の便益です。しかし、それは(むしろ)経済活動の減少として現われるでしょう。プログラムを実装するコストは恐らく小さいものです。食事客は、恐らく(今よりわずかに安全な)食事に依然として同じ金額を払うでしょう。病院の診療請求は減るでしょう。これは退屈なecon 101(経済学入門)の材料です。しかし、ドルで測るのが難しいとしても、これらの便益が本当であると理解することは重要です。

さらに、この事例の政治経済学的な意味を理解することは重要です。保健衛生調査データを要求する自然な顧客層はいないかもしれません。レストランと病院には開示を要求する誘因がほとんどありません。食事客への便益は本当ですが、多数動員するには散漫すぎます。抗議の声をあげることが流行したとしても、改革に拍車をかけると予想することは実際的ではないかもしれません。

これこそ私たちのコミュニティ – 非営利団体、活動家、財団、政治的なオーガナイザー、政策専門家および市民ハッカー – が中に入る場所です。よりよいサービス、より多くの価値、より大きな説明責任:それは、オープンデータの約束のうちのほとんどが置かれている場所であり、その実現を保証するつもりならやらなければならない、最も重要な仕事が残されている場所です。

これは、利潤動機のマジックのおかげで2重に真実です。金銭が必要であれば、賢明なアントレプレナーはその鍵を開ける方法を見つけるでしょう。私は、彼らがそうすることを希望し、期待します。それは資本主義の美です。しかし、これは、他の利用に関連する、オープンデータの経済発展を強調し明示的に補助金を交付する政府やフィランソロピーの努力のための理論的根拠についての質問を呼び寄せます。

先に述べた通り、私たちがそれらの用途のどちらかを選ばなければならないとは思いません。私は、大きなテントが私たちすべてに利益をもたらすと心から信じます。しかし、私はジョナサンに賛成です:より良いビジネスを持つことは素晴らしい。しかし、より良い社会はもっと刺激的です。

原文(2013/11/8 Open Knowledge Foundation Blog 記事より):
Original post Open Data’s Business Value Isn’t That Important / Tom Lee, licensed under CC BY 3.0.

okfj

by okfj

データのためのGit(およびGithub)

2014年3月31日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

データのために「バージョン管理」を行う能力は重要な関心事です。様々な選択肢がありますが、最も魅力的なもののひとつは、GitMercurial のように、コード用の既存ツールを再利用することです。この投稿では、私たちが暫くの間使用してとても効果的だということが分かったツールを利用する、データの格納とバージョン管理のための単純な「データ・パターン」について記述しています。

序章

行われた変更を格納し、それを他の人と共有する、データのバージョンとリビジョンを管理する能力、とりわけ分散的な手法は(オープン)データ・コミュニティにとって大きな便益となるでしょう。私はその理由を以前こちらの初期の記事を参照)議論しましたが要約すると:

  • 効率的な分散型の共同作業が可能です。私のデータセットを取り出し、変更し、それを再び私と(同時に他の人とも!)共有することができます。
  • 出所をより良く(つまり、どの変更がどこから来たのか)追跡することが可能です。
  • シンプルで効率的なやり方で、更新内容を共有し、データセットを同期させることができます。例えば、ファイル全体を再取得しなくても過去数か月のGDPや雇用データを取得する自動的なやり方で。

「データのためのリビジョン管理」問題に取り組む方法はいくつかあります。ここでのアプローチは、私たちがGitMercurial のようにコードのために設計された既存の強力な分散型バージョン管理システムを利用し、データにそれらを適用することができるということを意味する形式でデータを取得することです。そのため、データのための最良のGithubは、実際のところGithub それ自身かもしれません。もちろん、Git(hub)の上にデータ特有のインターフェースを重ね表示したいかもしれません。 これは私たちがhttp://data.okfn.org/で行っていることにほかなりません。

このアプローチには制約があり、私は、これらといくつかの代替モデルについて以下に論述します。これは特に、「小さな(あるいはミクロな)データ」、例えば10MB あるいは100K行以下の場合に最適です。(ひとつの代替モデルはマックス・オグデンが最近始めた非常に面白いDatプロジェクトで見つけることができます- 彼とは、この話題について何度も話し合いました。)

しかしながら、ツール類に成熟と力があってますます発展しそうであり、そして多くのデータは小さいという事実から、私たちはこのアプローチは非常に魅力的であると考えています。

パターン

パターンの本質は次のとおりです:

  1. 行指向のテキスト、および特にCSV(*1)(コンマ区切り変数)ファイルとしてデータを格納すること。「行指向のテキスト」は、テーブルの列(あるいは個別のセル)のようなデータの個々の単位が1行(*2)に相当することを単に示します。
  2. データを格納し管理するのにGit やMercurial のように最適な種類(すなわちコード)のバージョン管理を使用してください。

GitMercurial のような強力な分散型バージョン管理ツールがそれによって有効に(なぜなら、それらのツールはたいてい行(ライン)指向のテキストであるコードのために構築されるからです)動作することができるので、行指向のテキストは重要です。しかしながら、それは単なるバージョン管理ではありません:これらの種別のファイル(grepからエクセルまで!)を管理し操作するためのツールには多数の、こなれたセットがあります。

基礎的なパターンに加えて、追加できる、いくつかの特別オプションがあります:

  • GitHub(やGitorious、あるいはBitbucket等々)にデータを格納する。下記の全ての例はこのアプローチをとっています。
  • datapackage.jsonファイルを加えて、集めたデータをSimple Data Format のデータ・パッケージに変えます。これはライセンス、出所およびスキーマ(このカラムは数字、これは文字列)といった不可欠な情報の小さなセットを提供します。
  • データの処理と管理に使ったスクリプトを加えてください。このようにして、あらゆるものがひとつのリポジトリにうまくまとまります。

このアプローチの何が良いのでしょうか?

行指向のファイルの管理および操作のために存在する、ツールのセットは巨大で成熟しています。特に、GitMercurial のような強力な分散バージョン管理システムは、既にコード周りの分散型でピア・ツー・ピアの共同作業を行うための非常に堅牢な方法であり、このパターンはそのモデルをとり、それをデータに適用可能にします。ここに、なぜそれが良いのか、いくつかの具体的な例があります。

出所のトラッキング

Git とMercurial はコミットメッセージとdiff(差分)によって、個々の貢献の完全な履歴を提供します。

コミットメッセージの例

ピア・ツー・ピアの共同作業

データをフォーク(分岐)したり、プル(取り込み)することは、個々の貢献者がそれに関して同時に作業することを可能にします。

プル・リクエストのタイムライン

データのレビュー

Git やMercurial の使用によって、コードレビュー用ツールは、データ調査のために転用することができます。

プル・スクリーン

シンプルなパッケージング

リポジトリ・モデルは、単一の場所にデータ、コードおよびメタデータを格納する、シンプルな方法を提供します。

データ用のリポジトリ

アクセシビリティ

このようなデータ格納および、バージョン管理手法は非常にローテクなものです。フォーマットとツールは両方とも非常に成熟していてユビキタスです。例えば、すべてのスプレッドシートおよびすべてのリレーショナル・データベースはCSVを扱うことができます。すべてのunixプラットフォームにはこれらの種類のファイルに使えるgrep、sed、cut のようなツール一式があります。

私たちは、このアプローチと共に長い間使用しています:2005年、私たちは最初にSubversion そして次にMercurial にCSVを格納しました。次に、3年前にGit(そしてGithub)に切り替えた時、私たちはそこに格納し始めました。2011年に、私たちは上記のパターンによって管理されたデータセットの全体のリストを含んでいるGithub 上でデータセットの組織化を始めました。ここに、いくつか具体例があります:

メモ:ほとんどのこれらの例はGithub 内で管理されているCSVを示すだけでなく、同時にシンプル・データ形式データ・パッケージです。-その中にあるdatapackage.json を参照してください。

付録

制限と選択肢

行指向のテキストおよびそのツールはもちろんデータ保存およびバージョン管理に対する完全な解決策からはほど遠いものです。それらはすべての形およびサイズのデータセット用には動作しません。また、いくつかの点で、それらは、表形式のデータへの変更を追跡しマージするには厄介なツールです。例えば:

  • 行指向のテキストとして保存されたデータ上の単純な操作が非常に大きな変更セットにつながる場合があります。例えば、2つの項目(=カラム)の順序の入れ替えはすべての行の変更につながります。diff(差分)、マージ等が行指向だとすれば、これは不幸なことです(*3)。
  • それは、小さめのデータ(例えば<100k の列、<50mb のファイル、最適なのは<5mb のファイル)に対していちばんうまく動作します。Git とMercurial は、大きなファイルの扱いはさほどうまくなく、diffのような機能はより大きなファイル(*4)ではさらに厄介になります。
  • それは、多くの同じ記録(理想的には表形式のデータ)から構成されたデータにとっていちばんうまく動作します。行指向のストレージと適切なツールのためには、行指向のCSV構造に適したデータのレコード構造を必要とします。あなたのCSVがあまり行指向で無い(例えば、項目内に多数の改行がある)場合、diffやマージで問題を引き起こすので、パターンはそれほどよくありません。
  • CSVは多くの情報、例えば項目(全て文字列です)の種別についての情報を欠いています。
    その単純性を危険にさらしたり、純粋なデータとしての利用がもはやできなくなることを犠牲にせずに、メタデータをCSVに加える方法はありません。しかしながら、個別のファイル内にこの種の情報を追加することができます。それこそデータ・パッケージ標準がそのdatapackage.jsonファイルで提供するものです。

最も基本的な制限は、とりわけ行指向のdiff とマージの、その原子単位が行でない(それはセル、あるいは何らかの2カラムを入れ替えるような変換)構造データへの適用で発生します。

下記で議論されている最初の問題は、テーブルへのシンプルな変更がファイルの全行への変更として扱われる、明確な事例です。完璧な世界であれば、便利な構造とそれをサポートする強健なツールの全体セットの両方があるでしょう。例えばCSVの2カラムの入れ替えをシングルの単純な変更と認識する、あるいは個々のセルのレベルで機能するツールです。

基本的に、リビジョンシステムはdiff フォーマットおよびマージプロトコルの周辺に構築されます。これらを正しくすれば、残りの多くは後からついてきます。基本的な3つの選択肢は次のとおりです:

  1. 行指向のテキストにシリアライズしてGit のような偉大なツールを利用(上述の通り)。
  2. 原子構造(例えば文書)を識別し、そのレベル(CouchDB やRDBMS のための標準的な列レベルでの copy-on-write(書き込みの都度コピーする)を考えてください)でdiff を適用する。
  3. 変換を記録する(例えば、リファイン)。

オープン・ナレッジ財団では、私たちは、2.のラインに沿ったシステムを構築しました、また2.と3.の両方の調査および研究に関係しています – dataprotocols.org 上のデータのための変更および同期を参照してください。これらの選択肢は絶対に詳しく調査する価値があります – また、例えば、マックス・オグデン(彼と私はこの話題に関して多くの大きな議論をしています)は、Dat と呼ばれる刺激的なプロジェクト(「スリープ」プロトコルを使用する共同的なデータ・ツール)に現在取り組んでいます。

しかしながら、ここまでの私たちの経験は、行指向のアプローチがそれらの他の行(少なくともより小さなサイズのファイル用の!)に沿ったどんな現在利用可能なオプションにも打ち勝つということです。

data.okfn.org

数年間このようにGithubにデータを格納してきて、私たちは最近 http://data.okn.org/ をローンチしました。それは明示的にこのアプローチに基づいています:

  • データは https://github.com/datasets のGitHub上のGit リポジトリに格納されたCSVです。
  • データセットはすべてdatapackage.json のメタデータを持つデータ・パッケージです。
  • フロント・エンド・サイトは、非常に単純です – 単にカタログとAPIを提供し、Githubからデータを直接プルします。

なぜ、行指向なのか

行指向のテキストはコードの自然な形式で、したがって巨大な数の優れたツールがサポートしています。しかし、行指向のテキストは、一般的なレコード指向のデータを格納するための最もシンプルで簡潔な形式であり、たいていのデータはレコードになることができます。

最も基礎的な構造化データには、項目用の区切り文字およびレコード用の区切り文字が必要です。コンマまたはタブ区切り値(CSV、TSV)ファイルはこの符号化の非常に単純で自然な実装です。それらは、スペース、改行に加えて最も自然な区切り文字でレコードを区切ります。項目区切り文字として、スペースはあまりに一般的すぎるので、自然とコンマまたはタブに頼ることになります。

バージョン管理システムには、動作の原子単位が必要です。データ用のバージョン管理システムは、とても有効に原子単位としてレコードを扱うことができます。行指向のテキストをレコード指向のデータの符号化に使用することで、私たちはレコード指向のコードのバージョン管理のために構築された既存ツールの形式でバージョン管理システムを自動的に得られます。


  • (*1)ファイル中の区切り文字は必ずしもコンマである必要はないので、CSVという場合に、実際は「DSV」を意味するということに注意してください。しかしながら、列終端は改行(あるいはキャリッジリターンと改行)であるべきです。
  • (*2)CSVにはひとつの行にひとつの列があるとは限りません。引用符のある項目に改行があることがあります。しかしながら、ほとんどのCSVはひとつの列にひとつの行です。CSVは入手可能な中では、可能な限り単純な構造化データ形式です。
  • (*3)具体的な例として、マージ機能は、レコードの様々なセット、すなわち行に影響する2つの変更セットの調和においておそらくとてもうまく動作するでしょう。しかしながら、各々カラムを移動させる2セットの変更はうまくマージしないでしょう。
  • (*4)より大きなデータについては、私たちは、Git(そして例えばGitHub)をs3のような単純なファイル記憶装置と交換することを提案します。s3が基礎的なcopy-on-writeのバージョン管理をサポートできることに注意してください。しかしながら、copy-on-writeであるため、それは相対的にかなり非効率です。

原文(2013/7/2 Open Knowledge Foundation Blog 記事より):
Original post Git (and Github) for Data / Rufus Pollock, licensed under CC BY 3.0.

okfj

by okfj

オープンデータをスケールさせる9つのモデル – 過去、現在そして未来

2014年3月29日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

Golden spiral, by Kakapo31 CC-BY-NC-SA

オープンデータの可能性はこの10年間私たちを魅惑しています。

私はTheyWorkForYou のようなサイトを構築することで、政府を実際に利用可能なものにしたいと思いながら過ごしてきました。

しかし、そのような興奮は最終的には重要なことではありません。

重要なのはスケール(規模の拡大)です。どのような組織構造がこの運動を爆発的に加速させるでしょうか?

自律成長しているボランティア・コミュニティを作ることによってでしょうか、あるいは資金フローを作り出すことによってでしょうか?

この投稿は、機能しているものも(まだ)機能していないものも含め、手短にそして挑発的に俯瞰します。

現在機能しているもの

1) 新しいデータを登録するためにコミュニティを形成する。OpenStreetMapMusicBrainz は2つの大きな事例です。これが機能するのはコミュニティがデータの発生源であるからです。しかしながら、これまでのところどちらも私が思ったほどにはその産業の支配力を持っていません。

2) オープンデータの上流側の生成者にツールを売る。これは、中央政府のためにCKAN が行っている(そして新しいScraperWiki のCKAN ツールが支援している)ことです。これはmySociety が行っていることであり、FixMyStreet のインストール一式を地方自治体に売る場合は、その結果としてRSSフィードで道路の陥没を公表します。

3) オープンデータを(ひっそりと)利用。あらゆる組織がこれを行っていますが、決してそのことを話しません。これはブルームバーグのような全く古いデータ再販業者の鍵です。これはScraperWiki のプロフェッショナル・サービスの顧客のうちのほとんどが私たちに依頼するものです。社会に対する価値は巨大で目に見えません。大きな欠点は、それがオープンデータの供給をスケールさせるのを支援しないということです。

4) 下流側の利用者にツールを売る。これは必ずしもオープンデータに固有の話ではありません。スプレッドシートやビジネス・インテリジェンスのような既存のソフトウェアはオープンなあるいはクローズドなデータと共に使用することができます。多くのオープンデータがウェブ上にあります。したがって、ウェブ・データをうまく使える新しいScraperWiki のようなツールは特にこれに適しています。

まだ機能していないもの

5) 協働的なキュレーションScraperWiki が、スクレイピング用のコードの編集に基づいてオープンデータ・キュレーション・コミュニティを作る大胆な試みとして始められました。その最初の形式(今後はScraperWiki クラッシックと呼びます)では、これはスケールしませんでした。なぜそれはスケールしなかったのか、ここに、オープンデータモデルの点から、いくつかの理由があります。

a. それは上流側ではありませんでした。あなたがいかなる出所を与えても、人々は自分が直接出所から取得するデータを最も信頼します。例えば、スクレイピングされたデータを電話を使って、手動で集められた新しいデータで補うことなどによって、これは部分的に上流側になることもできます。

b. それは内密なものではありません。理論的には、商品のデータも一緒になって公開で議論することで得るべきものは多数ありますが、それはほとんどの組織の本能に反します。

c. 既存の文化はそう多くはありません。フリー・ソフトウェア運動は、約15年後にオープン・ソース運動によって、そして25年後にGithubのようなツールによって開発準備が整った協働の豊かな文化を構築しました。少数の例外(特にOpenCorporates)を除いて、まだオープンデータのキュレーションプロジェクトはありません。

6) 多目的のデータ市場(特に主としてオープンデータを再利用しているもの)はまだ立ち上がっていません。いつかはできるかもしれませんが、それにはまずデータの整形や同期のためのうまく採用された、より高レベルの標準(おそらくCSVファイルを基にしたdat のようなもの)がまず必要だと思います。

これからが期待されるもの

今後、多数の輩出が期待される、すばらしく刺激的なモデルです。

7) 上流側に労働/金銭を与えて、よりよいデータの作成を支援する。これは全く新しいものです。その唯一かつ最も優雅な例は英国の国立公文書館の制定法データベースのキュレーティングです。彼らは、商用の法令関連出版社と政府の他の部分から支持されたスタッフの助けを借りて仕事をします。

これは人々が最も信頼し、データの品質を改善する最大の能力を持っている上流側に金銭を生み出すので、賢明なやり方です。

8) バイラルなオープンデータのライセンス設定。MySQLは、組込システム・メーカーにGPLdソフトウェアのプロプライエタリなデュアル・ライセンスを提示することで、この種のやり方として多大な利益を出しました。データでは、これにOKFNのOpen Database License を使用することができるでしょう。オープンデータを自分のクローズドデータと混ぜたい場合に、組織はお金を払うでしょう。私はこれを積極的に利用している人は知りませんが、OpenCorporates のクリス・タガートは数年前に私にこのモデルを教えてくれました。

9) 株式会社が、戦略的優位性のためにデータをリリースする。会社は戦略的な利得のために自らのデータの公開を始めています。これは非常に新しいもので、これからがより期待できます。

何か見逃していますか?あなたはオープンデータをスケールさせ、何10億もの利益をもたらすのはどんなモデルだと思いますか?

原文(2013/7/18 Open Knowledge Foundation Blog 記事より):
Original post 9 models to scale open data – past, present and future / Francis Irving, licensed under CC BY 3.0.

okfj

by okfj

オープン・タックス・データか、あるいは単なるVATの「オープン・ウォッシュ」か

2014年3月28日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

この投稿は、世界の会社の中で最大のオープン・データベースであるオープンコーポレーツの共同創設者兼CEO、およびオープン・ガバメント・ワーキンググループのメンバーであるクリス・タガートによるものです。

[告知:私は英国税透明性委員会に所属し、まだこれらの提案については議論していませんが、9月前半の次の会合ではその予定です]

1週間ちょっと前に、英国歳入関税委員会(HMRC)は、そのデータをより広く公表することについてのコンサルテーションを公表し、その中でオープンデータ運動に参加する意図を述べました。

英国は、G8のオープンデータ憲章の制定を支援しました。もしそれを留保する十分な理由がなければ政府が持つデータが公衆に利用可能となるだろうと考えられます。HMRCがあらゆる部分で役割を果たすことは重要です。HMRCのビジネスと個人との関係はユニークで、これはHMRCが納税者を代表して収集、作成、保護する情報の範囲と深さに反映されています。

素晴らしい。しかしノーです。

問題は、上述の内容にもかかわらず、このコンサルテーションとその中の提案は、オープンデータやアクセスの拡張に関わる部分はほとんど無く、代りに主としてデータを選別された少数に渡すことに関する内容で、その多くは普通の人々や関連する個人のデータです。さらに、それは、政府内の警報ベルを鳴らしているはずのHMRCの内でいくつかの懸案となっているデータ関連の問題を白日の下にさらします。

それでは、正確には何が提案されているでしょうか?2つの部分があります:

  1. HMRCのデータ(特に収集され、匿名化されたデータ)の共有に関する提案。現時点では、たとえそれが広く公益に資するものであっても、HMRCの機能に関係がある場合のみ、HMRCは一般にそのようなデータを共有することができます。
  2. VAT登録関連の提案。VAT登録(訳注:VAT(付加価値税)の課税に関わる登録情報。登録番号の有無で課税方法が変わる。詳細はこちらを参照)は現在プライベートの扱いです。たとえ、情報の大半がレシート上、請求書上、ウェブサイト上、そして様々な個人のデータセットの中など、「そこに出ている」としても。実際のところこれは、多くの国々で既に公開されています。

どちらもそれぞれの問題を抱えていますが、いったん私たちは2番目に専念します。

郵便番号住所ファイル、会社登記簿、あるいは英国陸地測量部データなどとは異なり、オープンデータの活動家からのVAT登録に対する大きな要求の声はありませんでした。そうすると、なぜそれはオープンになっているのでしょうか?さて、なぜ駄目なのか、コンサルテーションは次のように述べています:

本章中の提案の開発における根本原理はShakespeare Review の中で明らかにされています。データは市民のものであり、害悪を引き起こさない限り、政府の判断はオープン化の方向へと向かうでしょう。この好機の性質を述べるのは政府のためではありません。その結論は下の引用が示しているように、政府が潜在的利益の範囲や規模に必ずしも気づくとは限らないであろうということです。このコンサルテーションは、これらの確立を支援するでしょう。

したがって、提案はVAT登録をオープンデータとして公表するというものです。その結果、より広いコミュニティーが、その番号を使ってすばらしいものを作ることができるでしょうか?いいえ。そのコンサルテーションは、何かしら薄汚れたところのある部分を高尚な目標から巧妙に省略します。

利益を生み出す資源としてのVAT登録データの公表において、例えば信用格付け機関(CRA)からの公益が暫くの間ありました。

3つの大きな信用格付け機関(Experian 、Equifax およびCallcredit)は、会社について多くのことを知っているのではありませんか?きっと、彼らはその多くのVAT番号を知っており、どの場合でもたいていの会社、特に活発な貿易商社(VAT用に登録される種類)についてもっと多くのことを知っているのではありませんか?

しかしながら、彼らに無いものは(付随する情報の公表に対する責任を負いながら自らの自己勘定上で、そして有限責任の保護なしで取り引きする)個人事業主や小さなパートナーシップや個人に関する多くの情報です。そのため、VAT登録は彼らにとって非常に重要で、それはこのコンサルテーションが彼らに与えるこをを提案しているものです。

もちろん、彼らはその情報をただ単に人々に求めることができました。しかし、特に彼らがお金を借りる必要がない場合、人々は拒絶するかもしれません。そして、マネタイズ可能なそのデータセットの構築に関する限り、それは問題となる可能性があります。単に政府がそのデータへのアクセスを彼らに与えるようにできた場合、つまり情報の提供を強いる法律の力で、自分自身のデータ収集用の腕として政府を働かせる場合、それは素晴らしいことでしょう。彼らにとって。個人およびより広い世界にとって、それは全く良いことではありません。

第一に、私たちがここで話しているものが個人(彼らはプライバシーとデータの保護の権利を持っている)であり会社では無いので、まず第一にそれを公開する強制的な理由が必要です。大きな3つの信用格付け機関すなわちCRA(Experian、Equifax、CallCredit)が、そこからお金が稼げると考えるだけでは十分には良い訳ではありません。

第二に、もしオープンデータがひとつのことについてのものだとすれば、データへのアクセスを民主化することに関するものであり、チャンセラーやジョージ・オズボーンの言葉を借りると「世界の情報へのアクセスやそれと対話する能力は少数のエリートによってコントロールされていた」従来の位置を逆にすることに関わるものなのです。また、ひとつ確かなものがあるとすれば、CRA は多くの力を持っている、ということです。

でもちょっと待ってください。コンサルテーションも、さらにVAT登録のうちのいくつか、とりわけ「単に3つのデータ項目をカバーする非常に選択的な抜粋として、VAT登録番号(VRN)、取引名および標準の業種コード(SIC)分類番号」がオープンデータとして公表されることを提案しているのではありませんか?

一見して、これは良いこと、あるいは無いよりはましと見なされているかもしれません。実際のところ、これはHMRCがデータを取得しないことを示しているか、あるいは、それは単に「openwash(訳注:みせかけのオープン)」です。CRAへの個人のそしてプライベートなデータの卸し売りを人目につかなくさせるオープンデータのイチジクの葉(訳注:恥ずかしいものを隠すもの)であり、より大きな不正行為に潜在的に結びつくかもしれないものです。これがその理由です:

  • 3つの項目(VAT番号、取引名、SICコード)は、ともに孤立したデータセット、つまり他のデータとつながっておらず、したがって、もしあなたが自分を「AAA 配管工事」と呼んで請求書を不正に書き、それにVATを課し、20%をポケットに入れて、自分が決して逮捕されれないのか、それとも本当のAAA 配管工事が最初にHMRCが見に来る場所なのかを知る、といったことをしたくなければ基本的に無意味であるものを構成しています。不正行為は、基本的に情報の流れの不均衡に関係しています。(詐欺師は、あなたが彼らについて知っている以上に、あなたのことを知っています)例えば、実際のAAA 配管工事が例えばスコットランドのカーコーディーに本拠地を持つ会社であることを知っていたり、あるいはBBBサービスが解散しているのか、それが航空機ビジネスで働くことを示すウェブサイトがあるということを知っていれば、不正行為を回避するはるかに大きなチャンスがあります。
  • 取引する名前は非常に問題で、たいていどこにも登録されておらず、そのため支援もほとんどありません。さらに、個人、会社のどちらでも、法的な名前との関係がある必要がありません。したがって、ZZZ金融専門家の背後の会社を見つけたければ、実際にひとつでもある場合、あなたには幸運が不足していると言わざるを得ません。HMRCが法的形式(会社の場合には、会社番号)無しでVAT登録の公表を考慮することすらはっきりしません。
  • さらに、登録を公表するための公開された理由のうちのひとつは、「VAT登録データは個人部門のビジネス登録のための基礎を提供することもできるだろう」ということです。本当でしょうか?オープンデータの世界および中核となる参照データの重要性において、HMRCは、プライベートな、プロプライエタリな識別子のセットが、それに伴うあらゆる問題と共に作成されることを望むでしょうか?実際、HMRCはビジネス、革新&スキル部門と協力してこのような公共データセットを構築すると思われました。これを行うほどには十分によくデータを理解していないということは決定したのでしょうか?あるいは、政府だけでなく、民間セクター全体としてむしろそのようなデータセットに縛り付けることになるでしょうか。
  • 最後に、VAT登録が会社の設立日およびSICコードのような項目を含むように見えることを発見することもやや驚くべきことです。ギークの世界では、私たちは、別のテーブルあるいはデータセットに正当に属するものを複製したデータであるという意味で、これを非正規化されたデータセットと呼びます。これを行うのに十分な理由がある場合もあります。しかし、同期(VAT登録やCompanies House record上にあるものと、どちらが正しいSICコードなのか)から外れるデータとなる危険性があります。

それでは、HMRCは何をするべきでしょうか?第一に、信用格付け機関のデータ収集者として働くあらゆる計画を放棄し、VAT登録、あるいはVAT登録の一部を単一のオープンなデータセットとして、同じ条件下のあらゆるものと等しく公表すべきです。これは革新への純粋な刺激になり、競争と透明性の促進という結果さえも生み出すかもしれません。

第二に、個人(人権を持ち、生活し、呼吸している人)と会社の間には基本的な違いがあることを理解するべきです。人権と同様に、個人はそのデータの保護権やプライバシー権を持っており、公的な登録上には存在しません。いっぽう会社は、社会の利益のための状態によって別個の法人格を与えられた人工的な実体で、代わりに公的に(公の会社登記上で)存在します。VAT登録の場合には、実用的なアプローチは会社に関係のある部分だけオープンデータとして登録を公表することでしょう。

第三に、基本的にデータビジネスの中であることを理解する必要があります。また好むと好まざるとに関わらず、良いことや悪いことのためのデータの力を含め、現代のデータの世界にすばやく取り組む必要があります。英国は、オープンコーポレイツオープン・ナレッジ財団およびオープン・データ・インスティテュートを含め、おそらくこの領域において世界で指導的な組織を持っています。

原文(2013/7/30 Open Knowledge Foundation Blog 記事より):
Original post Open tax data, or just VAT ‘open wash’ / Chris Taggart, licensed under CC BY 3.0.

okfj

by okfj

オープンデータのプライバシー

2014年3月27日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

「はい、政府は他の人々のデータをオープンにすべきです」

伝統的に、オープン・ナレッジ財団は個人に関わらないデータをオープンにする活動をしてきました。公的機関からの受託研究論文、財政支出データといったものです。個人のデータが国勢調査のような何らかの共有されたデータセットの一部である場合、個人のプライバシーが保護され、公表された集計データは共有され、公共の資産であることを保証するために、大量の検討や努力がなされました。

しかし時代は変わります。政府や企業が集めるデータは次第に増えつつあります。(本人がそれに気付いているかどうかに関わらず)個人に関わる大量のデータです。データの収集と共有によるプライバシーへのリスクは恐らく以前よりも大きくなっています。データが「ビッグ」か「スモール」かに関わらず、データ解析はこれまでに無い洞察を導き出す可能性を持っています。しかしながら、個別のデータセットが連結されたり、対応付けられたりするので、その洞察の中には個人のプライバシーを犠牲にするものがあるかもしれません。

Medical data loss dress

オープンデータおよびビッグデータの両方とも今ちょうどホットな話題です。そしてこのような時に、組織はあらゆる問題についての必要な検討を行うこと無しに、そのような話題に関係したいという誘惑に駆られがちです。ビッグデータの現在の潜在成長力とオープンデータの経済的便益を組み合わせる誘惑によってプライバシーへの関心が無視されるかもしれないので、ビッグデータとオープンデータの交差は多少気懸かりな点です。プライバシー・インターナショナル開発のためのデータに関する最近の記事でこの点に注意を促していることは正しいのですが、もちろん他の領域も影響を受けます。

本日(訳注:2013/8/27)、私たちはオープンデータとプライバシーに関して進みつつある議論を支援するために、いくつかの用語を提案したいと思います。

私たちのデータとは、個人の要素を持たず、共有物の意識が明確なデータです。例えば次のようなものです。バスは私の都市でどこを走っているのか、政府は私の税金を何に使うと決めたのか、国勢調査やその集計結果はどのように組み立てられているのか。オープン・ナレッジ財団において、私たちのデフォルトの立場は、私たちのデータがオープンデータであるべきということです。それは私たちがみな利益を得ることができ、またそうすべき共有資産です。

私のデータとは個人的な私に関する情報で、誰が集めたかに関わらず、何らかの方法で私のことを識別することができます。それは、私の直接の許可なしに他の人によってオープンにされたり公表されるべきではありません。しかし、それは、私(私は自分が望めば、利用可能な形式で私に関するデータにアクセスできるべきであり、それを私自身が共有する権利を持っているべきです)には「オープン」であるべきです。

変換されたデータとは個人に関する情報で、個人が識別可能な要素を除去するためにデータを匿名化、収集する努力が行われたものです。

Medical data loss dress

私たちは、変換されたデータが私たちのデータとしてオープンに公表できるかどうかを確認するために引き続き行う必要のある、いくつかの明確なステップが存在すべきだ、ということを提案します。どのような考察が行われるべきかを述べる、オープンデータ用のプライバシー原則のセットはよい出発点になるでしょう。そこには、データが関係しているすべてのグループの代表およびデータの変換方法にまつわるデータプライバシー専門家を含む重要なステークホルダーに意見を求めることなどが含まれるでしょう。いくつかのデータセットについては、市民のために合理的なレベルのプライバシーを維持することができるようにこれを十分に変換することが可能だとは、証明するのが難しいかもしれません。これらのデータセットはシンプルに非公開とすべきです。他のものについては、データがオープンに公表されるのに適している状態になる前に、受入れ可能なプライバシー標準を達成するために、変換に関してさらなる研究が必要だということかもしれません。データの公表が必須となる前に、リスクに対する保証は考慮され管理されます。変換が関係のある個人に十分なプライバシーを提供し、原則が厳守された場合、データはオープンデータとして公表することができます。

私たちは「私たちのデータ」のうちのいくつかは個人の要素を持つだろうと述べておきます。例えば、議会のメンバーは公共圏に入る肯定的な選択を行ない、議員に関する情報のいくつかを市民は漏れなく利用可能です。このタイプのデータは、比較する標準は公益とは異なるかもしれませんが、私たちが公開前に提案するオープンデータのプライバシー原則に照らして依然として考慮されるべきです。

これは、オープンデータおよびプライバシーの領域を調査するシリーズ投稿の一部です。私たちは、これは非常に重要な問題であると感じています。これらの問題に興味を持っているか、オープンデータ用のプライバシー原則の開発を支援したい場合は、ワーキンググループ・メーリング・リストに参加してください。私たちはメーリング・リスト、下記コメント欄等での提案や考察、もしくは私たちや一緒に作業しているオープン・ライツ・グループとの2013年秋のOKConや他のイベントでの意見交換を歓迎します。

原文(2013/8/27 Open Knowledge Foundation Blog 記事より):
Original post Open Data Privacy / Laura James, licensed under CC BY 3.0.

okfj

by okfj

重要な問いに答える力を与えるオープンデータ

2014年3月26日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

ルーファス・ポロック(オープン・ナレッジ財団の創設者兼ディレクター)によるこの記事は、2013年12月5日にリリースされた「テレフォニカ・ディジタル・ハブ」からのクロスポストです。

私たちは、最短で仕事を始める方法や何を食べるかといった個人的なことから、気候変動や持続的に70億人を扶養し教育する方法のようなグローバルなものまで、日々挑戦に直面しています。オープン・ナレッジ財団では、データをオープンにしてそのデータを洞察に変えるということは、こういった挑戦に取り組むために、そしてまた(一部の少数ではなく)誰もが変化を理解して影響を与えるのに必要な知識によって力を付与されている社会を構築するために、極めて重要になり得ると信じています。

Neon sign Open 2005  Photographer User Justinc cc-by-sa

オープンデータとオープンナレッジは、力を付与するための、そして人々(市民、ジャーナリスト、NGO、会社および政策決定者)が自分の周りの世界を理解し、形作るのに必要な情報へのアクセスを付与するための基盤です。

オープン性を通じてこそ、私たちは技術とデータが科学、政治そして社会を改善することを保証することができるのです。それが無ければ、増え続ける知識の集中化とそれゆえの少数の人々が牛耳る権力を、また私たちの個々のそして集団的な、周囲の世界を刷新し、理解し、また改善するための潜在能力の途方も無い損失を目にすることになるかもしれません。

オープンデータは誰でも目的を問わず、自由にアクセスし、利用し、その上で構築し、そして共有できるデータです。モバイルからインターネットへといったデジタル技術で、私たちは次第にあらゆる場所でデータの革命を目にすることが増えています。それは、利用可能なデータの量、およびそのデータを利用、共有する私たちの能力の両方における革命です。これにより、仕事からどうやって家に帰るか、といったことから科学者はどうやって調査するかとか、政府はどうやって政策を設定するかといったことまで、私たちが行うあらゆることに変化が起きてきています。

現在、データの多くは個人的なものです。あなたに関するデータ、そしてあなたがすることに関するデータです。例えばあなたが買うもの(ロイヤルティーカード、銀行口座取引明細)、あなたが行く場所(モバイルフォンの位置やインストールしたアプリ)、あるいはあなたがオンライン(フェイスブック、ツイッターなど)で交流する人などです。このデータは決して「オープン」であったり誰にでも自由にアクセス可能であってはなりません。それはあなたのデータであり、誰がそれにアクセスするか、そしてどのように利用されるかは、あなたがコントロールするべきです。

しかし、個人のものでないデータもたくさんあります。政府の予算のようなデータ、道路地図、列車時刻表、キャンディーバーの中に何が入っているか、そのジーンズはどこで作られたのか、去年どれだけの二酸化炭素が排出されたのか、等々。このようなデータは、それをコントロールしている政府や企業に公開することを説得できるならオープンにすることができますし、またそうすべきです。

これは、私たちがこの十年間オープン・ナレッジ財団で行っていることであり、政府や企業に働きかけてそのデータを公開し、オープンにしてもらう活動をしています。

私たちは、革新、創造性および洞察を解放するために、オープンデータに力を与えるべく、こういったことを行っています。これは、起業家、活動家あるいは研究者といった人たちに限らず、誰にでも情報にアクセスし、そして自分たちが適切だと思うものにそれを使用する力が得られる可能性があります。例えばガーナの市民は、地元の学校や病院に支払うための税収の公平なシェアを保証するために鉱山の採掘に関するデータを利用しており、あるいは英国オープン・ヘルスケアのようなスタートアップ企業は、健康サービス用の数億ポンドもの貯蓄を識別するために英国政府によってリリースされた薬剤処方箋データを利用しています。

ここでは、実際のインパクトがオープンデータそれ自体から直接来る訳ではないという点に気をつけることが重要です。新しいオープンデータ・イニシアチブや付加的なオープンなデータセットによって直ちに生活が改善される人はいません。データは知識へ、情報は洞察へと変えられなければなりません。そして誰かが、その知識に基づいて行動しなければなりません。

これを行うには、ツールとスキルが必要です。データを処理、分析、表示するツールとそのためのスキルです。そのためこれはオープン・ナレッジ財団の活動のもうひとつの重要分野となっています。SchoolofData のようなプロジェクトで、私たちはそれらを最も必要とする人々にデータを扱う技術を教えるために働いています。また、オープン・ナレッジ財団ラボでは、私たちは、人々がデータをより簡単に効果的に利用するのを手助けする軽量のツールを作成しています。

最後に、この記事で述べてきたのはデータを利用する人々のことであり、またそのデータから得られた洞察を利用して変化を加速する人々のことです。私たちは、アプリを作り、オープンデータから洞察を導き出す準備ができている「オープンデータ作成者」の文化を醸成する必要があります。私たちは、ザンビアの健康産業労働者、自宅に帰るロンドンの通勤客、といったオープンデータと最良の質問や最大のニーズを持っている人々とを結び付ける必要があります。ぜひデータギークや技術オタクを乗り越えてください。

画像 “Neon Sign Open” by Justin Cormack, CC-BY

原文(2013/12/9 Open Knowledge Foundation Blog 記事より):
Original post Open Data Empowers Us to Answer Questions that Matter / Rufus Pollock, licensed under CC BY 3.0.