You are browsing the archive for Special.

okfj

by okfj

オープン・タックス・データか、あるいは単なるVATの「オープン・ウォッシュ」か

2014年3月28日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

この投稿は、世界の会社の中で最大のオープン・データベースであるオープンコーポレーツの共同創設者兼CEO、およびオープン・ガバメント・ワーキンググループのメンバーであるクリス・タガートによるものです。

[告知:私は英国税透明性委員会に所属し、まだこれらの提案については議論していませんが、9月前半の次の会合ではその予定です]

1週間ちょっと前に、英国歳入関税委員会(HMRC)は、そのデータをより広く公表することについてのコンサルテーションを公表し、その中でオープンデータ運動に参加する意図を述べました。

英国は、G8のオープンデータ憲章の制定を支援しました。もしそれを留保する十分な理由がなければ政府が持つデータが公衆に利用可能となるだろうと考えられます。HMRCがあらゆる部分で役割を果たすことは重要です。HMRCのビジネスと個人との関係はユニークで、これはHMRCが納税者を代表して収集、作成、保護する情報の範囲と深さに反映されています。

素晴らしい。しかしノーです。

問題は、上述の内容にもかかわらず、このコンサルテーションとその中の提案は、オープンデータやアクセスの拡張に関わる部分はほとんど無く、代りに主としてデータを選別された少数に渡すことに関する内容で、その多くは普通の人々や関連する個人のデータです。さらに、それは、政府内の警報ベルを鳴らしているはずのHMRCの内でいくつかの懸案となっているデータ関連の問題を白日の下にさらします。

それでは、正確には何が提案されているでしょうか?2つの部分があります:

  1. HMRCのデータ(特に収集され、匿名化されたデータ)の共有に関する提案。現時点では、たとえそれが広く公益に資するものであっても、HMRCの機能に関係がある場合のみ、HMRCは一般にそのようなデータを共有することができます。
  2. VAT登録関連の提案。VAT登録(訳注:VAT(付加価値税)の課税に関わる登録情報。登録番号の有無で課税方法が変わる。詳細はこちらを参照)は現在プライベートの扱いです。たとえ、情報の大半がレシート上、請求書上、ウェブサイト上、そして様々な個人のデータセットの中など、「そこに出ている」としても。実際のところこれは、多くの国々で既に公開されています。

どちらもそれぞれの問題を抱えていますが、いったん私たちは2番目に専念します。

郵便番号住所ファイル、会社登記簿、あるいは英国陸地測量部データなどとは異なり、オープンデータの活動家からのVAT登録に対する大きな要求の声はありませんでした。そうすると、なぜそれはオープンになっているのでしょうか?さて、なぜ駄目なのか、コンサルテーションは次のように述べています:

本章中の提案の開発における根本原理はShakespeare Review の中で明らかにされています。データは市民のものであり、害悪を引き起こさない限り、政府の判断はオープン化の方向へと向かうでしょう。この好機の性質を述べるのは政府のためではありません。その結論は下の引用が示しているように、政府が潜在的利益の範囲や規模に必ずしも気づくとは限らないであろうということです。このコンサルテーションは、これらの確立を支援するでしょう。

したがって、提案はVAT登録をオープンデータとして公表するというものです。その結果、より広いコミュニティーが、その番号を使ってすばらしいものを作ることができるでしょうか?いいえ。そのコンサルテーションは、何かしら薄汚れたところのある部分を高尚な目標から巧妙に省略します。

利益を生み出す資源としてのVAT登録データの公表において、例えば信用格付け機関(CRA)からの公益が暫くの間ありました。

3つの大きな信用格付け機関(Experian 、Equifax およびCallcredit)は、会社について多くのことを知っているのではありませんか?きっと、彼らはその多くのVAT番号を知っており、どの場合でもたいていの会社、特に活発な貿易商社(VAT用に登録される種類)についてもっと多くのことを知っているのではありませんか?

しかしながら、彼らに無いものは(付随する情報の公表に対する責任を負いながら自らの自己勘定上で、そして有限責任の保護なしで取り引きする)個人事業主や小さなパートナーシップや個人に関する多くの情報です。そのため、VAT登録は彼らにとって非常に重要で、それはこのコンサルテーションが彼らに与えるこをを提案しているものです。

もちろん、彼らはその情報をただ単に人々に求めることができました。しかし、特に彼らがお金を借りる必要がない場合、人々は拒絶するかもしれません。そして、マネタイズ可能なそのデータセットの構築に関する限り、それは問題となる可能性があります。単に政府がそのデータへのアクセスを彼らに与えるようにできた場合、つまり情報の提供を強いる法律の力で、自分自身のデータ収集用の腕として政府を働かせる場合、それは素晴らしいことでしょう。彼らにとって。個人およびより広い世界にとって、それは全く良いことではありません。

第一に、私たちがここで話しているものが個人(彼らはプライバシーとデータの保護の権利を持っている)であり会社では無いので、まず第一にそれを公開する強制的な理由が必要です。大きな3つの信用格付け機関すなわちCRA(Experian、Equifax、CallCredit)が、そこからお金が稼げると考えるだけでは十分には良い訳ではありません。

第二に、もしオープンデータがひとつのことについてのものだとすれば、データへのアクセスを民主化することに関するものであり、チャンセラーやジョージ・オズボーンの言葉を借りると「世界の情報へのアクセスやそれと対話する能力は少数のエリートによってコントロールされていた」従来の位置を逆にすることに関わるものなのです。また、ひとつ確かなものがあるとすれば、CRA は多くの力を持っている、ということです。

でもちょっと待ってください。コンサルテーションも、さらにVAT登録のうちのいくつか、とりわけ「単に3つのデータ項目をカバーする非常に選択的な抜粋として、VAT登録番号(VRN)、取引名および標準の業種コード(SIC)分類番号」がオープンデータとして公表されることを提案しているのではありませんか?

一見して、これは良いこと、あるいは無いよりはましと見なされているかもしれません。実際のところ、これはHMRCがデータを取得しないことを示しているか、あるいは、それは単に「openwash(訳注:みせかけのオープン)」です。CRAへの個人のそしてプライベートなデータの卸し売りを人目につかなくさせるオープンデータのイチジクの葉(訳注:恥ずかしいものを隠すもの)であり、より大きな不正行為に潜在的に結びつくかもしれないものです。これがその理由です:

  • 3つの項目(VAT番号、取引名、SICコード)は、ともに孤立したデータセット、つまり他のデータとつながっておらず、したがって、もしあなたが自分を「AAA 配管工事」と呼んで請求書を不正に書き、それにVATを課し、20%をポケットに入れて、自分が決して逮捕されれないのか、それとも本当のAAA 配管工事が最初にHMRCが見に来る場所なのかを知る、といったことをしたくなければ基本的に無意味であるものを構成しています。不正行為は、基本的に情報の流れの不均衡に関係しています。(詐欺師は、あなたが彼らについて知っている以上に、あなたのことを知っています)例えば、実際のAAA 配管工事が例えばスコットランドのカーコーディーに本拠地を持つ会社であることを知っていたり、あるいはBBBサービスが解散しているのか、それが航空機ビジネスで働くことを示すウェブサイトがあるということを知っていれば、不正行為を回避するはるかに大きなチャンスがあります。
  • 取引する名前は非常に問題で、たいていどこにも登録されておらず、そのため支援もほとんどありません。さらに、個人、会社のどちらでも、法的な名前との関係がある必要がありません。したがって、ZZZ金融専門家の背後の会社を見つけたければ、実際にひとつでもある場合、あなたには幸運が不足していると言わざるを得ません。HMRCが法的形式(会社の場合には、会社番号)無しでVAT登録の公表を考慮することすらはっきりしません。
  • さらに、登録を公表するための公開された理由のうちのひとつは、「VAT登録データは個人部門のビジネス登録のための基礎を提供することもできるだろう」ということです。本当でしょうか?オープンデータの世界および中核となる参照データの重要性において、HMRCは、プライベートな、プロプライエタリな識別子のセットが、それに伴うあらゆる問題と共に作成されることを望むでしょうか?実際、HMRCはビジネス、革新&スキル部門と協力してこのような公共データセットを構築すると思われました。これを行うほどには十分によくデータを理解していないということは決定したのでしょうか?あるいは、政府だけでなく、民間セクター全体としてむしろそのようなデータセットに縛り付けることになるでしょうか。
  • 最後に、VAT登録が会社の設立日およびSICコードのような項目を含むように見えることを発見することもやや驚くべきことです。ギークの世界では、私たちは、別のテーブルあるいはデータセットに正当に属するものを複製したデータであるという意味で、これを非正規化されたデータセットと呼びます。これを行うのに十分な理由がある場合もあります。しかし、同期(VAT登録やCompanies House record上にあるものと、どちらが正しいSICコードなのか)から外れるデータとなる危険性があります。

それでは、HMRCは何をするべきでしょうか?第一に、信用格付け機関のデータ収集者として働くあらゆる計画を放棄し、VAT登録、あるいはVAT登録の一部を単一のオープンなデータセットとして、同じ条件下のあらゆるものと等しく公表すべきです。これは革新への純粋な刺激になり、競争と透明性の促進という結果さえも生み出すかもしれません。

第二に、個人(人権を持ち、生活し、呼吸している人)と会社の間には基本的な違いがあることを理解するべきです。人権と同様に、個人はそのデータの保護権やプライバシー権を持っており、公的な登録上には存在しません。いっぽう会社は、社会の利益のための状態によって別個の法人格を与えられた人工的な実体で、代わりに公的に(公の会社登記上で)存在します。VAT登録の場合には、実用的なアプローチは会社に関係のある部分だけオープンデータとして登録を公表することでしょう。

第三に、基本的にデータビジネスの中であることを理解する必要があります。また好むと好まざるとに関わらず、良いことや悪いことのためのデータの力を含め、現代のデータの世界にすばやく取り組む必要があります。英国は、オープンコーポレイツオープン・ナレッジ財団およびオープン・データ・インスティテュートを含め、おそらくこの領域において世界で指導的な組織を持っています。

原文(2013/7/30 Open Knowledge Foundation Blog 記事より):
Original post Open tax data, or just VAT ‘open wash’ / Chris Taggart, licensed under CC BY 3.0.

okfj

by okfj

オープンデータのプライバシー

2014年3月27日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

「はい、政府は他の人々のデータをオープンにすべきです」

伝統的に、オープン・ナレッジ財団は個人に関わらないデータをオープンにする活動をしてきました。公的機関からの受託研究論文、財政支出データといったものです。個人のデータが国勢調査のような何らかの共有されたデータセットの一部である場合、個人のプライバシーが保護され、公表された集計データは共有され、公共の資産であることを保証するために、大量の検討や努力がなされました。

しかし時代は変わります。政府や企業が集めるデータは次第に増えつつあります。(本人がそれに気付いているかどうかに関わらず)個人に関わる大量のデータです。データの収集と共有によるプライバシーへのリスクは恐らく以前よりも大きくなっています。データが「ビッグ」か「スモール」かに関わらず、データ解析はこれまでに無い洞察を導き出す可能性を持っています。しかしながら、個別のデータセットが連結されたり、対応付けられたりするので、その洞察の中には個人のプライバシーを犠牲にするものがあるかもしれません。

Medical data loss dress

オープンデータおよびビッグデータの両方とも今ちょうどホットな話題です。そしてこのような時に、組織はあらゆる問題についての必要な検討を行うこと無しに、そのような話題に関係したいという誘惑に駆られがちです。ビッグデータの現在の潜在成長力とオープンデータの経済的便益を組み合わせる誘惑によってプライバシーへの関心が無視されるかもしれないので、ビッグデータとオープンデータの交差は多少気懸かりな点です。プライバシー・インターナショナル開発のためのデータに関する最近の記事でこの点に注意を促していることは正しいのですが、もちろん他の領域も影響を受けます。

本日(訳注:2013/8/27)、私たちはオープンデータとプライバシーに関して進みつつある議論を支援するために、いくつかの用語を提案したいと思います。

私たちのデータとは、個人の要素を持たず、共有物の意識が明確なデータです。例えば次のようなものです。バスは私の都市でどこを走っているのか、政府は私の税金を何に使うと決めたのか、国勢調査やその集計結果はどのように組み立てられているのか。オープン・ナレッジ財団において、私たちのデフォルトの立場は、私たちのデータがオープンデータであるべきということです。それは私たちがみな利益を得ることができ、またそうすべき共有資産です。

私のデータとは個人的な私に関する情報で、誰が集めたかに関わらず、何らかの方法で私のことを識別することができます。それは、私の直接の許可なしに他の人によってオープンにされたり公表されるべきではありません。しかし、それは、私(私は自分が望めば、利用可能な形式で私に関するデータにアクセスできるべきであり、それを私自身が共有する権利を持っているべきです)には「オープン」であるべきです。

変換されたデータとは個人に関する情報で、個人が識別可能な要素を除去するためにデータを匿名化、収集する努力が行われたものです。

Medical data loss dress

私たちは、変換されたデータが私たちのデータとしてオープンに公表できるかどうかを確認するために引き続き行う必要のある、いくつかの明確なステップが存在すべきだ、ということを提案します。どのような考察が行われるべきかを述べる、オープンデータ用のプライバシー原則のセットはよい出発点になるでしょう。そこには、データが関係しているすべてのグループの代表およびデータの変換方法にまつわるデータプライバシー専門家を含む重要なステークホルダーに意見を求めることなどが含まれるでしょう。いくつかのデータセットについては、市民のために合理的なレベルのプライバシーを維持することができるようにこれを十分に変換することが可能だとは、証明するのが難しいかもしれません。これらのデータセットはシンプルに非公開とすべきです。他のものについては、データがオープンに公表されるのに適している状態になる前に、受入れ可能なプライバシー標準を達成するために、変換に関してさらなる研究が必要だということかもしれません。データの公表が必須となる前に、リスクに対する保証は考慮され管理されます。変換が関係のある個人に十分なプライバシーを提供し、原則が厳守された場合、データはオープンデータとして公表することができます。

私たちは「私たちのデータ」のうちのいくつかは個人の要素を持つだろうと述べておきます。例えば、議会のメンバーは公共圏に入る肯定的な選択を行ない、議員に関する情報のいくつかを市民は漏れなく利用可能です。このタイプのデータは、比較する標準は公益とは異なるかもしれませんが、私たちが公開前に提案するオープンデータのプライバシー原則に照らして依然として考慮されるべきです。

これは、オープンデータおよびプライバシーの領域を調査するシリーズ投稿の一部です。私たちは、これは非常に重要な問題であると感じています。これらの問題に興味を持っているか、オープンデータ用のプライバシー原則の開発を支援したい場合は、ワーキンググループ・メーリング・リストに参加してください。私たちはメーリング・リスト、下記コメント欄等での提案や考察、もしくは私たちや一緒に作業しているオープン・ライツ・グループとの2013年秋のOKConや他のイベントでの意見交換を歓迎します。

原文(2013/8/27 Open Knowledge Foundation Blog 記事より):
Original post Open Data Privacy / Laura James, licensed under CC BY 3.0.

okfj

by okfj

重要な問いに答える力を与えるオープンデータ

2014年3月26日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

ルーファス・ポロック(オープン・ナレッジ財団の創設者兼ディレクター)によるこの記事は、2013年12月5日にリリースされた「テレフォニカ・ディジタル・ハブ」からのクロスポストです。

私たちは、最短で仕事を始める方法や何を食べるかといった個人的なことから、気候変動や持続的に70億人を扶養し教育する方法のようなグローバルなものまで、日々挑戦に直面しています。オープン・ナレッジ財団では、データをオープンにしてそのデータを洞察に変えるということは、こういった挑戦に取り組むために、そしてまた(一部の少数ではなく)誰もが変化を理解して影響を与えるのに必要な知識によって力を付与されている社会を構築するために、極めて重要になり得ると信じています。

Neon sign Open 2005  Photographer User Justinc cc-by-sa

オープンデータとオープンナレッジは、力を付与するための、そして人々(市民、ジャーナリスト、NGO、会社および政策決定者)が自分の周りの世界を理解し、形作るのに必要な情報へのアクセスを付与するための基盤です。

オープン性を通じてこそ、私たちは技術とデータが科学、政治そして社会を改善することを保証することができるのです。それが無ければ、増え続ける知識の集中化とそれゆえの少数の人々が牛耳る権力を、また私たちの個々のそして集団的な、周囲の世界を刷新し、理解し、また改善するための潜在能力の途方も無い損失を目にすることになるかもしれません。

オープンデータは誰でも目的を問わず、自由にアクセスし、利用し、その上で構築し、そして共有できるデータです。モバイルからインターネットへといったデジタル技術で、私たちは次第にあらゆる場所でデータの革命を目にすることが増えています。それは、利用可能なデータの量、およびそのデータを利用、共有する私たちの能力の両方における革命です。これにより、仕事からどうやって家に帰るか、といったことから科学者はどうやって調査するかとか、政府はどうやって政策を設定するかといったことまで、私たちが行うあらゆることに変化が起きてきています。

現在、データの多くは個人的なものです。あなたに関するデータ、そしてあなたがすることに関するデータです。例えばあなたが買うもの(ロイヤルティーカード、銀行口座取引明細)、あなたが行く場所(モバイルフォンの位置やインストールしたアプリ)、あるいはあなたがオンライン(フェイスブック、ツイッターなど)で交流する人などです。このデータは決して「オープン」であったり誰にでも自由にアクセス可能であってはなりません。それはあなたのデータであり、誰がそれにアクセスするか、そしてどのように利用されるかは、あなたがコントロールするべきです。

しかし、個人のものでないデータもたくさんあります。政府の予算のようなデータ、道路地図、列車時刻表、キャンディーバーの中に何が入っているか、そのジーンズはどこで作られたのか、去年どれだけの二酸化炭素が排出されたのか、等々。このようなデータは、それをコントロールしている政府や企業に公開することを説得できるならオープンにすることができますし、またそうすべきです。

これは、私たちがこの十年間オープン・ナレッジ財団で行っていることであり、政府や企業に働きかけてそのデータを公開し、オープンにしてもらう活動をしています。

私たちは、革新、創造性および洞察を解放するために、オープンデータに力を与えるべく、こういったことを行っています。これは、起業家、活動家あるいは研究者といった人たちに限らず、誰にでも情報にアクセスし、そして自分たちが適切だと思うものにそれを使用する力が得られる可能性があります。例えばガーナの市民は、地元の学校や病院に支払うための税収の公平なシェアを保証するために鉱山の採掘に関するデータを利用しており、あるいは英国オープン・ヘルスケアのようなスタートアップ企業は、健康サービス用の数億ポンドもの貯蓄を識別するために英国政府によってリリースされた薬剤処方箋データを利用しています。

ここでは、実際のインパクトがオープンデータそれ自体から直接来る訳ではないという点に気をつけることが重要です。新しいオープンデータ・イニシアチブや付加的なオープンなデータセットによって直ちに生活が改善される人はいません。データは知識へ、情報は洞察へと変えられなければなりません。そして誰かが、その知識に基づいて行動しなければなりません。

これを行うには、ツールとスキルが必要です。データを処理、分析、表示するツールとそのためのスキルです。そのためこれはオープン・ナレッジ財団の活動のもうひとつの重要分野となっています。SchoolofData のようなプロジェクトで、私たちはそれらを最も必要とする人々にデータを扱う技術を教えるために働いています。また、オープン・ナレッジ財団ラボでは、私たちは、人々がデータをより簡単に効果的に利用するのを手助けする軽量のツールを作成しています。

最後に、この記事で述べてきたのはデータを利用する人々のことであり、またそのデータから得られた洞察を利用して変化を加速する人々のことです。私たちは、アプリを作り、オープンデータから洞察を導き出す準備ができている「オープンデータ作成者」の文化を醸成する必要があります。私たちは、ザンビアの健康産業労働者、自宅に帰るロンドンの通勤客、といったオープンデータと最良の質問や最大のニーズを持っている人々とを結び付ける必要があります。ぜひデータギークや技術オタクを乗り越えてください。

画像 “Neon Sign Open” by Justin Cormack, CC-BY

原文(2013/12/9 Open Knowledge Foundation Blog 記事より):
Original post Open Data Empowers Us to Answer Questions that Matter / Rufus Pollock, licensed under CC BY 3.0.

okfj

by okfj

文脈に応じたオープンの定義:オープンの実践へ

2014年3月25日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

私たちは、様々な組織が公表した多様なデータおよびコンテンツに、オープンの定義がどのように適用できるかということを見てきました。ここではオープン性の特定の原則、および様々な種類のオープンデータ用の定義とガイドラインに、この定義がどのように関係しているかについて述べたいと思います。

定義以上のものが必要な理由

オープンの定義がするのはたったひとつのことだけで、できるだけ簡潔明瞭にオープンとみなされるひとまとまりの情報にとっての条件を定義します。

定義は広く普遍的であり、オープン・ナレッジの運動における多様なグループとプロジェクトを通して共通の理解を提供するのは重要な統一志向のコンセプトです。

同時に、オープンの定義は特定の地域で公開されている情報のために掘り下げたガイダンスを行っているわけではないので、政府のデータから科学的調査や文化遺産機関のデジタル保有物に至るまで、オープンにしている特定の種別の情報に対する詳細な助言や原則がそれぞれに適した形で必要です。

例えば、オープンの定義はデータがタイムリーであるべきかどうかを明示していませんが、一方でこれは多くのデータ種別にとって優れたアイデアです。もっとも、1世紀前からの国勢調査データが「タイムリー」かどうかを尋ねても意味をなさないのですが!

ひとつの領域の情報をいかにオープンにするかというガイドラインは、別のところでは必ずしもそのまま再適用できるとは限りません。したがって、特定の種別のデータをターゲットにした、特にそれを公表しているかもしれない種別の組織のために書かれたオープン性のための原則とガイドラインが重要なのです。これらはオープンの定義と共にあり、あらゆる分野のデータにおいて人々がオープンな情報を享受し共有する手助けをします。ここでは、いくつかの例をご説明しましょう。

オープン・ガバメント・データのための原則

2007年には、オープンガバメント提唱者のグループがオープン・ガバメント・データ向けの1セットの原則を開発するためにミーティングを行い、これは「オープン・ガバメント・データの8原則」になりました。

2010年には、サンライト財団はこの最初のセットを彼らのガバメント情報をオープンにするための10原則で改訂し、世界中のオープンガバメント情報のための標準を定めました。これらの原則は、他の種類のデータ公開者にも当てはまるかもしれません。しかし、これらはとりわけオープンガバメントのためにデザインされており、実施要項と支援はこの領域にフォーカスしています。この原則は、オープンの定義の重要な側面の多くを共有していますが、ガバメント情報およびそれが公表、利用される方法について固有の付加的な要件とガイダンスを含んでいます。サンライト原則は次のような領域をカバーします:完全性、優位性、即時性、物理的・電磁的アクセスの容易さ、機械可読性、無差別性、一般的な標準の利用、ライセンス設定、永続性および利用コスト。

ティム・バーナーズ=リーのリンクトデータのための5つ星

2010年には、ウェブの発明者ティム・バーナーズ=リーが、リンクトデータのための5つ星を作成しました。これは、より多くの人々にリンクトデータ(情報を相互運用可能で、連結されたものにするために特定の技術的基準と技術のセットを使用している)としての公表を推奨することを目標としています。

最初の3つの星(法的なオープン性、機械可読性、および非プロプライエタリなフォーマット)は、オープンの定義でカバーされており、さらに追加されている2つの星はリンクトデータのコンポーネント(技術仕様であるRDF形式)を追加したものです。

データを相互に接続する方法には他にも多くのやり方がありますが、5つ星はオープンデータ・コミュニティの様々な部分、特にセマンティック・ウェブデータのウェブのビジョンに興味を持っている人々において影響力がありました。

特定の種類の情報のための原則

オープン・ナレッジ財団では、ワーキンググループの多くは、他の人々との様々な種別のオープンデータおよびオープンな要素を備えた作業分野での原則づくりに関係しました。このような原則は、そのコミュニティの作業の枠組みとなり、オープン性とデータのための法的な、規制にかかわる、技術的な基準と同様にベストプラクティスを提示しました。そして各分野における多数の指導者と組織によって支持されました。

これらは次のものを含んでいます:

オープンの定義:世界的なオープン・ナレッジ運動に力を与える重要な原則

政府、公共部門組織、研究者、企業、大学、NGO、スタートアップ、慈善事業家、コミュニティ・グループ、個人、その他、あらゆる種類の個人と組織は情報をオープンにすることができます。その情報には、スプレッドシート、データベース、イメージ、テキスト、リンクトデータ、その他多くの形式があり得ます。そして交通科学製品教育持続可能性地図立法図書館経済学文化開発ビジネス設計金融、その他など、思いつく限りのあらゆる分野からの情報があり得ます。

それぞれこれらの組織、情報の種類、そして情報の準備と公表に関係している人々は、自分たち独自の要件、挑戦、疑問といったものを持っています。各領域でオープンデータ活動を支援する原則とガイドライン(加えてトレーニング資料、技術基準など!)は不可欠です。このため関係者は情報をオープンにするにあたって特定の障害物、挑戦、好機を理解し、対応することができます。これらの作成と維持は、他のグループやコミュニティと同様、オープン・ナレッジ財団の多くのワーキンググループにとって主要な活動です。

同時に、様々な領域でオープン性にかかわる人々は(オープン・ガバメント、オープン・アクセス、オープン・サイエンス、オープン・デザイン、あるいはオープン・カルチャーのいずれであれ)興味と目標を共有し、そのコミュニティ固有の要件に適合させる一方で、いくつかの異なるデータ種別向けの原則とガイドラインは多くの共通要素をシェアすることができ、またそうしています。オープンの定義は、世界的なオープン・ナレッジ運動におけるこれらのグループの全てをつなぐ重要な原則を提供します。

近日公開予定のオープン性に関する記事

オープンデータの共有され同意された定義を持っていることがなぜそれほど重要なのか、そしてどのように「オープンデータの実践を行う」ことに取り掛かることができるか、オープンデータの定義オープンの定義の探索に関する我々の別のポストを見逃さないでください。

原文(2013/10/16 Open Knowledge Foundation Blog 記事より):
Original post The Open Definition in context: putting open into practice / Laura James, licensed under CC BY 3.0.

okfj

by okfj

オープン性とオープンの定義を探索する

2014年3月23日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

私たちは、オープンデータとは何を意味するのか、その基本を述べてきました。ここでは、オープンな情報への一括アクセスの重要性、オープンデータの商用利用、機械可読性、およびデータ提供者はどのような条件を課せられるのかといったことを含む、オープンの定義をより詳細に調べてみます。

商用利用

定義の重要な要素は、オープンデータの商用利用は許可されているということです。オープンデータの利用に際しては商用であれ非営利用途であれ制限があってはなりません。

オープンの定義全文では、これは「ライセンスは、分野によって作品の利用を差別してはいけません。たとえば、企業での使用や遺伝子研究分野での使用についても制限をしてはいけません」として含まれています。

この節の主な意図は、オープンな資料が営利目的での利用をさせないライセンストラップを禁止することです。私たちは、商用ユーザが疎外感を感じるのではなく、コミュニティに参加することを望みます。

商用のオープンデータ・ビジネス・モデルの例

会社がオープンデータから利益を生み出すことができるということは奇妙に見えるかもしれません。この領域のビジネスモデルはまだ発明の途上であり、調査中ですが、商用利用がオープン性の重要な側面である理由の例証を支援するいくつかの選択肢がこちらです。

オープンデータのボタン

オープンなデータセットを使って、他の人がそれを利用してアクセスしたりアプリやウェブサイトを構築できる高性能で信頼性の高いAPIを作成することができます。また、フリーの一括ダウンロードも利用可能である限り、アクセスに課金することもできます。(APIは、異なる数片のソフトウェアや異なるコンピュータが情報を接続したり交換する方法です。ほとんどのアプリケーションは、最新ニュース、地図、製品価格といったデータにインターネットを通じてアクセスするためにAPIを利用します。)

ビジネスでは、例えばオープンデータをいくつか取り上げてつないだり拡張したりして(例えばデータ内の項目のための一貫した命名を作成したり、あるいは2つの異なるデータセットをつないで新しい洞察を生成したりすることで)さらにデータの改善やクリーニングまわりのサービスを提供することができます。

(データの利用ライセンスへの課金がここでの選択肢ではないことに注目してください。データへのアクセスに課金することは、それがオープンデータではないことを意味します!このビジネスモデルは、ビジネスで収集された個人情報やデータセットの文脈内でよく話題になります。これらはデータ用の完全に素晴らしいビジネスモデルですが、オープンデータではありません。)

帰属表示、「完全性」、継承

オープンの定義はオープンデータの利用に際してごくわずかな条件しか付けてはならないとしている一方で、少数の特定の例外を許可しています:

  • 帰属表示:オープンデータ提供者は帰属表示(適切な方法でのクレジット表記)を要求するかもしれません。これは、オープンデータ提供者が自分たちの作品に対するクレジット表記を受け取り、そして下流の利用者が、データの由来をたどれるようにできるということにおいて重要となりえます。
  • 完全性:オープンデータ提供者は、データが変更されているかどうか、データの利用者がそれを明らかにすることを要求するかもしれません。これは例えば政府にとっては非常に適切となりえます。彼らはデータが修正されている場合に、人々がそれを公式なものだと主張しないことを確認したいと考えます。
  • 継承:オープンデータ提供者は、そのデータを利用して作成されたいかなる新しいデータセットもオープンデータとして共有することを要求する、継承ライセンスを課するかもしれません。

機械可読性と一括アクセス

データは多くの方法で提供することができますが、これはその利用しやすさに重要な影響を及ぼす場合があります。オープンの定義は、活用するのが難しくならないようにするために、データが機械可読でかつ一括して利用可能であることを要求します。

コンピュータによって容易にそれを処理することができる場合、データは機械可読であると言えます。これは、単にデジタルであるだけはなく、それが適切な処理がしやすいデジタル構造であるということを意味します。例えば、データの表を含んでいるPDFドキュメントのことを考えてみてください。これらはデジタルです。しかし、コンピュータはPDF(たとえそれがまさに判読可能な人間であっても!)から情報を抽出しようと奮闘するでしょう。スプレッドシートのようなフォーマットでの同じような表は機械可読と言えるでしょう。オープンデータ用語集内の機械可読性に関してもっと読みたい場合はこちら

機械が対応可能ないくつかの機械可読データ

機械が対応可能ないくつかの機械可読データ

全体のデータセットを容易にダウンロードするかアクセスすることができれば、データは一括して利用可能です。あなたが、例えば一度にデータデータセットのごく一部の要素しか得られないように制限されている場合、一括で利用可能ではありません。例えば、世界のすべての町のデータセットに一度に1か国ずつアクセスすることを想像してみてください。

API対一括取得

APIでデータを提供するのは素晴らしいことです。そして、データでやりたいことの多くは、例えばモバイルアプリ内に何らかのお役立ち情報を表示するような場合、一括でのアクセスよりも便利な場合が多いでしょう。

しかしながら、オープンの定義は、APIよりもむしろ一括アクセスを要求します。それには2つの主な理由があります:

  • 一括アクセスは、あなたがAPIを構築する(そうしたいなら!)ことを可能にします。全てのデータが必要な場合、その取得にAPIを使用するのは困難もしくは非効率になる場合があります。例えば、ツイッターについて考えてください:ツイートをすべてダウンロードするためにそのAPIを使用するのは非常に困難で遅いでしょう。したがって、一括アクセスは誰にでもデータへのフル・アクセスを保証する、唯一の方法です。いったん一括アクセスが利用可能ならば、別の誰でも他の人がデータを利用するのを支援するAPIを構築することができます。さらに、検索インデックスや複雑なビジュアライゼーションのような面白い新しいものを作成するために一括データを使用することができます。
  • 一括アクセスはAPIを提供するよりはるかに安価にできます。今日、月に1ドル未満で何ギガバイトものデータを格納することができます。しかし、基礎的なAPIですらその実行にはもっとコストが掛かるかもしれません。また、高度な要求をサポートする適切なAPIの実行は非常に高価になる場合があります。したがって、APIを持っていることはデータがオープンであるための要求事項ではありません。もちろん利用可能な場合、それはそれで素晴らしいのですが。

さらに、誰かがAPI経由でのオープンデータへのアクセスに課金しても、同時にそのデータを一括してフリーで提供している限り、まったく問題ありません。(厳密に言えば、要求は、一括データが無料で利用可能ということではなく、課金する場合には再生産原価を超えない程度であるべきということです。オンライン・ダウンロードについては、それは限りなく無料に近いはずです!)これには意味があります:オープンデータは無料でなければなりませんが、オープンデータサービス(APIのような)には課金することができます。

(新しい情報が現在の交通情報のように、絶えず生成されているリアルタイムデータにとって、これがどういう意味を持つかということは考慮する価値があります。ここでの答えは状況に多少依存しますが、オープン・リアルタイムデータについて、一括ダウンロードアクセスの組み合わせや迅速あるいは定期的な更新を取得する何らかの方法を想像するでしょう。例えば、いつでも利用可能な最新の更新情報の流れや、毎晩1日分全体の一括ダウンロードを提供してかまいません。)

ライセンス設定とパブリック・ドメイン

データセットが法律上オープンかどうか私たちが知りたい場合、一般に、それがオープンライセンスの下(あるいは、「献呈」によるパブリックドメイン内)で利用可能かどうかをチェックします。

しかしながら、何らかの独占的な、例えば著作権やスイ・ジェネリス(データベース)権といった、データにおける知的財産権のようなものがあるかどうかは必ずしも明らかだとは限らないことに注意することは重要です(例えば、これはあなたの法域に依存するかもしれません)。この複雑な問題については、データにおける権利のオープンの定義の法的な概要内でもっと読むことができます。データに独占権がなければ、自動的にパブリック・ドメインに置かれるでしょう。そして、それをオンラインで公開することはそれをオープンにするのに十分でしょう。

しかしながら、これは事態があまり明らかでない領域ですので、適切なオープンライセンスを適用することが一般に推奨されます。- あなたがライセンスした独占権がある場合、そして何らの害を及ぼす権利も無い場合(データは既にパブリック・ドメインにあります!)。

近日中に公開予定のオープン性に関する記事について

近日中に私たちはオープン性の説明というテーマの記事をさらに投稿予定です。オープンの定義とオープン性のための原則の特定のセットとの関係を含む、サンライト財団の10の法則やティム・バーナーズ=リーの5つ星システムのように、オープンデータの共有され同意された定義を持っていることがなぜそれほど重要か、また、人はどうやったら「オープンデータの実践」に取り掛かることができるか、といった内容です。

原文(2013/10/16 Open Knowledge Foundation Blog 記事より):
Original post Exploring openness and the Open Definition / Laura James, licensed under CC BY 3.0.

okfj

by okfj

オープンデータを定義する

2014年3月23日 in Featured, Special

(訳注:この記事は本家OKFn.org記事の日本語訳です)

オープンデータは目的を問わず、誰でもどこででも自由に利用し、共有し、構築のベースにすることができるデータです。これは、オープンデータの簡潔な説明と詳細な定義の両方をお伝えするために、2005年にオープン・ナレッジ財団が作成したオープンの定義全文を要約したものです。

オープンデータの運動が広がり、より多くの政府や組織がオープンデータを受け入れるにつれ、オープンであることの便益の享受を実現し、プロジェクト間の非互換性を作り出したり、コミュニティを分裂させることの危険性を回避するためには、「オープンデータ」とは何を意味するのかという明瞭で同意された定義の存在がますます重要となっています。

オープンはあらゆる出所や話題からの情報に当てはめることができます。誰でも公衆による自由な利用とその便益のためにオープン・ライセンスの下で自分のデータを公表することができます。私たちはよく予算や地図のような公開情報を公表する政府と公共部門の組織、あるいは自分たちの成果としてのデータや出版物を共有する研究者たちについて考えがちですが、、どんな組織でも情報をオープンにすることができます(企業、大学、NGO、スタートアップ、慈善活動家、コミュニティグループおよび個人)。

オープンデータに対する1ページの紹介ではもっと様々な種類のデータについて読むことができます

交通科学製品教育持続可能性地図立法図書館経済学文化開発ビジネス設計金融…などにはオープンな情報があります。したがって、オープンの意味についての説明はこれらの情報源と種別のすべてに当てはまります。オープンにすることは、データ(ビッグデータであれスモールデータであれ)に対して、あるいは画像、テキストおよび音楽などのようにコンテンツに対しても適用することができます。

そこで、オープンの意味とは何なのか、そしてこの同意された定義がオープンデータおよびオープンコンテンツが成長し新たなコミュニティにリーチするにつれ、なぜ私たちが協働、共有、調整するのに極めて重要なのか、ここにあらためて明確にお伝えします。

オープンとは何ですか?

オープンの定義の全文には、オープンデータとは何かということについて詳しく書かれています。
オープン性には2つの重要な要素があります:

  • 法的なオープン性:データを取得し、その上で何かを作成し、それを共有することが法的に認められていなければなりません。法的なオープン性は通常、データへの自由なアクセスと再利用を認める適切な(オープン)ライセンスの適用によって、もしくはデータをパブリック・ドメインに置くことによって提供されます。
  • 技術的なオープン性:そのデータの利用に技術的な障壁があってはなりません。例えば紙への印刷物、あるいはPDFドキュメント中の表としてデータが提供されると、情報の活用に非常に困難を来します。したがって、オープンの定義にはデータが一括して(バルクで)、そして機械可読な状態で利用可能であることを要求するような「技術的なオープン性」のための様々な要件があります。

オープンにはいくつかキーとなる側面があり、オープンの定義はそれについて詳細に説明しています。オープンデータは、利用者が誰か、どこに住んでいるのか、あるいはこのデータで何をしたいのかといったことにかかわらず誰にでも利用可能です。利用者の制限があってはなりませんし、商用利用も問題ありません。

オープンデータは一括で(それゆえ作業しやすい状態で)利用可能でなければなりませんし、無料もしくは合理的な再生産原価以下で利用可能であるべきです。情報はデジタルであって、できればインターネット経由でダウンロードして利用可能で、コンピュータでも簡単に処理できるものであるべきです。もしそうでなければ、利用者はデータの力を完全には利用することができません。組み合わせることで新たな洞察を生み出すことができるのです。

オープンデータは、人々がそれを利用し、再利用し、他のデータセットと混ぜあわせた結果の頒布も含めて、再頒布することを許可しなければなりません。

オープンの定義は一般に、人々がどのようにオープンデータを利用できるかということについて、条件が付けられることを認めていません。しかし、データ提供者が適切な方法で利用者に帰属表示や、データに変更があったかどうかの明示や、元のデータを使って作られた新しいデータセットもオープンデータとして共有する、といったことを求めることは認めています。

オープンの定義の背後には3つの重要な原則があり、これがオープンデータの力強さの根幹となっています:

  • 利用可能性とアクセス:人々はデータを取得できます
  • 再利用と再頒布:人々はデータの再利用および共有が可能です
  • ユニバーサルな参加:誰でもデータを利用できます

オープンの定義のガバナンス

2007年以来、オープンの定義は諮問委員会によって管理されてきました。これは、定義と関連する材料の維持および開発に対して公式な責任を持つグループです。その使命は、オープンナレッジコミュニティの全般的な便益のためにオープンの定義という作業を前に進めることであり、どのライセンスがオープンの定義に適合しているかを決めるための特定の責任を持っています。

委員会はコミュニティが運営する組織です。委員会の新メンバーは、諮問委員会の既存のメンバーの合意にもとづいていつでも指名することができ、委員会の作業分野における実証された知識と能力により選ばれます。

諮問委員会はオープンに進められ、誰でもメーリング・リストに参加することができます。

オープンの定義について

オープンの定義は多くの人々からのインプットをもとにオープン・ナレッジ財団によって2005年に作成されました。定義は、直接的にはオープン・ソース・イニシアチブオープン・ソースの定義に基づきました。自由なコミュニティおよびオープン・ソース・コミュニティがソフトウェアのために開発したこれらのよく確立した原則とをほぼ再利用して、データとコンテンツに適用することができました。

コミュニティの多くの翻訳者の努力のおかげで、オープンの定義は30以上の言語で利用可能です。

近日公開予定のオープン性に関する記事について

近日中に、私たちはオープン性を説明するテーマに関する記事を投稿する予定です。その内容にはオープンの定義のより詳細な調査や、サンライト財団の10の原則やティム・バーナーズ=リーの5つ星システムのようなオープンの定義のオープン性に対する原則と特定のセットとの関係 、なぜ共有され、同意されたオープンデータの定義を持つことがそんなに重要なのか、そしていかに「オープンデータ化すること」について取り掛かることができるか、といったことが含まれます。

原文(2013/10/3 Open Knowledge Foundation Blog 記事より):
Original post Defining Open Data / Laura James, licensed under CC BY 3.0.

アイディアソン・ハッカソンを成功させるには

2014年2月14日 in Special


アイディアソン・ハッカソンを成功させるには
オープンデータデイに向けて、アイディアソンやハッカソンを運営する際のポイントなどをまとめた資料を作成しました。

アイディアソン・ハッカソンがオープンデータ活用を進めていくうえでどのような位置づけになるのかという整理や、ハッカソンの意義と限界、ハッカソンに類似した「その他の方法」、成功させるためのポイント、実際に進める際の手順などをまとめています。ぜひご活用ください。

※この資料は、ASPICのオープンデータ研究会での発表資料です。

DataVivaでブラジルまるわかり

2013年11月24日 in Special

DataVivaはブラジルのさまざまな統計情報をビジュアル化することを可能とした、ビジュアライゼーションハブです。ビジュアル化のバリエーションは1億通りにも上ります。DataVivaを開発したのはミナスジェライス州ですが、以下の3つデータを使ってブラジル全土をカバーしています。

  • 労働雇用省(MTE)の社会情報年間統計(RAIS)
  • 開発商工省貿易局(MDIC)の外国貿易データ
  • 国連統計部の国連商品貿易統計データベース

これらのデータは、場所、産業、職業、製品、輸出先というカテゴリーで分類され、さらに各分類項の中で複数レベルに渡って細かく分類されています。

 

DataViva3

DataViva Rings

 

DataVivaは多彩なビジュアライゼーションツールを提供しており、ツリーマップ、積み重ね棒グラフ、ジオマップ、ネットワーク、リング(上図)、散布図、比較図、職業グリッドを利用することができます。これらのツールを自由に使って、統計データをさまざまな確度から、さまざまな粒度で分析することができます。

DataViva2

DataViva Occugrid

ビジュアライゼーションの中で面白いのが職業グリッド(Occugrid)です。これは地域や産業、職業を選択すると、どれくらい労働者を必要としているのかをチャートで具体的に示してくれます。

例えば、ミナスジェライス州の芸術・エンタテイメント産業のオーディオ技術者という職業を選択したとします。すると、ミナスジェライス州で芸術・エンタテイメントビジネスを成功させるためには平均でオーディオ技術者が3名必要であるのに対して、現在雇用されているのは2名しかいない、とDataVivaは教えてくれます。

チャートは、ミナスジェライス州の芸術・エンタテイメント産業では1企業あたりの1名のオーディオ技術者が不足していることを示しています。腕に覚えのあるオーディオ技術者はミナスジェライス州で職を探せば、それほど苦労せずに仕事が見つかる可能性が高いことがわかるのです。

DataVivaはその名の通り、統計を生きたデータとして活用できるようにしてくれる優れものです。

算数の文章題にオープンデータを使うと学習効果が高まる

2013年11月21日 in Special

算数を生徒に上手く教えるのに苦労している先生も多いことでしょう。ドリルは機械的過ぎ、文章題もどこか絵空事に感じる生徒は、なかなか身が入らないようです。

ニューヨークのTuvaLabsがオープンデータを使って、算数を現実世界の問題に変える取り組みを始めました。彼らのミッションはOpen Data for Learning、オープンデータで学ぼうというものです。将来、STEM(science, technology, engineering, and mathematics)の仕事を担う人材を育てるには、「7~8歳ぐらいから現実のデータをもとに算数を教えた方が効果がある」とテキサスのジョリ・バーカー先生は話しています。

 

 

TuvaLabsはオープンデータを使った算数の問題を作成し、無料で公開しています。さらに問題をつくるのに適したデータセットを作成し、こちらも無料で公開しています。例えばこんな問題がTuvaLabsでは公開されています。

オリンピックの開会式中に流す30秒コマーシャルの価格は年々着実に上昇しています。以下のデータを使って、オリンピック開会式の30秒コマーシャル費用の中間値を求めなさい

データセットとしてはスポーツやエンタテイメントのように生徒の興味をそそるものが用意されています。生徒からは、「今度は、 コービー・ブライアントとレブロン・ジェームスのデータセットを作って」というようなリクエストも届いているようです。それ以外にも、「中国とインドにおける中学校への進学率」といった世界の状況をさりげなく知らせるためのデータセットも公開されています。

生徒に自分自身でデータセットを選ぶ権利を与えることで、算数の宿題をやってくる生徒は確実に増えているようです。

 

参考: Building better word problems with data; One start-up bets students will be more interested in STEM jobs if their homework uses real world data.(Washington Post, 2013/11/20)

製薬メーカーが臨床試験データを公開すべき4つの理由

2013年11月6日 in Special

欧州医薬品庁(EMA)が臨床試験データ公開の方針を打ち出したのに対して、製薬業界はグラクソ・スミスクライン、ロシュなどの賛成派と、サノフィ、アッヴィなどの反対派に分かれました。

デンマークの皮膚科領域専門のレオ ファーマは、2014年1月1日から臨床試験データを研究者やヘルスケアの専門家、患者に対して、匿名処置を施した上で広く公開すると発表し、賛成派に加わりました。一方、反対派も黙ってはいません。サノフィのCEOが会長を務める欧州製薬団体連合会(EFPIA)はEMAに対して臨床試験データ公開への反対意見を公式文書で提出し、アッヴィはEMAの決定が不当であると訴訟を起こしました

しかし、世界的な情報サービス企業であるトムソン・ロイターが2013年10月18日、臨床試験データを新薬開発のためのプラットフォームCortellisに追加すると発表したことだけからみても、臨床試験データを公開する価値は非常に高いものがあります。

このような状況の中、The New England Journal of Medicineは(NEJM)臨床試験データを公開すべき理由として以下の4つを上げ、臨床試験データ公開が製薬メーカにとっても有益であると強調しています。

 

  1. 実施済みの研究に関するすべてのデータにアクセスすることができれば、それに続く臨床試験の設計や分析を改善することが可能になる。
  2. 治療効果の多様性に関する過去の臨床試験から学ぶことによって、薬の開発を効率化できるだけでなく、市場での薬の価値を高めることができる。
  3. ある1つの病状に対して適用可能な治療方法は複数存在するこが多く、相対的な有効性に関する情報は患者、医師、スポンサーにとって重要である。
  4. データ秘匿に関する根本的な非効率性は、最初から失敗すると分かっている臨床試験やプロジェクトを繰り返してしまうことである。他の研究者による臨床試験によって既に効果がないと実証されている場合でも、それを知らない薬の開発者は与えられた目標に向かって研究を続けてしまう。

 

いずれの理由も、もっともなものです。臨床試験データが公開されることで、製薬業界は絶えず改善や改良が行われる極めて活性化された市場に変わります。営業利益が損なわれるという反対派の主張は、絶えず改善や改良を続けなければ生き残れない新市場への恐れの裏返しなのかもしれません。