EUの調達データをオープンにする

2014年5月24日 in News, Special


次の投稿の元記事はこちらで、Friedrich Lindenberg (Twitterではこちら)によるものです。

調査担当のジャーナリストが注目すべき次のヨーロッパのデータセットは何でしょうか?2012年、BrigitteDataHarvest 会議にさかのぼると、FarmSubsidy の調査担当スーパースターと会議の共同主催者は明確な答えを持っていました:TED(Tenders Electronic Daily)をオープンにしましょう。TEDはEUの共同調達の仕組みで、EUの契約プロセスの中心にあるものです。これをオープンにするということは、誰が公的資金を受け取るか、また、何のためにそれを受け取るかというキーになる疑問に光を当てるでしょう。

彼女の提案は、先週の時点で、最終的にはジャーナリストと研究者のための有用なリソースへと成長した、OpenTED という2年がかりのプロジェクトを引き起こしました。ギャップは残っていますが、私たちは大規模なトレンドから地方自治体の開発まで、あらゆることについての情報を得るために今、ジャーナリスト、NGO、アナリストおよび市民がこれを利用し始めるよう願っています。

ヨーロッパの入札書類および落札データへの容易なアクセスを提供する現在のOpenTEDウェブサイト。

OpenTED

すべてのEU諸国の会社がこれらの契約に入札することができるように、TEDは、大規模公共事業のための入札公告を集めています。ジャーナリストにとって、このようなデータベースが次のようなことに答えられるかどうか、多くの刺激的な疑問があります:どのような大型プロジェクトが発表されているか?誰がこれらのプロジェクトの契約を落札しているか?また、決定が賢明に公平になされているか?特定の国や産業で最も大きなサプライヤーは誰か?

Anders PedersenJoost Cassee が始めたOpenTED プロジェクトは、最初に公式TEDウェブサイトをスクレイプ(訳注:htmlで表現された表などをパースしてデータとして取り出す操作)する試みとして生まれました。しかしながら、OpenTED のこの最初のバージョンはすぐに多くの現実問題に直面しました:ジャーナリストがインターフェースなしでこのデータを使用するのは不可能でした。また、材料が非常にお粗末だったので、サンライト財団の金融データの天才Kaitlin Devine でさえ私たちがエラーを分離するのを手伝えませんでした。さらに悪いことに、2013年6月に、EU出版社は、大量のスクレイピングを不可能にするためにTEDウェブサイトを更新しました – データを更新する方法が私たちには無くなってしまったのです。

私たちには選択肢が欠けていました。私たちの質問に答えるには、EU出版社が提供するウェブサイトでだけでなく、データベースを直接見る必要がありました。

言葉によるスクレイピング

私たちは、データオタクたちのために過激な一歩を踏み出すことに決めました:EUに話しかけることにしたのです。出版社のユニット・リードと話をしたところ、彼らが既にそのライセンシングの枠組みを変更する手続き中であったことを知って、私たちは驚きました:機械可読なデータへのアクセスは過去の再利用者に売られましたが、データを2014年1月に自由に利用可能にするという計画でした。ありがとう、Neelie!

そこで私は1月前半にツイッター上で@EUTenders に連絡して、出版計画に何が起こったか尋ねました。何らかの拒絶を予期していたのですが、彼らの生データ・ファイル・サーバーのための保証付きのダイレクト・メッセージを直ちに受け取って、私は驚きました。サイトはTED の2011年以来のデータのXMLダンプと共に、ダウンロード用のDVDイメージを提示してくれました – これはまさに私たちが捜していたものでした。

コミュニティの構築

DataHarvest 2014が近づくにつれ、私たちは、アクセス可能なフォーマット(CSV)で切り出されたものや国や年ごとに分けられた新しくオープンにされたデータを提示する、OpenTED の更新版を作ることに決めました。これにより、データベース・スキルのないジャーナリストでもデータを入手し、スプレッドシート・アプリケーションで調べることができるでしょう。

DataHarvest 2014のハック・デイに、ヨーロッパ中のコーダー、およびジャーナリストがEU調達データを探索しています。

その結果生まれた議論では、データの質と完全性に注目しました。多くの契約額やサプライヤー名をはじめ、多くの不可欠な情報が見当たりません。さらに、既存のデータは、特に契約に関与する公共団体および経済担当者を明白に識別するには、非常にお粗末なものです。

そして今は?

次のステップはDataHarvest にいろいろなやり方で参加したジャーナリストのおかげです。私たちは彼らが調査に使用できる豊かなリソースを創出し、そしてデータの分析をサポートする準備ができている科学技術者のネットワークを立ち上げた、と私は考えています。しかしながら、私たちが今や契約メタデータ(EU契約の受取人、金額、見出し等)にアクセスできるようになった一方で、ワークショップの中でジャーナリストが尋ねたがるような詳細な質問に答えるためには、実際の契約書へのアクセス、政府が私たちの代わりに作る条項の詳述および正確な協定の範囲、といったものが必要であることが明らかになりました。これについては、私たちはより大きな契約の透明性を主張し、秘密契約をストップするように政府に伝える必要があります。

おお、そして私は、Galwayに建設中の700兆ユーロのビルについてぜひとも詳しく知りたいのです…

資源

データとツール:

いくつかのコード:

原文(2014/5/16 Open Knowledge Foundation Blog 記事より):
Original post Opening Up EU Procurement Data / Friedrich Lindenberg, licensed under CC BY 3.0.

Leave a reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

okfj

Written by