対象者

アプリ作成者 オープンデータを利用してアプリを作る人。
データ作成者 オープンデータを作る人。特に政府・自治体など大量多量のデータセットを作る人。

特徴

  • オープンデータ(特にLOD)のデータ構造を鳥瞰することができます。
  • それによって、例えばある自治体すべてのデータセットの構造やデータセット間のリンク関係を直観的に把握することができます。
  • これらは、RDF文書やトリプルの図を見ただけではでは実現することは困難です。

効果

 アプリ作成者にとって

  • 取得したいデータがどこにあるか、素早くデータセットやプロパティを特定することができるため、アプリの設計を効率的に進めることができます・
  • もうSPARQLで ” ?P ” を記述することはなくなります。

 データ作者者にとって

  • データセットを並べて視覚的に把握することがでkるため、データセット間の構造の差異なくし均質化したり、複数のデータセットで重複して記述している個所を括り出し、ひとつのデータセットとして一元化することができます。
  • これによって、資源の節約やオープンデータ運用時の管理負荷の軽減が実現できます。

※)データ作成者にとっての効果は、本サイトで用いている表記法にしたがってオープンデータを設計した場合の効果です。

 政府・自治体のRDF設計における効果

政府・自治体などひとつの組織で多量のRDFを設計する場合特に効力を発揮します。
例えば、避難所と市立小中学校という2つのデータセットをLODで作成する場合を考えてみましょう。おそらく現在一番ポピュラーな方法は、すでに作成しているCSVなどの表形式のデータを変換ツールを使ってRDF化して公開する方法だと考えられます。CSVからRDFに簡単に変換するツールはLinkDataはじめいくつかのサイトで公開されていますから、それを使えば簡単にRDFを作成することができます。作業の手軽さを考えればその手段は大いに魅力的です、
しかし一旦そのような作業に入る前に考えなければならないことがあります。それは公開するデータセット全体での整合性です。
ある自治体で避難所と市立小中学校のRDFデータセットを作る場合、おそらくそれぞれのデータセットには施設の名称や住所・地理座標が記述されることでしょう。ところで、市立の小学校や中学校は災害時に一時避難所として利用されることが想定されていますから、避難所のデータセットには小学校や中学校のデータが記述されることになります。したがって、避難所のデータセットにも市立小中学校のデータセットにも施設名や住所など同じデータが記述されることになります。つまり本来1か所に名称や住所を記述すれば良いにも関わらず、データセットの都合上2か所で記述しなければならなくなるわけです。同じ値を1か所だけに記述しておけば名称の変更や住所の変更があったときに修正が1か所で済みます。 ここでは避難所と市立小中学校という限定的な事例をあげましたが、公開するデータセットが多量になればなるほど、記述したデータの間に重複が増えRDFの維持に費やす労力が大きくなります。
このような事象は、異なる管轄部課がそれぞれで作成した避難所CSVデータと市立小中学校CSVデータをそのままRDF化したからです。コトを性急に進めないほうが賢明です。ここは、公開予定のデータセットを一旦寄せ集め横並びにに比較検討して適切なデータセットの単位に整形すべきなのです。例えば上で述べた事例では、公共施設というRDFを別途作成してそこに名称や住所を記述し、避難所・市立小中学校のRDFからそれぞれリンクを張る方法が考えられます。
本サイトで採用している図面の表記法ではRDFのうち述語を中心に記述しますから、それぞれのデータセットの構造が一目瞭然に把握でき、データセット同士の比較検討がしやすくなります。また図面作成ツールを用いれば検討結果と連動して公共施設などのRDFを簡単に設計・作成することができます。
なお、LODの設計の仕方については「作る」を参考にしてください。

図面の説明

 図面名:melonDiagram ( model to enhance lod notation )

 表記ルール/基本

  • データセットを四角で表す。
  • 四角の中にはプロパティを記述する。
  • 値(主語や目的語のインスタンス)は記述しない。
  • 四角と四角の矢印はリンクを表す。つまりデータセット間の繋がりを表す。
  • ブランクノードは薄い青の四角で表す。
  • 薄い緑色のプロパティはリソースノードに繋がるプロパティを表し、黄色いプロパティはリテラルノードに繋がるプロパティを表す。また、グレーのプロパティはブランクノードに繋がるプロパティを表す。

 表記ルール/その他

  • ◇◆〇●で結ばれる複数のデータセットはデータセット同士が全体集合、部分集合の関係にあることを表す。
  • 明示的にリンク関係がないデータセット同士(リソースタイプの目的語→主語でリンクされていない)でも概念的に関係があると認められたデータセット同士を点線で結ぶ。
  • (図面の物理的制約はあるが)関連する意味・同じ意味をもつデータセット同士はできる限り近くに置く。またその中で、同じ粒度のデータを持つデータセットは横一列に並べる。

LOD用語解説

 LODとは

一般的にweb上に公開されている情報・データには、ホームページ(HTML)やPDF、エクセル(XLSXLSX)など、様々なファイル形式のものがあります。これらのファイル上の情報・データはそれぞれ独自のフォーマットで構成されており、そのままコンピュータで解釈、分析することは困難な場合がほとんどです。

今日のweb上の膨大な情報・データ、これらをより有効活用していくためにはコンピュータで容易に可読、認識可能な形式にしておくことが重要です。そのために用意されたデータ形式がRDF(Resource Description Framework)です。

LODとは、このRDFで定義されたオープンデータ(誰でも自由に利用できるよう公開されているオープンライセンスのデータ)を繋いでいくための世界標準の手法です。

 LODを実現するためのRDFとは

RDF(Resource Description Framework)とは、W3C(World Wide Web Consortium)が2004年から提唱しているデータ形式(データモデル)です。RDFは、主語(Subject)、述語(Predicate)、目的語(Object)の三要素(トリプル)で構成されます。述語をプロパティ、目的語を値と表現することもあり、こちらの方がデータベースなどを扱う人にとってはなじみやすい表現かもしれません。

 RDFによるデータ定義

RDFにおける主語、述語、目的語の表記

RDFでは主語と目的語を楕円(ノード)で表します。主語と目的語を繋ぐ述語は、主語から目的語の方向に矢印(アーク)で表現します。上図の例では、顧客番号215のホームページはhttp://www.opendataviz.netであることを示します。目的語がURIを参照ししている場合には目的語は楕円で表現しますが、文字列の場合は下図のような長方形で表現します。

RDFにおける主語、述語、目的語の表記2

これらをマージでして次のように表現できます。

RDFにおける主語、述語、目的語の表記3

ここで、目的語が主語になるデータがあれば、下図のように繋げて表現していくことができます。

RDFにおける主語、述語、目的語の表記4

 

ここでの「ホームページ」や「名前」といった述語は、共通認識可能な一般的な用語として既に意味定義されています。RDFでは、述語に限らず、このような既に別の場所で定義されている用語は、その定義されている場所をURIで記述(URI参照)します。これにより、ネットワーク上の様々な場所に記述されたデータの相互活用が容易になります。このような一般的な用語は、IPAなどが推進している共通語彙基盤で定義されています。