ウィキデータ
ウィキデータ(英: Wikidata)はウィキメディア財団が提供する共同編集型のデータベース(知識基盤)である。パブリックドメイン・ライセンスの下で、誰もが使用できるオープンデータを提供することを目的としている。ウィキメディア・コモンズがメディアファイルの格納場所を提供して他のウィキメディアプロジェクトがそれを利用する方法と同様に、データに対してこれを行う。ウィキデータはウィキベースソフトウェアを用いて稼働している。
コンセプト[編集]
スクリーンショット
トップページ(英語設定)
ウィキデータ項目 惑星「Mars」(火星、wikidata:Q111)にある文。値は他の項目やコモンズへのリンクとなっている。
フェーズ1での項目のレイアウト。ラベル(Label)、説明(Description)、別名(Aliases)、言語間リンク(Interwiki links)。
ウィキデータ登場以前のウィキペディアの記事中の言語間リンクのリスト(左)とその表示(右)。各言語版の各記事で個別に管理していたものがウィキデータに集中化された。
「リンクを編集」をクリックするとウィキデータ内の言語間リンクを編集できる。
項目[編集]
ウィキデータは、トピック、概念、オブジェクトなどを表す項目に焦点を当てたドキュメント指向データベースである。各項目は、「QID」と呼ばれる文字Qが先頭に付いた番号で一意に識別される。たとえば「政治」はQ7163である。これにより、項目に必要な基本情報を言語を問わずに入力することができる。
項目の名称となるラベルは重複が可能で、たとえば日本語の「ケンブリッジ」というラベルは、英国、米国(2つ)、ニュージーランドの合計4つの「ケンブリッジ」という都市の項目につけられている。それぞれは説明によって区別される。
文[編集]
項目への情報の追加は文を作成することで行われる。文はキーと値のペアとなるプロパティと値で構成されている。たとえば、「牛乳は白い」という文は、項目「牛乳」内でプロパティ「色」に値「白」を設定することで実現できる。
プロパティには複数の値が設定でき、たとえば、マリ・キュリーの「職業」プロパティには、「物理学者」と「化学者」の値を設定することができる。
値は、文字列、数値、メディアファイル、項目など、多くのデータ型を扱うことができ、プロパティには値がとりうるデータ型が設定される。たとえば、「公式ウェブサイト」というプロパティには、「URL」型の値が指定されている。プロパティには、「制約」と呼ばれる、より複雑な規則を定義することもできる。たとえば、「首都」には「単一値制約」が設定されており、首都は1つしかないという現実を反映している。ただし、制約は違反してはならない規約というわけではなく、実際には、データの完全性などをチェックするための補助として扱われている。
また、「修飾子」を使用して、文に追加情報を付け加えて文の意味を絞り込むこともできる。たとえば、プロパティ「人口」に、「2011年時点」と文の適用範囲を限定したいときなどに修飾子を使用する。また、「情報源」を使用して、その文の内容の出典はどこかということを示すことも可能である。
語彙素[編集]
ウィクショナリーとの統合を開発する過程で、新しいエンティティタイプ、「語彙素」を導入した。語彙素とは、言語学において語彙的意味の単位である。同様に、ウィキデータでの語彙素は、辞書学データの格納に適した構造を持つ項目になる。ウィキデータでは、ある言語の語彙素を、語形と語義とともに格納することができる。
スキーマ[編集]
2019年5月からShEx形式で記述されるエンティティタイプ、「スキーマ」を導入した。
歴史[編集]
このプロジェクトは、アレン人工知能研究所(英語版)、ゴードン・アンド・ベティ・ムーア財団、そしてグーグルから総額130万ユーロの寄付を受け設立された。開発は主にウィキメディア・ドイツによって実施されており、最初の開発計画は3つのフェーズに分割された。
- 言語間リンクの一元化 - 異なる言語同士のウィキペディア記事間のリンク
- ウィキペディアの基礎情報ボックスのデータのための格納場所の提供
- ウィキデータのデータに基づいた一覧記事の作成および更新
初期の展開[編集]
ウィキデータは、ウィキメディア財団の2006年以降初めての新規プロジェクトとして、2012年10月29日に開始した。当初は言語間リンクの一元化のみ利用可能で、項目を作成し、基本情報となるラベル、説明、別名と各言語版の記事へのリンクを入力することができた。
ウィキペディアの記事には、他言語版ウィキペディアに同じ主題の記事が存在する場合は、記事同士をつなぐ「言語間リンク」があった。この時点では、ウィキデータはその言語間リンクを格納した自己完結型リポジトリだった。各言語版ウィキペディアは、ウィキデータのデータにまだアクセスできず、言語間リンクを自身で管理していた。
2013年1月14日、ハンガリー語版ウィキペディアで、ウィキデータからの言語間リンクの提供が開始された。その後、1月30日にヘブライ語版ウィキペディア、イタリア語版ウィキペディアに、2月13日に英語版ウィキペディアに、3月6日に他のすべての言語版ウィキペディアへと展開された。2013年9月13日にウィキメディア・コモンズにも言語間リンクが展開された。
文とデータ・アクセス[編集]
2013年2月4日、ウィキデータの項目に文が導入された。プロパティに指定できる値は、最初は項目とコモンズの画像のみの2種類に制限され、位置情報や日付などのその他の種類のデータ型は後に追加された。3月6日に、初めての新しいデータ型(文字列)が導入された。
2013年4月25日から5月27日にかけて、各言語版ウィキペディアに対してウィキデータのデータにアクセスする機能が段階的に提供された。
2015年9月15日、ウィキデータは、項目と直接関連していない項目のプロパティへの、いわゆる任意アクセスを有効化した。たとえば、「ベルリン」というウィキペディア記事から「ドイツ」に関するデータを読むことが可能になった。2016年4月27日、ウィキメディア・コモンズで任意アクセスが有効となった。
クエリ・サービス[編集]
2015年9月7日、ウィキメディア財団はウィキデータ・クエリ・サービスを発表した。これは、問合せ言語としてSPARQLを使用する。また、2018年11月の時点で、その他の方法でデータを検索できるツールが少なくとも26種類開発されている。
評価と利用状況[編集]
2014年11月、ウィキデータは「その規模と備わったオープン性」に対してオープンデータ研究所(英語版)からオープンデータ・パブリッシャー・アワードを受賞した。2014年12月、Googleはウィキデータを支持し、自社のFreebaseを閉鎖しウィキデータにデータを移行することを発表。2016年5月にFreebaseは終了した 。
2018年11月の時点で、ウィキデータの情報は英語版ウィキペディアの全記事の58.4%で使用されており、その大部分は外部識別子や位置座標である。全体としてウィキデータからのデータは、ウィキペディアのページの64%、ウィキボヤージュ記事の93%、ウィキクォートの34%、ウィキソースの32%、そしてウィキメディア・コモンズの27%で表示されている。その他のウィキメディアプロジェクトでの利用も推奨されている。
2018年11月の時点で、ウィキデータのデータを視覚化する外部ツールが少なくとも20種類あり、ウィキデータに関して少なくとも100の論文が発表されている。その重要性は多くの文化機関で認められている。
GLAMとの連携[編集]
図書館や美術館、博物館などいわゆるGLAMと連携する動きが高まっている。ウィキデータは無料、パブリック・ドメイン(CC0)という特徴から、各機関のデータセットのハブとしての役割を担うようになってきている。各組織は、それぞれのデータセットに一意の識別子を保持している。これらのIDをすべてウィキデータに追加することで、多数のソースのデータにシームレスにアクセスできるようになる 。
2019年5月、アメリカ議会図書館はNAFとLCSHの約100万件にウィキデータへのリンクを追加し、標準データを統合すると発表した。
ロゴ[編集]
ウィキデータのロゴ上の縦線は「WIKI」をモールス符号で変換したものが含まれている。