データセット

概要

本サイトでは、人文系データベースを多くの人々にご活用していただくための試みとして、様々な機械可読のデータセットをこのページで提供します。Web上では、オープンデータ、Linked Data系のコンテスト、アイデアソンなどが数多く開催されています。ぜひ本サイトのデータを使ってチャレンジしてみませんか?

データセットリスト

小城藩日記データベースの構造を記述したファイル

最新版 index.owl 作成日: 2020-09-25
最新版 index.owl.jsonld 作成日: 2020-09-26

データベース構造(index.owl)とそれを基に再構築した記事データのファイル(index.rdfや実例のex_446.rdfなど)は別になっています。データベース構造(index.owl)は、下記Linked Data BrowserまたはProtégéを用いて開くことを推奨します。

Linked Data Browserでのindex.owlの記述 (The Web KANZAKIのLinked Data Browserを利用。)

【実例】登録番号446「丹宗権左衛門高島御番被仰付候事」のRDFデータ

登録番号446のRDF/XML形式データ ex_446.rdf

W3C Validation Serviceによるデータ構造可視化(SVG)例

全記事RDFファイルとSPARQLエンドポイント

RDFとはResource Description Frameworkの略で、データ項目の意味や他の項目との関係を機械的に読み出せるようにする枠組みです。この枠組みに沿って、これまで汎用的に利用されてきた「表形式」のデータについて、それらのデータ項目も含めて「機械可読化」します。
具体的には、「グラフ形式」と呼ばれる形式に全データを変換する必要があります。上記実例のデータ構造可視化例では、グラフ形式のデータがおおよそどのようなものかをご参照いただけます。
本サイトでは、翻刻済み全目録記事文についての書誌データををRDFデータにしています。Protégéにより上記データベース構造との整合性を確認しています。
RDFデータを検索できるSPARQLエンドポイントは運用中(2020-09-22〜)です。
トリプル数:3,587,423 (2020-09-22)

最新版(RDF/XML)index.rdf ファイルサイズ: 340.8M, 作成日: 2020-10-17

小城藩日記人名典拠データベースの構造を記述したOWLファイル

最新版 indexTenkyo.owl 作成日: 2020-04-14

Linked Data BrowserでのindexTenkyo.owlの記述 (The Web KANZAKIのLinked Data Browserを利用。)

形態素解析ツールMeCab用ユーザ辞書

Unidic 2.1.2用環境設定

			  
## mecab設定例
{your terminal} ~ % mecab -P
bos-feature: BOS/EOS,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*
bos-format: 
bos-format-chamame: B
bos-format-unidic: 
bos-format-user: 
cost-factor: 700
dicdir: /usr/local/lib/mecab/dic/unidic
dump-config: 1
eon-format: 
eos-format: EOS\n
eos-format-chamame: 
eos-format-unidic: EOS\n
eos-format-user: EOS\n
lattice-level: 0
max-grouping-size: 24
nbest: 1
node-format: %m\t%H\n
node-format-chamame: \t%m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
node-format-unidic: %m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
node-format-user: %m\t%H\n
output-format-type: user
theta: 0.75
unk-format: %m\t%H\n
unk-format-chamame: \t%m\t\t\t%m\t%F-[0,1,2,3]\t\t\n
unk-format-unidic: %m\t%m\t%m\t%m\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-user: %m\t%H\n
userdic: /{your path}/ogi.dic

## mecab形態素解析例
{your terminal} ~ % mecab
長寿院様御死去之事 諫早石見殿内方直茂公御女
長寿院	名詞,固有名詞,人名,一般,*,*,*,*,長寿院,*,長寿院,*,固,*,*,*,*,OGI_JINMEI
様	接尾辞,名詞的,一般,*,*,*,サマ,様,様,サマ,様,サマ,和,*,*,*,*
御	接頭辞,*,*,*,*,*,オ,御,御,オ,御,オ,和,*,*,促添,基本形
死去	名詞,普通名詞,一般,*,*,*,,,死去,,死去,,和,*,*,*,*,OGI_EVENT
之事	接尾辞,名詞的,一般,*,*,*,,之事,之事,,之事,,和,*,*,*,*,OGI_TERMS
 	空白,*,*,*,*,*,, , ,, ,,記号,*,*,*,*
諫早石見	名詞,固有名詞,人名,一般,*,*,*,*,諫早石見,*,諫早石見,*,固,*,*,*,*,OGI_JINMEI
殿	接尾辞,名詞的,一般,*,*,*,ドノ,殿,殿,ドノ,殿,ドノ,和,*,*,*,*
内方	名詞,普通名詞,一般,*,*,*,,,内方,,内方,,和,*,*,*,*,OGI_ROLE
直茂	名詞,固有名詞,人名,一般,*,*,*,*,直茂,*,直茂,*,固,*,*,*,*,OGI_JINMEI
公	接尾辞,名詞的,一般,*,*,*,,公,公,,公,,和,*,*,*,*,OGI_TERMS
御女	名詞,普通名詞,一般,*,*,*,,,御女,,御女,,和,*,*,*,*,OGI_ROLE
EOS

		  	
		  

最新版 作成日: 2020-10-17
このユーザ辞書を使用して記事を形態素解析した結果

データベースから抽出した固有表現リスト

固有表現リストのサイトへ

分類に登録されている単語リスト

最新版 作成日: 2020-04-14

データセットの信頼性

小城藩日記データベースは、可能な限り正確な翻刻もしくはデータ入力を心がけています。また、機械的処理で作られたデータに関しては、専門家による完全な内容チェックを経ることができていませんが、随時データ修正を行っています。さらに、人手を介した作業が多いため、未発見の誤りがあることが予想されます。もし、誤りがある場合は、専用フォームからお知らせください。検討の上訂正させていただきます。

参考サイト・文献