A. 研究背景と研究目的
日本目録規則2018年版(以下,NCR2018またはNCR)1)は,従来の1987年版(NCR1987)と比べ内容や構成が大きく異なる。それは,書誌レコードの機能要件(FRBR)等の明確な概念モデルへの依拠,資料の内容的側面と物理的側面の整理,意味的側面と構文的側面の分離,2018年当時のResource Description and Access(RDA)との相互運用性の担保などに起因する変更である。国立国会図書館(NDL)による国内刊行資料に対するNCR2018の適用(2021年1月から),図書館流通センター(TRC)による適用(2022年1月から)が既に開始されており,今後はより多くの機関による採用と適用済みデータの公開や提供などによって,標準的に適用される記述規則となることが確実視される。
しかしながら,旧来の記述規則と大きく考え方や構成が変更されたものでありながら,現時点ではその理解に資するデータ事例,特に広義の学習・教育・訓練用のデータ例は極めて限定される。NCR2018の構成に沿った現時点のデータ事例は,1)日本図書館協会目録委員会(JLA目録委員会)がウェブページから公開している事例群2),2)木村麻衣子による解説書3),3)鳥海恵司による主に音楽作品とその資料群に対するデータ実例集4, 5),4)司書課程用の一部の教科書の記載例6)などにとどまる。鳥海によるデータ実例集を除いては,いずれも事例数は限られている。
他方,前述したNDLやTRCによってNCR2018を適用し作成された書誌・典拠レコードは,既に相当数が存在する。これらも学習用の事例データとして参照し活用できる有効なデータと考えられるが,その記録フォーマット(スキーマ)はいずれも旧来からのMARCフォーマットを微調整したものであり,NCR2018によって作成されるメタデータをそのまま素直に表現したものではない。NDLはMARC21を採用し,TRCはUNIMARCベースの以前のJAPAN/MARCフォーマットに準拠したものを採用しており,それらのデータをそのまま見ただけではNCR2018(そしてその基盤にあるFRBR)によって,どのように対象とする情報資源やその形成する事象が捉えられ表現されたのかは極めて分かりにくい。
以前のNCR1987や英米目録規則第2版とMARCフォーマットとは相互運用性が相当程度に担保されていた。すなわち,NCR1987に依拠して作成されるデータを,構成上の大きな変換を伴わずに,そのままMARCフォーマットに収容することができた。両者が基づく概念モデルが曖昧なものであっても共通していたということである。それに対して,NCR2018やRDAとMARCフォーマットの間には,大きな構造的相違が存在する。前者はFRBRやIFLA図書館参照モデル(IFLA LRM)における実体とその属性や関連からなる構造を基本とするのに対して,後者のMARCフォーマットは旧来からの構成を,微調整を加えつつ引き続き保持している。それゆえ,MARCフォーマットに記録されたデータを見ても,NCR2018やRDAによる捉え方や構成がそのままでは極めて分かりにくい。
本研究の目的は,NDLによりNCR2018を適用し作成されたMARCデータに対して,NCR2018の構成に沿ったメタデータ,すなわち実体とそのエレメントからなるメタデータに再構成すること,そのために必要なスキーマレベルのマッピングの策定とそれを活用したツールを開発し実行することである。これによって,メタデータ作成者(カタロガー)がNCR2018に従ってどのように対象とする事象を捉え,それをメタデータとして表現しているのかを,理解が容易な形式で表示する。これは広義の学習用コンテンツとなることを意図しており,現時点でのそれらの不足を補うものと位置づける。
ただし,あくまでもNDLによるNCR2018適用細則7)に基づくデータ事例であり,多数の別法や任意規定を備えたNCR2018における一つの適用例に限定される。それゆえ,NDLが現時点で採用しているNCR実体とエレメントの範囲の記述に限定される。NCR2018が規定する最大限のエレメントを用いて対象事象を表現したデータではないという制約がある。また,今回はMARC書誌レコードのみ対象とする。
上記目的には,2つの下位目的が包含されている。1つは,JAPAN/MARC MARC21フォーマット(以下,JPMARCまたはMARC)8)とNCR2018の実体およびエレメントとのスキーマレベルのマッピングを検討し策定することである。こうしたマッピングにどのような問題が潜んでいるのか,具体的に検証し,可能な対処策を検討する。併せて,NCR2018に適合しないデータ要素の同定を図る。2つめは,策定したマッピングおよび対処策に基づき,実際にJPMARCデータを変換するツールを開発し実行することである。こうしたツールの開発と実行によって,NCR2018に従った形式に再構成した,かつ相当数の学習用データを提供することができる。他方,変換処理結果の学習用コンテンツとしての有効性や学習者による評価など,その評価に関わる部分は本研究では扱わない。変換処理の対象とするデータ項目の範囲および値の変換処理内容も具体的な利用目的・利用方法に依存してその妥当性が決まる部分があるが,本研究ではその点を限定せず,広く学習用に向けてJPMARCに記録されているすべてのデータ項目およびその値を最大限活用する方針とした。こうした点も含めて,有効性の評価については別途の検討が必要になる。
B. 先行研究と事例
本研究の直接的な先行事例には,RDAの維持管理を担うRDA Steering Committee(RSC)がRDAに関連するツールとして公開しているRIMMF(RDA in Many Metadata Formats)9)がある。現在,バージョン3(RIMMF3)と4があり,前者のバージョン3は3Rプロジェクト(2020年末完了)以前のRDA,すなわちNCR2018策定時に参照していたRDAに概ね対応し,現在開発途中のバージョン4は3Rプロジェクト後のRDAに対応する。当該ツールはRDAによるメタデータ作成作業や学習など,幅広く活用できる高機能なツールである10, 11)。RDAの実体とエレメントに沿ってメタデータを作成できることは勿論,MARC21のレコードを読み込みRDAに従った構成に変換する機能を備えており,そうしたデータに手修正を加えることも可能である。
当該ツールを使用すれば,MARCXML形式に変換後のJPMARCレコードを読み込み,それをRDAの実体とそのエレメントによる表示に変換することができる。さらに,設定ファイルを修正することにより,RDAエレメントのラベルをNCR2018によるものに置換することができる。しかしながら,それを超えての機能追加や変更を加えることは困難である。NCR2018およびJPMARCに特有の事項には対処できないという限界がある。
なお,同ツールにおいて採用されているMARC21データ要素とRDAエレメントとのマッピングが,インストール後のファイルにおいて参照可能である12)。このマッピングは,本研究におけるマッピング策定時にも参考とした(詳細は後述する)。
RIMMFにおいて採用されている上記のマッピングとは別に,3Rプロジェクト以前のMARC21とRDAとの異なるマッピングがRSC自身によって公開されている13)。しかし,RIMMFのそれとは方針が異なり,意味的に対応する部分を有すると判断された最大限のMARCデータ要素とRDAエレメントを対応づけている。その結果,メタデータを変換するという目的から見た実用性に乏しく,本研究では参考にしていない。同様に,RDA Registryにおいて,最新のRDAからMARC21へのマッピングとアラインメントが公開されているが14, 15),その設定方針は上記と同じであり,メタデータ変換の目的に適うものではない。
MARC21のデータ要素すべてに対するマッピングではないが,NCR2018やRDAが基盤とする概念モデルであるFRBR等の実体のうち,特に著作(場合によっては,それに表現形が加わる)の抽出と照合などが,OPACの「FRBR化」(FRBRization)という名の下で研究および試行されていたことがある16–18)。その場合,主対象はNCR2018やRDA適用以前の旧来の書誌レコード群である。こうしたFRBR化は著作(および表現形)を示すデータ要素を指定し,そこから値を抽出し,著作等のデータを生成することに目的が限定されており,それ以外のデータ要素に関するマッピングなどは含まれない。これらゆえ,本研究の直接的な先行研究にはなりえない。
ところで,NCR2018と同程度にMARC21とは構造的に差異があるRDA(3Rプロジェクト後はさらに差異が拡大)に関しても,その構造に沿ったデータ作成事例の公開は限られている。RIMMFによるデータ例があるほか,RSCが公開している少数例の事例があるのみで19),RDAの解説書等においてもMARC21フォーマットによるデータ例のみ記載されている20)。欧米ではあくまでもMARC21による記録が前提とされ,元のRDAの構成に沿った表示などが必要とされないということなのであろうか,この点は疑問である。
MARCフォーマットから他のスキーマへのマッピング,そしてそれに基づく変換例に目を転ずれば,その事例は複数存在する。NDLに限ってもJPMARC書誌レコードからDC-NDLへの変換,同典拠レコードのWeb NDL Authorities RDFデータへの変換などが行われている。これらは元データの主要部分のみの変換を意図しており21),基本的にすべてのデータ要素を変換対象にするといった本研究が目指す包括的な変換を志向したものではない。あるいは,米国議会図書館によってMARC21とMODS, Dublin Core, ONIX等との間のマッピングが公開されているが22),これらを含めてマッピングに伴う問題点とその検討などは報告されていない。
A. メタデータマッピングの問題点
メタデータマッピング(metadata mapping)とは,それぞれ独立したメタデータスキーマ間で,通常,等価の(もしくはそれに近い)データ要素間に対応づけを行うことであり,マッピングをテーブル等で表現したものをクロスウォーク(crosswalk)とも呼ぶ23)。これらはメタデータの統合的検索や変換などに用いることを目的としており,その利用目的に依存してマッピングの具体的な方針や結果も変わりうる。
メタデータの構成に即していえば,そのデータ要素のマッピングと,値の記録に用いる用語のマッピングに分けることができる。RDF(Resource Description Framework)の区分に従えば,前者がRDFプロパティ(とその主語・目的語リソースとなるRDFクラス),後者がRDFクラスにおけるマッピングとなる。加えて,マッピングはメタデータの構造的・構文的な側面に関わる問題と,意味の側面の問題に分けて捉えることができる。マッピングという問題の全体枠の整理とレビューを行ったものに,Haslhoferによるものがある24, 25)。
特に意味の問題が絡むため,具体的なマッピング策定の場面では通常,多様な問題に遭遇する26)。マッピングにおける意味的な等価性の問題について,以前から統制語彙に関わる問題として例えばAitchisonらは,1)厳密な等価(exact equivalence),2)準等価(inexact equivalence or near-equivalence),3)部分等価(partial equivalence),4)一対多の等価(single to multiple equivalence),5)非等価(non-equivalence)に分けている27)。1)はマッピング元とマッピング先との要素(概念)が等しいこと,2)はマッピング元と先とが部分的に重なりを有するが,相互にはみ出す部分を有すること,3)はマッピング元がマッピング先の要素を包含し,かつ他の要素は包含しないこと,4)はマッピング元が複数のマッピング先を包含していること,5)はマッピング元と先の要素が概念的に重なる部分をもたず相互排他であることを指している。これをマッピングのカーディナリティ(基数)の観点でまとめれば,1)と3)は「1対1」,4)が「1対多」となる。現実的には,これに「多対1」となるマッピングが加わる。ISO国際規格25964-2:2013も同様な区分を示しており23),さらには同様にマッピングにおける等価性の問題を論じたものは他にも複数ある28, 29)。
こうした問題への対処の1つとして,例えばRDFクラスskos:Concept間に限定されるが,等価の程度を反映したプロパティskos:exactMatch, skos:closeMatch, skos:broadMatch, skos:narrowMatch, skos:relatedMatchが分けて定義されている30)。このように等価の程度を分けてマッピングを表現するという方策は,本研究においても一部採用する。ただし,こうした方策によって対処できる範囲は限られている。
メタデータマッピングは領域を問わず,これまで多数の実施例があるはずだが,意味の問題への対処を含めた詳細な検討や報告は限られる。
Najjarらは学習用オブジェクトメタデータ(Learning Object Metadata)に関してARIADNEからIEEE LOMへのマッピングについて比較的詳細に報告している31)。大学の機関リポジトリにおけるデジタルオブジェクトのマッピングについて検討したChauによる報告もある32)。
B. 本研究におけるマッピング方針
本研究で策定するマッピングは,JPMARC書誌レコードフォーマットのデータ要素からNCR2018の実体およびエレメントへのマッピングである。以下,本研究で採用した方針を記す。
- 1) マッピングの使用目的は,実際のJPMARCデータを変換し再構成して表示することである。それゆえ,意味的に最大限の対応関係を示すマッピングとはしない。
- 2) 基本的に実体「体現形」および「個別資料」を主対象とする書誌レコードフォーマットであるが,「著作」および「表現形」に関しても該当するデータ要素を抽出し,その記録を生成する。すなわち,著作の典拠形アクセス・ポイント(AP)を記録するMARCフィールド730をもたない場合も,最低限度であれ,著作および表現形を機械的に生成する。また,本研究では典拠データからのマッピングを含めていないため,創作者等となる実体「個人」・「家族」・「団体」へのマッピングについても,該当するデータ要素が出現する範囲内で設定する。
- 3) NDLによってJPMARCフォーマットで表現されている事項は基本的にすべてマッピングの対象とする。ただし,固定長フィールドにおいて,値が一律に固定されているものは除く。こうした意図の下で,NCRエレメントに適切にマッピングできないデータ要素を同定する。これはNCR2018に依拠していない箇所の特定でもある。また,現時点のJPMARCにおいて採用されていない,可能なすべてのMARC21データ要素33)を対象にして,いわば最大限可能な表現力とその限界などを検討するという立場は取らない。
- 4) マッピング自体とマッピングした後の調整処理を切り分ける。NCRエレメントに依存したマッピング後に必要な調整処理を,マッピングとは別に検討し機能実装を図る。
- 5) 逆方向のマッピングとなるNCR2018実体およびエレメントに基づくメタデータを,JPMARCを含めMARC21フォーマットに変換することは意図しない。両方向のマッピングが結果的に同じとなることは多いが,必ずしも同一であるとは限らない。
C. マッピング元とマッピング先の単位設定
1. 先行事例
JPMARCマニュアルは,フィールド015以降のフィールドごとの説明に関わり,サブフィールド識別子ごとに対応する「NCR条項」(それはそのままNCRエレメントに対応づけられる)を示している8)。フィールド245(タイトル,責任表示)のサブフィールドa(本タイトル)はNCR条項「#2.1.1」(本タイトル)に,サブフィールドb(並列タイトル,タイトル関連情報等)はNCR条項「#2.1.2」(並列タイトル),「#2.1.3」(タイトル関連情報),および「#2.1.4」(並列タイトル関連情報)の3つにそれぞれ対応づけている。
これらの記載をマッピングとして見た場合,フィールドとサブフィールドを組み合わせたものとNCRエレメントとの双方向のマッピングと受け止められる。ただし,NCR条項を記載する基準など,そこには一切の説明がないため記載内容から推測する限り,メタデータ変換を意図したものとは想定しにくい。意味的に対応するエレメントを広く記載したものと推測される(この点については後述する)。また,対応するNCR条項の記載がないサブフィールドは,NCRエレメントにマッピングしないという指示と受け止める。
一方,RIMMF3におけるマッピングは,ツールとして実装し実際にメタデータ変換処理の際に参照するためのものであり,JPMARCマニュアルに比べて限定的なマッピングといえよう。RDAエレメントの単位でそれにマッピングするMARC21データ要素を示してある。例えば,エレメントtitle proper(本タイトル)はMARC21データ要素「245¥..¥anp」からのマッピングと指示されている。同ツールが採用した略記法で記されており,フィールド識別子「245」,第1と第2インディケータが「..」,すなわちそれぞれを特定せず,任意のインディケータ値を許容することを表している(記号“¥”は区切りを表す)。そしてサブフィールドa, n, pの3つが該当するとされている。また,エレメントother title information(タイトル関連情報)は「245¥..¥b¥:¥¥」からのマッピングとされており,サブフィールドbの下で区切り記号“:”の箇所が該当するとしている。
これらから,RIMMF3では可変長フィールドのMARCデータ要素については,「フィールド識別子+第1インディケータ+第2インディケータ+サブフィールド識別子」の組み合わせがマッピングの単位とされ,さらに場合によっては区切り記号を含めた単位を採用していることになる。ちなみに,RSCにより別途公開されているMARCデータ要素からRDAエレメントへのマッピングテーブルにおいても基本的に上記の単位を採用しているが,そこでは区切り記号による分割は採用していない13)。
このように,MARCフォーマットにおけるマッピング単位の設定自体が検討を要する事項である。こうした点の指摘はThomaleによってなされ,そこでは区切り記号による分割の必要性が指摘されている34)。また,CoyleはMARCデータ要素を管理フィールド(00X),番号・コード化フィールド(0XX),記述フィールド(1XX~)に分け,それぞれにおける処理単位を検討している35)。その結果,1)個々のデータ要素が相互に独立して対象リソースを記述する場合,2)あるデータ要素は他のデータ要素値を説明あるいは補足するという連鎖の構成をとる場合,3)複数のデータ要素が組み合わされて対象リソースを記述する場合という区分を導出している。MARCフォーマットは長期間にわたり使用されてきており,その間に多様な更新が加えられた結果,部分的にせよ,整合的かつ一貫性あるスキーマとは言い難い側面が内包されているといえよう。
2. 本研究における採用単位
先行事例等を参照しつつ,本研究におけるマッピング元とマッピング先のデータ単位を決定した。先ずNCR2018については,すべてのNCR2018エレメントを対象先の候補とする。エレメントは,多くの場合,エレメント・サブタイプまたはサブエレメントを備えており,マッピングにおいてはできるだけ特定性の高い下位レベルのエレメントに対応づけることが求められる。元の情報からの損失をできるだけ回避するために,適切なレベルにおいて等価となるエレメントに対応づけることを意味する。なお,複数のMARCデータ要素からの多対1となるマッピングにおいて,それぞれのMARCデータ要素の意味範囲を区別することが適切な場合などには,NCRエレメントを擬似的に細分する限定子を導入する(限定子については後述する)。
JPMARCデータ要素については,固定長フィールド(レコードラベル000とフィールド001~008)と可変長フィールド(01X~08X)に分かれ,前者の固定長フィールドについては特定位置のデータ要素値がマッピングの単位となる。それに対して,可変長フィールドは,サブフィールド識別子により区分されるサブフィールドを単位とする。具体的には,「フィールド識別子+第1インディケータ+第2インディケータ+サブフィールド識別子」を組み合わせた単位とする。インディケータの値によってマッピング先を変える場合があるからである。こうした単位設定は,JPMARCマニュアルを除く,MARC21関連のマッピングの先行例と共通する。本研究では区切り記号による分割も,これに加えて部分的に採用した。ただし,十分とはいえない状況にあり,フィールド245など,場合によっては複雑となるパターンには対応できていない。区切り記号によるデータ要素の識別と分割は安定した方式とはいえず,MARCフォーマットの基本的な問題の1つといえよう。
他方,本研究で独自に追加した方式がある。それはフィールド007の位置00(「資料カテゴリー」。以降は「007/00」という略記法を採用)の値による区分を,場合によっては他フィールドにおける参照単位と組み合わせて使用するという方式である。007/00には10の資料区分がコード化され,文字資料「t」,地図資料「a」,楽譜「q」,録音資料「s」,映像資料「v」,映像資料(静止画)「g」,静止画資料「k」,電子資料「c」,点字資料「f」,マイクロ資料「h」として表現されている36)。これを主にフィールド300番台の「キャリアに関する情報」などを適切に仕分けする目的で導入する。
例えば,エレメント「#2.18大きさ」に対して,下位エレメントである「#2.18.1地図等の大きさ」と「#2.18.2静止画の大きさ」がある。前者の#2.18にはJPMARCフィールド300(第1・第2インディケータはいずれも未定義)のサブフィールドc(大きさ)を対応づけることができるが,後者の#2.18.1と#2.18.2を除外するため,上記の資料区分を用いて「c, f, g, h, q, s, t, v」のみ該当することを指定する。それに併せて,#2.18.1と#2.18.2には,それぞれ資料区分「a」と「k」が該当することを指定する。こうした資料区分との組み合わせによって,より精度の高いマッピングとすることができる。フィールド340(媒体の特性等。第1・第2インディケータは未定義)についても,サブフィールドごとに該当する資料区分を指定した上で対応づけるNCRエレメント(「#2.19基底材」,「#2.21マウント」など)を決定している。フィールド538のサブフィールドa(システム要件に関する注記)を,資料区分によって対応づけるNCRエレメント(「#2.33装置・システム要件」,「#2.29.7.1再生チャンネルの詳細」,「#2.29.8特定の再生仕様」など)を区別する点も同様である。
D. 策定したマッピングテーブル
本研究で策定したマッピングはテーブルの形式で管理している。第1表にその一部を示した。テーブル全体については,本稿末尾に記載したURLから参照されたい。
第1表 策定したマッピングテーブル(部分)NCRエレメント | エレメント限定子 | フィールド識別子 | 第1インディケータ | 第2インディケータ | サブフィールド識別子 | 資料区分 | JPMARCマニュアル | RIMMF3: MARC21からRDA |
#2 体現形 | | | | | | | | |
#2.1 タイトル | | | | | | | | |
#2.1.1 本タイトル | | 245 | 0 | 0 | a | | 245¥a | 245¥..¥a |
#2.1.1 本タイトル | 巻次等 | 245 | 0 | 0 | n | | 245¥n | 245¥..¥n |
#2.1.1 本タイトル | 部編等のタイトル | 245 | 0 | 0 | p | | 245¥p | 245¥..¥p |
#2.1.1 本タイトル | 読み | 245 | 0 | 0 | A | | | |
#2.1.1 本タイトル | 巻次等読み | 245 | 0 | 0 | N | | | |
#2.1.1 本タイトル | 部編等のタイトル読み | 245 | 0 | 0 | P | | | |
#2.1.1 本タイトル | 2番目以降の個別タイトル等 | 245 | 0 | 0 | t | | 245¥t | |
#2.1.1 本タイトル | 2番目以降の個別タイトル等読み | 245 | 0 | 0 | T | | | |
#2.1.2 並列タイトル | | 245 | 0 | 0 | b | | 245¥b | |
#2.1.2 並列タイトル | | 246 | 0,2,3 | 1 | a | | 246¥a | 290¥.1¥a |
#2.1.2 並列タイトル | 部編番号 | 246 | 0,2,3 | 1 | n | | | |
#2.1.2 並列タイトル | 部編名 | 246 | 0,2,3 | 1 | p | | | |
#2.1.2 並列タイトル | 読み | 245 | 0 | 0 | B | | | |
#2.1.3 タイトル関連情報 | | 245 | 0 | 0 | b | | 245¥b | 245¥..¥b¥:¥¥ |
#2.1.3 タイトル関連情報 | 読み | 245 | 0 | 0 | B | | | |
#2.1.4 並列タイトル関連情報 | | 246 | 0,2,3 | 1 | b | | 245¥b, 246¥b | 292¥.1¥a |
#2.1.4 並列タイトル関連情報 | 説明句 | 246 | 0,2,3 | 1 | i | | | |
#2.1.4 並列タイトル関連情報 | 読み | 246 | 0,2,3 | 1 | A | | | |
#2.13 刊行頻度 | | 008/18 | | | | | | |
#2.13 刊行頻度 | | 310 | # | # | a | | 310¥a | 310¥..¥a |
#2.15 機器種別 | | 337 | # | # | a | | 337¥a | 337¥..¥a |
#2.15 機器種別 | 情報源 | 337 | # | # | 2 | | | |
#2.16 キャリア種別 | | 338 | # | # | a | | 338¥a | 338¥..¥a |
#2.16 キャリア種別 | 情報源 | 338 | # | # | 2 | | | |
#2.17 数量 | | 300 | # | # | a | | 300¥ae | 300¥..¥a |
#2.18 大きさ | | 007/04 | | | | h | | |
#2.18 大きさ | | 300 | # | # | c | c, f, g, h, q, s, t, v | 300¥ce | 300¥..¥c |
#2.18 大きさ* | | 500 | # | # | a | c, f, g, h, q, s, t, v | | |
#2.18.1 地図等の大きさ | | 300 | # | # | c | a | | 300¥..¥c |
#2.18.2 静止画の大きさ | | 300 | # | # | c | k | | 300¥..¥c |
#2.19 基底材 | | 340 | # | # | a | a, c, f, g, h, k, q, s, t, v | 340¥a | 340¥..¥a |
#2.19 基底材 | 情報源 | 340 | # | # | 2 | a, c, f, g, h, k, q, s, t, v | | |
#2.21 マウント | | 340 | # | # | e | a, c, f, g, h, k, q, s, t, v | 340¥e | 340¥..¥e |
#2.21 マウント | 情報源 | 340 | # | # | 2 | a, c, f, g, h, k, q, s, t, v | | |
#2.22 制作手段 | | 300 | # | # | b | a | 300¥b | |
#2.22 制作手段 | | 340 | # | # | d | c, f, g, h, k, q, s, t, v | 340¥d | 340¥..¥d |
#2.22 制作手段 | 情報源 | 340 | # | # | 2 | c, f, g, h, k, q, s, t, v | | |
*:マッピングの優先度が低いNCRエレメント |
テーブルの左から第1列が「NCRエレメント」,第2列が「エレメント限定子」であり,それにマッピングするJPMARCのデータ要素として,フィールド識別子,第1・第2インディケータ,サブフィールド識別子を第3列から第6列に記載している。例えば,「#2.1.1本タイトル」には,「フィールド245,第1・第2インディケータとも0,サブフィールドa」の値をマッピングするという指示である。つまり,第3列から第6列の組み合わせに該当する値を,第1列に示したNCRエレメントにマッピングする。第3列から第6列の組み合わせを,RIMMF3による略記法にならえば上記は245¥00¥aと表記される(以降は字数節約のため,この略記法を採用する)。ここでは資料区分による限定はないため,第7列「資料区分」の欄は空値である。なお,インディケータの欄における“#”は空白を表し,未定義などを指す。マッピングにおいて同じ扱いとする複数のインディケータ値を,テーブル内では並べて記載しているが(例:「0, 2, 3」),これらは個別のインディケータ値に分解した上で他の要素との組み合わせを生成する。また,サブフィールド内での区切り記号の適用については,マッピングテーブルに含めた記載とはしていない。
策定したマッピングテーブルを集計した結果を第2表に示す。マッピングペア(JPMARCデータ要素とNCRエレメントの組み合わせ)の数は,合計787であった。NCRエレメント異なり数が185,JPMARCデータ要素の異なり数が588となった。この集計では資料区分の組み合わせは捨象している。
第2表 マッピング結果の集計 | 総数 | 1対1 | 1対多 | 多対1 | 多対多 |
マッピングペア数 | 787 | 19 | 298 | 687 | 217 |
NCRエレメント限定子なし | 278 | 18 | 162 | 176 | 86 |
限定子あり | 527 | 1 | 136 | 511 | 131 |
NCRエレメント異なり数 | 185 | 19 | 139 | 85 | 58 |
JPMARCデータ要素異なり数 | 588 | 19 | 99 | 560 | 90 |
優先度が低いものを除外 | | | | | |
マッピングペア数 | 690 | 26 | 166 | 649 | 151 |
NCRエレメント限定子なし | 179 | 24 | 38 | 143 | 26 |
限定子あり | 511 | 2 | 128 | 506 | 125 |
NCRエレメント異なり数 | 113 | 26 | 51 | 72 | 36 |
JPMARCデータ要素異なり数 | 588 | 26 | 64 | 558 | 60 |
次に,資料区分の組み合わせ適用以外に本研究で新たに導入した方策を,以下に記す。
1)エレメント限定子の導入:前述したNCRエレメント「#2.1.1本タイトル」に対しては,先に示した245¥00¥a以外にも,245¥00¥n(巻次または部編番号)や245¥00¥p(部編等のタイトル)など複数の要素がマッピングされ,それぞれを限定子「巻次等」や「部編等のタイトル」をもって区別している(第1表)。巻次等や部編等のタイトルはその意味する範囲において,NCR2018による本タイトルに包含される。このように,NCRエレメントに比してMARCデータ要素の意味範囲が狭く,より限定される場合などに限定子を使用する。あるいは,値の表現法などがコード表現に限定される場合にも,限定子を用いてそれを明示する。
こうした限定子を導入することによって,a)マッピングされた値の意味や位置づけが容易に理解可能となり,またb)限定子の参照によって,マッピング後の適切な調整処理を実現できる。単一エレメントに複数のJPMARCデータ要素がマッピングされたとき,それらを相互に区別する,あるいはそれらを組み合わせて複合値を形成する,優先すべき値を判別するなどの調整処理において参照することができる。787のマッピングペアのうち,限定子をもたないNCRエレメントは278,限定子をもつもの(エレメントと限定子の組み合わせ)が527となり,数の上では限定子をもつペアが2倍近い結果となった(第2表)。
2)マッピング優先度の適用:JPMARCデータ要素の意味において対応づけが可能な複数のNCRエレメントが存在する場合,より等価性が高いエレメントに優先的に対応づける。そして,それ以外のエレメントには記号“*”を付して,その優先度を下げることを明示する。例えば,500¥##¥a(一般注記)は幅広い記載内容が想定されるため,NCRエレメント「#2.41体現形に関する注記」へのマッピングを優先的に設定し,その下位の「#2.41.1タイトルに関する注記」から「#2.42.3キャリアに関するその他の情報の変化に関する注記」まで,加えて「#2.18大きさ」などへは優先度を下げてマッピングする(第1表)。他の事例として,データ要素245¥00¥cは,その意味に基づき「#2.2.1本タイトルに関係する責任表示」および「#2.2.2本タイトルに関係する並列責任表示」にマッピングできるが,実際に後者に該当する事例は限られているため,その優先度を下げ記号“*”を付けてマッピングしている。同じく,MARCデータ要素250¥##¥aは,「#2.3.1版次」に加えて「#2.3.5付加的版次」に該当する値を記録している場合もあるが,そうした事例は限られるため,後者はマッピングの優先度を下げる。さらにその可能性の低さから,「#2.3.2並列版次」と「#2.3.6並列付加的版次」には,上記データ要素からのマッピングを設定しない。
全体で787ペアあったマッピングが,優先度が低いとしたペアを除外したときには,690ペアに減少する(第2表)。そして,それら減少分の多くがNCRエレメントの限定子がないものであったこと(278から179ペアへの減少)が分かる。
一方,固定長フィールドに関しては,示したテーブルでは簡略にそのマッピングを記している。第1表に示した範囲では,MARCデータ要素008/18がNCRエレメント「#2.13刊行頻度」に,007/04かつ資料区分hが「#2.18大きさ」にそれぞれマッピングすることを示している。これらの値はコード化されているため,その意味する内容が分かるよう表示ラベルに置換するテーブルを別途作成した。また,固定長フィールドにおいても,資料区分に依拠して解釈すべき場合もあり,そのときには該当する資料区分を併せて指定した。
また,策定したマッピングテーブルには,JPMARCマニュアルが示すマッピングおよびRIMMF3が採用するマッピングを簡略に記し比較可能とした(第1表)。
1)JPMARCマニュアルによるマッピング:サブフィールド単位で関係するNCR条項番号がマニュアル上に記されていることについては前述した。これらの記載に基づき,JPMARCデータ要素からNCRエレメントへのマッピングを導出した。JPMARCデータ要素245¥a, n, pをNCRエレメント「本タイトル」に対応づけることを第1表では示している。ただし,本研究におけるマッピングに揃えるため,サブフィールドnとpは限定子がある行に対応づけている。JPMARCではインディケータを組み合わせてのマッピングを示しておらず,そのため略記する場合にもインディケータを含めていない。これらゆえ,マッピングテーブル内で「JPMARCマニュアル」の欄に記載がない,あるいは記載があってもフィールド識別子(第3列)とサブフィールド識別子(第6列)の組み合わせと異なる指定内容の場合には,本研究によるマッピングと相違することになる。
加えて,第1表には該当する部分が出現していないが,JPMARCマニュアルが指示するマッピングが本研究のそれと大きく相違する場合がある。そのときには,列「JPMARCデータ要素名」と「JPMARC独自マッピング:NCRエレメント」にそのマッピング先を記載した。第1表には該当する行が出現しないため,これらの列自体を削除している(本稿末尾に記したURLから取得できるマッピングテーブルには,これらの列が含まれている)。
具体例を挙げると,MARCデータ要素300¥##¥e(キャリアに関する情報。付属資料)を,本研究では限定子「付属資料」を付けて「#2.41体現形に関する注記」に対応づけた。それに対して,JPMARCマニュアルでは,上記データ要素を「#43.1著作間の関連」と「#43.3体現形間の関連」に対応づけており,本研究とは見解の相違がある。つまり,付属資料を本体から独立した著作および体現形と捉えた上で関連として記録することを,JPMARCマニュアルは指示している。一方,本研究では,上記データ要素により記録される付属資料をそれ自体で独立したものと捉え記述することは困難と考え,注記に割り当てることにした。同様の両者の相違は相当数にのぼり,マッピングテーブルに単純に挿入した行数を数えると26であった。
2)RIMMF3によるマッピング:RDAエレメントに対して示されたMARC21からのマッピングを,対応するNCRエレメントに対するマッピングと見なした上で,列「RIMMF3: MARC21からRDA」に簡略に記載した。RDAと等価なNCRエレメントがテーブルに出現している範囲で,RIMMF3が採用している「フィールド識別子+第1・第2インディケータ+サブフィールド識別子」の組み合わせをそのまま転記した。それゆえ,JPMARCでは採用されていないフィールドやサブフィールドが記載されている場合がある。なお,NCRエレメントに限定子を付け行を分けて記載してある場合には,意味的に対応する行にのみRIMMF3によるマッピングを記載した。
245¥..¥a, 245¥..¥n, 245¥..¥pは,それぞれ「#2.1.1本タイトル」,その限定子「巻次等」,「部編等のタイトル」にマッピングしている。これらは本研究におけるマッピングと等しい。一方,「#2.1.2並列タイトル」に相当するRDAエレメントparallel title properは,290¥.1¥aからのマッピングとされている。MARC21フォーマットには290というフィールドはなく,他にもRIMMF3によるマッピングでは,292などMARC21に登録されていないフィールドが見受けられるが,その理由は不明である。
また,本研究で策定したテーブルには出現していないRDAエレメント(すなわち現行JPMARCには出現しないNCRエレメントに相当するRDAエレメント)に対応づけられている,多数のMARC21データ要素は記載していない。かつ,固定長フィールドからのマッピングについても,テーブル内には記載していない。
本章では,由来情報の記載,そして本研究で策定したマッピングの特徴である「読み」と「情報源」の扱いについて論じる。その後,JPMARCデータ要素からNCRエレメントへのマッピングにおけるカーディナリティに基づき,1対1,1対多,多対1に分けて,マッピングの該当例,該当ペア数,および課題や対処策等を整理する。ここでのマッピングの単位は前述した通り,MARCデータ要素は可変長フィールドの場合,フィールド識別子からサブフィールド識別子までを組み合わせたものとなり,NCR2018側は限定子を除いたエレメント単位とし,これらの間のカーディナリティに基づく整理とする。マッピング後の調整処理についても併せて説明する。
また,説明用に1つのJPMARCレコード例を第1図に示し,その変換結果の表示例を第2図と第3図に示す。変換結果の第2図では,体現形,個別資料など,実体ごとに区切った表示としており,それら実体の下では各行の左からNCRエレメント,限定子,値の順にタブ記号で区切り表示している。限定子がない場合には当該箇所は空値としてある。また,第3図は限定子と値の末尾の由来情報を削除するなどした表示形式である。紙幅の制約のため,体現形の記述部分のみ表示した。他のJPMARCレコードとその変換例8万件を本稿末尾に記したURLにて公開している。多様な事例については,それらを参照されたい。
A. 由来情報の記載,「読み」と「情報源」のマッピング
JPMARCのいかなるデータ要素からマッピングされた値であるのか判明するよう,元の値の出現箇所を記録したものを,本研究では「由来」(provenance)と呼ぶ。第2図の変換後のメタデータ表示において,エレメント値の末尾に当該値の由来情報を“{245¥00¥a}”のように“{..}”で囲み表示している。これによって,例えば「#02.01.01本タイトル」の値“わかる図形科学”が245¥00¥aからマッピングされた値であることが示されている。こうした由来情報により,適用されたマッピングが容易に理解できる(マッピングテーブルをその都度参照する必要がない),記録されたエレメント値の意味も容易に把握でき,場合によっては不適切なマッピングあるいは不十分な変換処理に気づくことにもなる。むろん,由来情報を表示しないという選択肢もあり,第3図による表示形式では表示していない。
記述フィールドの値に対する「読み」は,JPMARCではフィールド880(代替文字種表現)にまとめて記録され,それぞれ対象とする値との対応関係がサブフィールド6の下に記されている(第1図)。同時に,「読み」付与の対象となる個々のフィールド内でもサブフィールド6を用いて,880フィールドへの対応関係が示されている。NCR2018において,こうした値の「読み」は独立したエレメントには設定されていないが,表記とその読みが分離している日本語のデータにおいて,これまでの考え方を踏襲すればデータ要素としての必要性がある。さらには,著作のタイトルや個人・団体等を含めた典拠形APなどを構成する際にも読みが不可欠な要素となる。
そこで本研究では,「読み」の付与対象の値が記録されているMARCフィールド内に擬似的に「読み」を収めるサブフィールドを設け,そこに読みを移行した後に,NCRエレメントへのマッピングに加えるという方策を採用した。具体的には,フィールド245のサブフィールドa, b, c, n, pに対して,それぞれの「読み」を収めるサブフィールドA, B, C, N, P(対応するサブフィールドの識別子を大文字表記したもの)を仮に設け,そこに読みを格納した。同じように,フィールド700(典拠形AP(創作者等).個人),710(同.団体),720(非統制形AP.創作者等),730(著作),740(非統制形AP.タイトル),800(典拠形AP.シリーズの創作者等.個人),810(同.団体)における「読み」についても仮想的にサブフィールドを設け,そこに格納した。
このように移行した上で,「読み」についてもNCRエレメントへのマッピングに含め,対応するエレメントにそのまま対応づけている。ただし,「読み」であることが判明するよう限定子「読み」,「巻次等読み」や,「個人名読み」,「世系読み」などを付けた。第1表のマッピングテーブル上では,245¥00¥Aや245¥00¥Nから「#2.1.1本タイトル」の限定子「読み」や「巻次等読み」へのマッピングとしてある。これらの結果,第1図のフィールド880,サブフィールド6の値“245-01/$1”に続く,サブフィールドaの値である“ワカル ズケイ カガク”が,第2図では「#02.01.01本タイトル」の限定子「読み」の値として表示されている。
次に,「情報源」の扱いについて説明する。フィールドによっては,サブフィールド2「情報源」をもつ。これは当該フィールド内の他のサブフィールドが取り得る値が統制語彙などによって規定されている場合に,その用語群の名称(通常は略称)を示す。RDAにおけるVES(Vocabulary Encoding Scheme;語彙エンコーディングスキーム)と同じと捉えることができる。フィールド336(表現種別),337(機器種別),338(キャリア種別),340(媒体の特性等),344~347(キャリアに関する情報),さらには600~651(典拠形APのうち件名に該当するもの),およびジャンル・形式用語(655)において,こうしたサブフィールド2が出現する。336¥##¥aの値の情報源は「ncrcontent」に固定され,NCR2018が規定する表現種別の用語から選ばれた値であることを示している。同じく,337¥##¥aの値の情報源は「ncrmedia」,338¥##¥aの値の情報源は「ncrcarrier」となる(第1表)。また,600~651の値の情報源は「ndlsh」(NDL件名標目表),655は「ndlgft」(NDLジャンル・形式用語表)となる。
本研究における独自の扱いとして,NCRエレメントの限定子に「情報源」を設け,そこにこれらの値(情報源の略称)をマッピングした。すなわち,「#5.1表現種別」や「#2.15機器種別」,「#2.16キャリア種別」に限定子「情報源」を設けてマッピングした(第1表)。同様に,600~651の場合には,NCRエレメント「#45資料と主題との関連」の下で,限定子「件名.個人.情報源」,「件名.団体.情報源」などとして,通常の限定子に追記する形式で情報源を明示する限定子とした。分類記号の分類法についても情報源と同じ扱いとし,「#45資料と主題との関連」の下の限定子「分類記号.情報源」とした。
マッピング後の調整処理において,上記の限定子「情報源」を伴って記録された値(例:“#02.15 機器種別 情報源 ncrmedia {337¥##¥2}”)と,その対象となる値(例:“02.15 機器種別 機器不用 {337¥##¥a}”)とを組み合わせて合成し,単一の行の表示を構成している(例:“#02.15 機器種別(ncrmedia)機器不用 {337¥##¥a}”)(第2図)。つまり,「情報源」の対象となる値の限定子を「(ncrcontent)」,「(ncrmedia)」など,あるいは「件名.個人(ndlsh)」,「分類記号(kktb)」などに置換した上で表示している。これら限定子を除去して表示することも可能であり,第3図に示した表示がそれに該当する。
Coyleによる区分を適用すれば,これら「読み」と「情報源」とは,「あるサブフィールドは他のサブフィールドの値を説明あるいは補足するという連鎖の構成をとる場合」に該当する35)。
B. 「1対1」のマッピング
マッピング元とマッピング先で意味的な設定粒度が等しくかつ1対1のマッピングとなる事例には,例えばJPMARCデータ要素000/07(レコード種別)から「#2.12刊行方式」へのマッピング,020¥##¥cから「#2.35入手条件」へのマッピングなどが挙げられる。
次に,マッピング元と先のデータ要素間で意味範囲が包含関係にあり,かつマッピング先であるエレメントがより範囲が広い事例には,511¥0#¥a(出演者注記)から「#2.41.2責任表示に関する注記」へのマッピングなどが該当する。現行のJPMARCでは他に同じエレメントに対応づけるデータ要素がないため,結果的に1対1となっている。なお,ここでは限定子「出演者注記」を付けてマッピングしているが,NCRエレメントに基づく表示の際には単純に限定子を除去して問題ない。
1対1となるマッピングペアは19にとどまり,優先度が低いとしたマッピングを除外した場合には26ペアに増加する(第2表)。つまり,優先度が低いペアをも含めたすべてのペアを対象にして集計した場合に,1対1以外の他のカーディナリティに位置づけられていたものが,優先度が低いペアを除外した結果,形成していたクラスタが分解され,1対1のペアが増えたことを意味する。
C. 「1対多」のマッピング
意味上の設定粒度が等しくかつ1対多となる事例は例外的な位置づけである。008/07(出版等の日付)から,「#2.5.5出版日付」(限定子「西暦年」)に加えて,「#4.4著作の日付」と「#5.2表現形の日付」を生成する事例などが該当する。JPMARCデータ要素には著作の日付,表現形の日付に直接該当する項目がなく,NCR2018に依拠して著作と表現形の典拠形APを生成する際の識別情報としてこれら日付が望まれるため,便宜的に出版日付を流用した。
データ要素の意味範囲が包含関係,かつマッピング先がより狭い意味をもつ1対多の事例には,以下の2つの類型がある。
1)元のデータ要素の意味を分解して,その該当するすべてにマッピングする場合。044¥##¥a(出版・製作国コード)を,「#2.5.1出版地」,「#2.6.1頒布地」,「#2.7.1製作地」の3つのエレメントに限定子「MARC国名コード」を付けてマッピングすることが当てはまる。同様に,550¥##¥a(出版表示等に関する注記)の,「#2.41.5出版表示に関する注記」と「#2.41.6頒布表示に関する注記」へのマッピングも当てはまる。これらは,マッピング後の調整処理の段階において,出版・頒布・製作のいずれが妥当な事例であるのかを,他のエレメントである出版地,頒布地や出版者等の値の出現と照合して判定し,不用なマッピング結果の値を削除している。
また,245¥00¥b(並列タイトル,タイトル関連情報等)も同様な事例と見ることができる。このデータ要素の値は,並列タイトルの場合とタイトル関連情報の場合とがある。しかし,並列タイトルは246¥[023]1¥a(第1インディケータは0, 2, 3のいずれかという指定)にも記録されるため,マッピング後の処理において,246からマッピングされた値と照合することにより,上記の値が並列タイトルとタイトル関連情報のいずれに該当するのかを判定し,重複した値は削除している。
2)優先度を明示して,複数エレメントにマッピングする場合。データ要素245¥00¥cや250¥##¥a, 250¥##¥b,あるいは500¥##¥aなどにおける優先度を設定したマッピングについては,前述した通りである。マッピング後に,それらすべての値を採用し表示するのか,あるいは指定された場合のみ優先度の低いマッピングの結果を含めて表示するのかなどが,事後の調整処理となる。第2図に示した表示例では,優先度が低いマッピング結果は含めていない。仮に優先度が低いものを含めたときには,“#02.05.02 並列出版地* 東京{264¥#1¥a}”や“#02.05.04 並列出版者* コロナ社 {264¥#1¥b}”などが加わることになり,結果的にノイズである場合が多い。
1対多のマッピングペア数は298となった(第2表)。優先度が低いとしたマッピングを除外したときには,166ペアに大きく減少した。特にエレメント限定子をもたないマッピングペアが162から38へと大幅な減少を見せている。
D. 「多対1」のマッピング
データ要素単位の設定粒度が等しくかつ多対1のマッピングとなる事例には,リテラル値をとるJPMARCデータ要素とコード値をとるデータ要素などが同じマッピング先エレメントをもつ場合が該当した。264¥[#23]1¥a(出版地等),008/15(出版国コード),044¥##¥a(出版・製作国コード)はいずれも「#2.5.1出版地」にマッピングされる(第2図)。ただし,後者の2つはコード値であることを限定子によって示す。同様に,008/18と310¥##¥aとは,いずれも「#2.13刊行頻度」にマッピングされる。
マッピング先のデータ要素の意味範囲がより広い事例は多数存在する。これらには限定子を適用し,マッピング後の調整処理において限定子を参照するという方策を採用した。
1)245¥00¥aに加えて,245¥00¥n(巻次等),245¥00¥p(部編等のタイトル),245¥00¥t(2番目以降の個別タイトル等)は,すべて「#2.1.1本タイトル」にマッピングされる。これらを相互に区別し,その後の最終的な表示形を構成するなどを意図して,245¥00¥a以外は限定子を付けてマッピングしている。「#2.34体現形の識別子」をマッピング先とする多数のデータ要素についても同様である。020¥##¥a(ISBN),020¥##¥z(無効なISBN),022¥[#0]#¥a(ISSN),その他多数のデータ要素をそれぞれの限定子を付けて上記エレメントにマッピングした。Coyleによる区分を適用すれば,これは「個々のサブフィールドが相互に独立して対象リソースを記述する場合」に該当する35)。
2)実体間の関連を記録する「#43.1著作間の関連」,「#43.2表現形間の関連」,「#43.3体現形間の関連」も多数のJPMARCデータ要素からのマッピングとなる。例えば,「#43.1著作間の関連」を見ても,510¥2#¥a(索引サービスの名称),760¥0#¥t(上位のシリーズ.リンク先レコードのタイトル),760¥0#¥w(同.リンク先レコードの管理番号),760¥0#¥x(同.上位のシリーズのISSN),762¥0#¥t(サブシリーズ.リンク先レコードのタイトル)などからマッピングされる。加えて,780¥0[014567]¥t(先行.リンク先レコードのタイトル),785¥0[014567]¥t(後続.リンク先レコードのタイトル)など,多数のデータ要素からのマッピングとなる。ただし,これらに対する限定子はMARCサブフィールドに依拠したものではなく,NCR2018による関連指示子を採用し,場合によってはさらに付加情報を加えた。上記の事例の場合,それぞれの限定子は「索引サービス(著作)」,「上位のシリーズ」,「上位のシリーズ.書誌ID」,「上位のシリーズ.ISSN」,「サブシリーズ」,「先行(著作)」,「後続(著作)」とした。マッピング後の調整処理において,これらを関連指示子として値に前置する形式に限定子から移行させている。もちろん,限定子はMARCサブフィールドをそのまま流用し,その後の段階で関連指示子等に置換するという方策も取り得る。
これに関して付言すると,データ要素780¥0[014567]¥g(改題発生巻次・年月次)などは,厳密に捉えるならば,関連の値として記録すべき範囲をはみ出しているといえよう。しかし,本研究では記録に含めるべき事項を広く捉え,マッピングし表示することとした。これらはマッピングから除外するという選択肢もあり,マッピング策定における相違が発生しうる。
3)当該資料の主題を表す分類記号や件名標目などは,すべて「#45資料と主題との関連」へのマッピングとした(第2図)。NCR2108では当該章は「保留」とされ一切の規定がないが,本研究ではこれを単一のエレメントと見立てた上で,著作に付随するエレメントに位置づける。すべてのデータ要素を「#45資料と主題との関連」にマッピングした後に,組み立てて元の件名標目等を形成した。
多対1となるマッピングペアは,総計687となった(第2表)。優先度が低いペアを除外した場合にも649ペアであり,減少幅は小さい。
E. 「多対多」のマッピング
多対多のパターンに該当するマッピングペアは,第2表の集計では1対多と多対1に含めて数えられており,多対多のパターンと重複した数え方となっている。そこで,1対多と多対1の合計ペア数から多対多のペア数を引き,それに1対1のペア数を加えると,総数に一致することになる(298+687−217+19=787)。
多対多のマッピングとは,1)結果的に形成される場合と,2)構造的な特徴により,いわば意図されて形成される場合とがある。
1)例えば245¥00¥bは「#2.1.2並列タイトル」と「#2.1.3タイトル関連情報」とにマッピングされ(1対多),他方246¥[023]1¥a, 246¥[023]1¥n, 246¥[023]1¥pからも「#2.1.2並列タイトル」はマッピングされている(多対1)。この「#2.1.2並列タイトル」が結節点となり,全体として見たときには多対多の関係となる。他の事例では,044¥##¥aは「#2.5.1出版地」,「#2.6.1頒布地」,「#2.7.1製作地」にマッピングする(1対多)と同時に,264¥[#23]1¥aと008/15から「#2.5.1出版地」にはマッピングがある(多対1)。これらも,全体として見たときには多対多の関係となる。これらに対するマッピング後の調整処理については,前述した通りである。
2)構造的な特徴に起因する多対多関連とは,次のものを指す。個人の典拠形APを構成する700¥1[#2]¥a(個人.優先名称)とそれに伴う生年・没年等のデータ要素は,「#6.1個人の優先名称」と「#6.3個人と結びつく日付」等の個人属性エレメントにマッピングするとともに,「#44.1.1創作者」と「#44.2.1寄与者」(限定子はいずれも「個人名」など)にもマッピングする(1対多)。同様に,団体の典拠形APを構成する710¥2[#2]¥a(団体.優先名称)とその他データ要素は,「#8.1団体の優先名称」等の団体属性エレメントにマッピングするとともに,「#44.1.1創作者」と「#44.2.1寄与者」(限定子はいずれも「団体名」など)にもマッピングする(1対多)。これらのマッピングを逆に「#44.1.1創作者」や「#44.2.1寄与者」において集約すると,JPMARCデータ要素からの多対1関係となる。これらゆえ,全体としては多対多のマッピングとなる。ここでは個人と団体という区分と創作者・寄与者という役割の区分とが交差しており,多対多の対応関係を形成している。なお,創作者と寄与者のいずれが事例に即して妥当であるのかは,記録されている「関連指示子」(700¥1[#2]¥e, 710¥1[#2]¥eなど)の値の参照によってマッピング処理後に判定する。
F. マッピング困難なデータ要素
マッピング困難なデータ要素には2種類ある。1つは,いずれの実体に対応するのか判定できないなど,NCR2018の構造に合致しないデータ要素である。こうしたデータ要素は,旧来のMARC21フォーマットを継承して使用していることによるものといえよう。NCR2018に従いメタデータを作成するとの観点からは,望ましくないデータ要素と位置づけられる。データ要素041¥[01]#¥h(言語コード.原文の言語),510¥2#¥b(索引サービス記事採録期間),536¥##¥a(科研費情報.補助金情報),536¥##¥f(科研費情報.科研費課題番号),580¥##¥a(リンクに関する注記)などがこれに該当する。いずれの実体に割り当てるべきか,さらにはその実体の下のいずれのエレメントが最も関係するのか不明であり,マッピング困難とした。例えば,科研費情報は体現形に伴うものか,あるいは著作に付随するものかが判然としないため,マッピング困難とした。これらは見出し「# その他:位置づけ不明なデータ要素」の下に表示する(第2図には該当例なし)。こうしたマッピング困難なデータ要素については,その必要性を含め,今後の再検討が求められる。
もう1つのマッピング困難なデータ要素群は,メタデータの管理情報に相当するものである。015¥##¥2(全国書誌作成機関),040¥##¥a(レコード作成機関),040¥##¥b(目録用言語),040¥##¥c(レコード変換機関),040¥##¥e(目録規則)などが該当する。これらは変換後の表示においては,見出し「#データ管理情報」の下に表示している(第2図)。
加えて,007/00と000/06に示された資料区分(コード値)や,007/01や008/21, 008/23などにおけるコード値も,それぞれ値ごとにマッピングすべき実体とエレメントが変わりうる。例えば,「映像・静止画資料」の場合,008/33は「資料内容種別」とされているが,そのコードは「静止画,設計図,カード,スライド,映像資料,コード不使用」に分けられており,こうした区分は単一のNCRエレメントには収まらない。あるいは,個々のコード値が表すものが,NCR2018が規定する用語に合致しない場合も多い。これらはNCR2018適用以前からの「資料区分」とその下での各種コードが引き継がれて現在も残されているものと推測するが,NCR2018の規定には合致せず,再考が必要と考える。第2図では,これらを「#資料区分」と「#資料区分(下位)」として,便宜的に管理情報に位置づけた。
IV. 策定したマッピングに基づくJAPAN/MARCレコードの変換処理
策定したマッピングを参照して実際にJPMARC書誌レコードを変換するツールを試作した。ツールの構成と動作手順は,以下の通りである。
- 1) マッピングテーブルを読み込み,内部形式に変換する。これには,コード化フィールド用の変換テーブルも含まれる。
- 2) JPMARC書誌レコードを読み込み,データ要素に分解した上で,内部形式に変換する。この段階で,「読み」の対象フィールドへの移行も行う。
- 3) マッピングテーブルと個々のMARCデータ要素とを照合し,NCRエレメントおよび限定子(ないときには空値)とその値に変換する。その際に,値の由来についても記録する。適切にマッピングできない要素も,それと分かる形式で保持する。
- 4) マッピング後の必要な調整処理を,エレメントごとに加える。典拠形APなど,複数要素を組み合わせて値を形成する処理なども,ここに含まれる。
- 5) NCR2018に基づく実体とエレメントによる形式に変換したメタデータを出力する。表示形式は複数設定可能であり,第2図や第3図による形式以外にもあり得る。
以下,マッピング後の調整処理など,開発したツールについて補足する。
1)典拠形APなどを含めて,複数要素により値を形成する処理は,基本的にエレメントごとに処理内容が異なる。「#4.1著作のタイトル」は,フィールド245のサブフィールドa, b, n, pおよびそれらの読みから機械的に生成している。そのため,限定子には「(仮)」を設定した(第2図)。「#22.1著作に対する典拠形AP」も,「#44.1.1創作者」と上記の著作のタイトルを結合させて仮に生成している。他方,「#23.1表現形に対する典拠形AP」は,著作の典拠形APにさらに「#5.1表現種別」,「#5.2表現形の日付」,および「#5.3表現形の言語」(限定子「言語コード」)の値を結合させて形成した。
2)「#42資料に関する基本的関連」に該当する「#42.6体現形から表現形への関連」,「#42.1著作から表現形への関連」などは,生成していない。学習用データとして,今回生成する必要性は高くないと判断したためである。ただし,フィールド730によって著作の典拠形APが記されているものは,それを採用し記録した。
併せて,開発したツールを用いて,一定量のJPMARCレコードの変換を試行した。NDLが週次更新により提供しているJPMARCデータのうち,2022年1月から7月末までの新規または更新レコードを利用した37)。提供データからNCR2018を用いて作成されたものに限定して抽出し,変換処理を行った。変換対象レコード数は87,380件であった。変換結果は第2図と第3図の表示形式それぞれによるものとし,別途URLから公開している。
変換結果のエレメントごとの出現回数,由来ごとの出現回数を集計したところ,体現形が87,380件,「#2.1.1本タイトル」87,553件,「#2.1.2並列タイトル」6,199件,「#2.1.3タイトル関連情報」42,550件,「#2.1.4並列タイトル関連情報」7件となった。さらに,「#2.1.1本タイトル」の由来ごとの集計では,245¥00¥aからマッピングされた値が56,646件,245¥00¥aと245¥00¥nの組み合わせが30,676件,245¥00¥aと245¥00¥pの組み合わせが58件,245¥00¥tが173件であった。体現形の総数と「#2.1.1本タイトル」の出現回数の差分は,245¥00¥t(2番目以降の個別のタイトル等)に合致する。こうした集計によって,エレメントごとの値出現の全体的な傾向やその由来の細部を把握することができる。
本研究の目的は,NDLによりNCR2018を適用し作成されたJPMARC書誌レコードに対して,NCR2018の構成に沿ったメタデータ,すなわち実体とそのエレメントからなるメタデータに再構成して表現すること,そのために必要なスキーマレベルのマッピングの策定とそれを活用したツールを開発し実行することである。
本研究では,先行事例を参照しつつも,独自にマッピングを策定した。マッピングはJPMARCレコードを変換し再構成することに目的を限定し,かつJPMARCフォーマットで表現されている要素は基本的にすべて採用しマッピング対象とした。こうした方針の下,マッピングにおいて遭遇する個々の課題に対して適切な対処策を導入しそれらの解決を図った。具体的には,1)マッピングとその後の調整処理を切り分ける,2)マッピングにおいてNCRエレメントに適宜,限定子を導入し,その後の調整処理において活用する,3)JPMARCデータ要素単位は「フィールド識別子,インディケータ,サブフィールド識別子」の組み合わせとし,場合によってはさらに「資料区分」を組み合わせ,より精度の高いマッピングとする,4)優先度を設けて2レベルに分けたマッピングとする,5)個々の値の由来情報を併せて記録するなどであり,これらによって課題群に対処した。
併せて,策定したマッピングについて,カーディナリティのパターンに分け,詳細にその該当例の検討や残された課題の整理などを行った。同時に,適切なマッピングが困難な部分の同定を図った。マッピングにおけるこうした詳細な検討は他に報告例が殆どなく,その点でも有効な成果と考える。これらは他のスキーマ間のメタデータマッピング,特に比較的詳細なメタデータ間でマッピングを検討する際に参考になるものと考える。
さらに,策定したマッピングに基づいてデータ変換を実行するツールを実装し,一定量のデータ変換を試行した。これによって,広義の学習用コンテンツとしてのNCR2018によるデータ事例を大幅に増やすことができた。
他方,本研究はあくまでもNDLによるNCR2018適用細則およびJPMARCフォーマットが採用しているデータ要素の範囲に限定される。フルスペックのMARC21フォーマットと最大限のNCR2018エレメントとの間でマッピングを検討したわけではない。また,変換結果のデータ群の学習用コンテンツとしての有効性などは確認できていない。そうした評価はかなり困難な課題と認識しており,今後の課題である。
上記課題の解決以外にも,今後の展開の方向性は複数考えられる。
1)NDLのJPMARC典拠レコードに対して同様にマッピングテーブルの策定と変換ツールの実装を試みる,あるいはそれに代えて典拠データの提供サービスWeb NDL AuthoritiesにAPIでアクセスして必要な典拠データを取得し,本研究による書誌レコードからの変換結果と組み合わせるという方策もある。これによって,より内容豊かなデータ事例の提供を目指す。
2)他の書誌レコードから抽出された著作や表現形の事例(インスタンス)との同一性の判定を実現する。加えて,単一MARCレコードからの複数の著作や表現形への分割と抽出や,体現形間,著作間,表現形間の関連における関連先インスタンスの照合と同定なども課題である。
3)変換後のNCR2018エレメントベースのデータから,RDF形式のデータを生成する。その際には,a)基本的にJLA目録委員会が公開しているRDFデータ例38)に沿ったものとする,b)実体インスタンスごとに仮のURIを生成し,それを用いて実体間のリンクを形成する,c)値語彙が既にNCR2018に登録されているものは,値の表現をURIで置換する,d)マッピング困難としたデータ要素は除外しRDFデータには含めないなどの扱いとする。
本研究で策定したマッピングテーブル,およびJPMARCレコードとその変換結果のデータセットを下記URLから公開している。適宜,参照されたい。
https://github.com/ShoichiTaniguchi/NCR2018-LOD
謝辞Acknowledgments
筆者は現在,JLA目録委員会の委員を務めており,本研究も委員会業務から着想を得た研究課題であるが,あくまでも個人研究であり,委員会としての見解を示したものではない。こうした研究の契機を与えてくれたこと,および成果発表を寛容に認めていただいていることに対して,目録委員会の委員諸氏に謝意を表す。
引用文献References
1) 日本図書館協会目録委員会.日本目録規則.2018年版,日本図書館協会,2018, 761p. https://www.jla.or.jp/mokuroku/ncr2018,(入手2022-07-26).
2) 日本図書館協会目録委員会.日本目録規則2018年版データ作成事例.2021-,https://www.jla.or.jp/mokuroku/ncr2018-sample,(入手2022-07-26).
3) 木村麻衣子編著.『日本目録規則2018年版』入門.日本図書館協会,2022, 149p.
4) 鳥海恵司編.日本目録規則2018年版体現形(書誌)データ完全実例集:音楽とその周辺.トッカータ,2020, 158p.
5) 鳥海恵司編.日本目録規則2018年版典拠データ完全実例集:音楽とその周辺.トッカータ,2020, 376p.
6) “資料NCR2018によるデータ作成事例”.情報資源組織論.三訂,田窪直規編著.樹村房,2020, p. 203–216.
7) 国立国会図書館.日本目録規則適用細則類一覧.2021-.https://www.ndl.go.jp/jp/data/catstandards/ncr_regulations/index.html, (入手2022-07-26).
8) 国立国会図書館.JAPAN/MARC MARC21フォーマットマニュアル(2021年1月).単行・逐次刊行資料編,2022年4月25日更新.国立国会図書館,2022, 317 p. https://www.ndl.go.jp/jp/data/JAPANMARC_MARC21manual_MS_202101.pdf,(入手2022-07-26).
9) RIMMF3 Home. https://www.rimmf.com/w/doku.php?id=rimmf,(入手2022-07-26).
10) Dunsire, Gordon; Fritz, Deborah; Fritz, Richard. “Instructions, interfaces, and interoperable data: The RIMMF experience with RDA”. IFLA WLIC 2016, Columbus, Ohio, 2016, 8p. http://library.ifla.org/id/eprint/1324/1/093-dunsire-en.pdf,(入手2022-07-26).
11) Dunsire, G.; Fritz, D.; Fritz, R. Instructions, interfaces, and interoperable data: The RIMMF experience with RDA revisited. Cataloging & Classification Quarterly. 2020, vol. 58, no. 1, p. 1–15.
12) フォルダRIMMF3>tables内のファイル“en rda+tmp elements.txt”と“marc-fixedfields.txt”が該当する.
13) RDA Steering Committee. MARC 21 Format for Bibliographic Data Mapped to RDA Elements. https://original.rdatoolkit.org/document.php?id=jscmap2,(入手2022-07-26).
14) RDA Registry. Map From RDA Properties to MARC 21 Bibliographic Encodings. http://www.rdaregistry.info/Maps/mapRDA2M21B.html,(入手2022-07-26).
15) RDA Registry. Alignment From RDA Elements to MARC 21 Bibliographic Encodings. http://www.rdaregistry.info/Aligns/alignRDA2M21B.html,(入手2022-07-26).
16) Yee, M. M. FRBRization: A method for turning online public finding lists into online public catalogs. Information Technology and Libraries. 2005, vol. 24, no. 3, p. 77–95.
17) Manguinhas, Hugo; Freire, Nuno; Borbinha, José. “FRBRization of MARC records in multiple catalogs”. JCDL'10: Proceedings of the 10th Annual Joint Conference on Digital Libraries, 2010, p. 225–234. https://doi.org/10.1145/1816123.1816157,(入手2022-07-26).
18) Decourselle, Joffrey; Duchateau, Fabien; Lumineau, Nicolas. “A Survey of FRBRization techniques”. Theory and Practice of Digital Libraries (TPDL), 2015, Poznań, Poland, p. 185–196. https://hal.archives-ouvertes.fr/hal-01198487/file/SurveyFRBRization.pdf,(入手2022-07-26).
19) RDA Steering Committee. Complete Examples–Bibliographic Records, April 2016. https://www.rdatoolkit.org/sites/default/files/rsc_rda_complete_examples_bibliographic_april2016_0.pdf, (入手2022-07-26).
20) Maxwell, R. L. Maxwell’s Handbook for RDA. ALA, 2013, 900p.
21) 国立国会図書館.MARC21とDC-NDL(RDF)の書誌データの主な違い.2016. https://www.ndl.go.jp/jp/data/data_service/jnb/pdf/MARC21andDC-NDL.pdf,(入手2022-07-26).
22) Library of Congress. MARC 21 Formats. MARC Mappings. 2014-. https://www.loc.gov/marc/marcdocz.html,(入手2022-07-26).
23) ISO 25964-2: 2013. Thesauri and Interoperability with Other Vocabularies, Part 2: Interoperability with Other Vocabularies. ISO/TC46/SC9, 2013, 99p.
24) Haslhofer, Bernhard. A Comparative Study of Mapping Solutions for Enabling Metadata Interoperability. TR-20080202, University of Vienna, 2008, 38p. https://eprints.cs.univie.ac.at/295/1/covered.pdf,(入手2022-07-26).
25) Haslhofer, B.; Klas, W. A survey of techniques for achieving metadata interoperability. ACM Computing Surveys. 2010, vol. 42, no. 2, article 7, 37p.
26) Woodley, Mary S.; Baca, Murtha. “Metadata matters: Connecting people and information”. Introduction to Metadata. 3rd ed, Getty Publications, 2016. https://www.getty.edu/publications/intrometadata/metadata-matters/,(入手2022-07-26).
27) Aichison, Jean; Gilchrist, Alan. シソーラス構築法.内藤衛亮ほか訳.丸善,1989, p. 118–121.
28) Chen, Y. N. A RDF-based approach to metadata crosswalk for semantic interoperability at the data element level. Library Hi Tech. 2015, vol. 33, no. 2, p. 175–194.
29) Halpin, Harry et al. “When owl:sameAs isn’t the same: An analysis of identity in Linked Data”. The Semantic Web—ISWC 2010. Lecture Notes in Computer Science, vol. 6496. Springer, 2010, p. 305–320. https://doi.org/10.1007/978-3-642-17746-0_20,(入手2022-07-26).
30) SKOS Simple Knowledge Organization System Reference, W3C Recommendation, 18 August 2009. https://www.w3.org/TR/2009/REC-skos-reference-20090818/,(入手2022-07-26).
31) Najjar, Jehad; Ternier, Stefaan; Duval, Erik. Interoperability of learning object repositories: Complications and guidelines. IADIS International Journal on WWW/Internet. 2004, vol. 2, issue 1. http://www.iadisportal.org/digital-library/iadis-international-journal-on-www/internet,(入手2022-07-26).
32) Chau, Do Van. Challenges of Metadata Migration in Digital Repository: A Case Study of the Migration of DUO to Dspace at the University of Oslo Library. Oslo University College, Master thesis, 2011. https://oda.oslomet.no/oda-xmlui/bitstream/handle/10642/990/Chau_Do_Van.pdf,(入手2022-07-26).
33) Library of Congress. MARC 21 Format for Bibliographic Data. 1999 Edition. Update No. 1 (October 2000) through Update No. 34 (July 2022). 2022. https://www.loc.gov/marc/bibliographic/,(入手2022-07-26).
34) Thomale, Jason. Interpreting MARC: Where’s the bibliographic data? Code4lib Journal. 2010, issue 11. https://journal.code4lib.org/articles/3832,(入手2022-07-26).
35) Coyle, Karen. MARC21 as data: A start. Code4lib Journal. 2011, issue 14. https://journal.code4lib.org/articles/5468,(入手2022-07-26).
36) 007/00による資料区分以外にも,フィールド008における6つの資料区分,さらにはレコードラベル000の位置06「レコード種別」における9区分がある。これらは意味上の重なりが見られるが,区分の仕方が微妙に異なり,かつ相互に異なるコードが採用されている。これらを使い分ける意図は理解できず,煩雑と言わざるをえない。この点に関するCoyleによる同様の指摘もある.
37) 国立国会図書館.JAPAN/MARCデータ(毎週更新).https://www.ndl.go.jp/jp/data/data_service/jnb_product.html,(入手2022-07-26).
38) 日本図書館協会目録委員会.NCR2018年版エレメント・語彙等データ提供.RDFデータの使用例.2019-.https://www.jla.or.jp/mokuroku/ncr2018-LOD,(入手2022-07-26).