Library and Information Science

Library and Information Science ISSN: 2435-8495
三田図書館・情報学会 Mita Society for Library and Information Science
〒108‒8345 東京都港区三田2‒15‒45 慶應義塾大学文学部図書館・情報学専攻内 c/o Keio University, 2-15-45 Mita, Minato-ku, Tokyo 108-8345, Japan
http://www.mslis.jp/ E-mail:mita-slis@ml.keio.jp
Library and Information Science 58: 49-67 (2007)
doi:10.46895/lis.58.49

原著論文Original Article

引用箇所間の意味的な近さに基づく共引用の多値化列挙形式の引用を例としてMultivalued co-citation measure based on semantic distance between co-cited papers in a citing paper: A case study focused on enumeration of citations

慶應義塾大学大学院文学研究科Graduate School of Library and Information Science, Keio University ◇ 〒108-8345 東京都港区三田二丁目15番45号 ◇ Mita 2-15-45, Minato-ku, Tokyo 108-8345, Japan

受付日:2007年5月19日Received: May 19, 2007
受理日:2007年6月21日Accepted: June 21, 2007
発行日:2007年12月31日Published: December 31, 2007
PDF

【目的】類似論文検索の代表的な手法の一つに共引用の関係を利用するものがある。この手法では,「引用論文の本文とは無関係に,一つの引用論文から引用された被引用論文間の類似度は全て同じ」ことが仮定され,「共引用関係にある」「共引用関係にない」の2値情報を基に類似度が算出される。しかし,引用論文の本文を解析して被引用論文間の関係を詳細にとらえることで,共引用関係を多値化し,類似度の算出をより精密にできると考えられる。本稿では,引用箇所間の意味的な近さに基づいて共引用を多値化する手法を提案し,その可能性と有用性について検討する。

【方法】提案手法を成立させる仮説「引用箇所間が意味的に近ければ共引用関係が強く,引用箇所間が意味的に遠ければ共引用関係は弱い」の検証をおこなった。大規模論文集合への適用を想定し,引用箇所間の意味的な近さを引用箇所の位置関係や引用文章中の語の共起関係によってとらえる方法を採用した。そして,この二つの関係が最も強いものとして,列挙形式の引用(一つの引用で同時に複数の論文を並列列挙する形式をとる引用)による共引用に着目した。仮説の検証はこれを用い,列挙形式で引用された論文間の類似度とその他の形式で引用された論文間の類似度とを比較する実験によりおこなった。

【結果】列挙形式で引用された被引用論文間の類似度は,それ以外の形式で引用された被引用論文間の類似度よりも高い値になった。このことにより,提案手法の可能性と有用性が検証された。したがって,本文を解析して共引用を多値化することで,類似度の算出をより精密にできることが明らかになった。また,提案手法が大規模論文集合へ適用可能なことも確認できた。

Purpose: One typical document retrieval method is to use co-citation. The method is based on the premise that the degree of similarity among co-cited papers is equal in a particular paper. The degree is calculated with binary values: “co-cited” or “not co-cited”. To improve upon this method, the author proposes a multivalued co-citation measure based on semantic distance between co-cited papers.

Methods: To determine the distance between citations, the author measured two machine parseable relationships (location and citing words) between places where papers are cited. In order to evaluate the proposed method, we identified two categories of co-citation: a group with strong relationships indicating “enumerated co-citation” (papers cited within one statement) and a group with weak relationships showing “non enumerated co-citation”. Similarities within each group were calculated and compared using the CiteSeer dataset and 6 major similarity indicators.

Results: All of the similarity indicators showed that the degree of “enumerated co-citation” is higher than “non enumerated co-citation”. Consequently, it became clear that the proposed co-citation measure can be used to distinguish the strength of co-citation more precisely and that it can be applied to large-scale document collections.

This page was created on 2021-01-15T15:12:09.749+09:00
This page was last modified on


このサイトは(株)国際文献社によって運用されています。