Data Guidelines
データに関するガイドライン
1. 背景
このページでは、F1000Researchに論文等を掲載する際に明記する必要のあるデータ、ならびに、どこにデータを保管するか、どのようにデータを提示するかについて、情報を提供します。弊社の
データに関するポリシーに従い、著者は論文等を提出する際、データがどこで保管されているかについて、詳細をご提供いただく必要があります(倫理上、データ保護上、または機密上の事情がある場合を除きます)。
予め、当該の研究に関連した所定のデータ管理計画をよくご確認ください。本件についてより詳しい情報が必要な場合は、弊社のGetting Started Guideをご覧ください。
弊社のデータに関するポリシーの遵守義務は論文等にのみ適用され、ポスターまたはスライドは適用外となりますので、ご承知おきください。
学術誌ならびに出版社の多くは、既刊データセットに基づく分析や研究成果を報告する論文を歓迎すると表明しています。DOIおよび関連するプロトコル情報を有するデータセットの掲載は「事前掲載」とは見なされず、そのようなデータセットから得られた新たな研究成果の掲載を妨げるものではないとされています。
1.1 研究データとは何か
研究データは多くの異なる形態を取ります。テキスト、数字、データベース、地理空間、画像、録音・映像記録、機械や器具により生成されたデータなどがこれに該当します。人文・社会科学分野においては、一次資料、研究資料、原資料、典拠資料、情報源、その他の資料類、証拠品などが研究データと同義となり得ます。
社会科学分野における研究データの例:
- フィールドノート、事例研究ノート、観察記録
- インタビューやフォーカスグループの録音・映像記録
- 言語コーパス
- 国勢調査や縦断的調査
人文科学分野における研究データの例:
- テキストコーパスから抽出したテキスト
- 保存資料や美術作品の画像
- 地理空間情報
- 口述歴史の録音と音声反訳
- 文書資料のメタデータ
1.2 オープンデータのポリシー
F1000Researchはオープンデータの
ポリシーを推奨しています。すべての論文等について、研究成果の基礎となるデータが保管されているリポジトリ、ならびに当該成果を出すのに用いたソフトウェアの詳細を明記する必要があります。第三者が本研究とデータ分析を再現できるよう、また、場合によっては再利用できるよう、未加工データを閲覧可能にすることが不可欠です。そのようにすることで、第三者が当該データを研究に再利用した場合、当該データを(本論文とは別に)引用することが可能となります。正当な理由なくデータを公開しない場合、論文等は不採用となる可能性が高くなります。
例外:弊社では、データが(倫理上、データ保護上、または機密上の理由により)公開・共有に適さない場合や、第三者より取得したためアクセス制限が適用される場合があることを認識しております。
1.3 FAIRデータ原則
F1000Researchでは、オープンデータの
ポリシーと併せ、研究データの幅広い再利用を促進するための枠組みとして
FAIRデータ原則を採用しています。
Findable(見つけられる)
データの再利用を可能とするには、そのデータが見つけられるようにする必要があります。他者がデータを見つけられるようにするため、弊社ではデータを(それが安全である場合)(DOIなどの)永続的なグローバル一意識別子を割り当てていただくようお願いしております。そのようなリポジトリと識別子をご利用いただくことで、データセットが将来に渡り人間と機械の両方に利用可能な形で公開されることになります。
データを見つけやすくするためには、適切なメタデータを使った記述を行うことも必要です。メタデータの内容とフォーマットは、多くの場合、当該の学術分野および/またはリポジトリでメタデータ標準を通して定められています。リポジトリにデータを登録する際は、できるだけ多くのフィールドにご記入いただくことが重要となります。通常はそれらの情報がメタデータの記録に貢献するためです。場合によっては、とりわけ特定分野に特化したリポジトリをご利用になる際に、データと共にメタデータファイルの提出が求められることもあります。
実用ガイドにつきましては、
「リポジトリを選択する」をご覧ください。
Accessible(アクセスできる)
データのアクセス可能性はユーザーライセンスの存在によって定義されます。F1000Researchの論文等を支持するデータは、データの再利用を促進する
CC0ライセンスの下で公開していただく必要があります。ソフトウェアとソースコードにつきましては、
OSIに承認されたライセンスのご利用を強くお勧めいたします。
ただし、弊社では、データが(倫理上、データ保護上、または機密上の理由により)公開・共有に適さない場合や、第三者より取得したためアクセス制限が適用される場合があることを認識しております。弊社では、そのようなデータに関連する論文等につきまして、適切なセキュリティレベルを保持しながらの掲載を可能とする
ポリシーを用意しております。
Interoperable(相互運用できる)
相互運用できるデータであれば、人間と機械に対して出典の異なるデータとの比較や結合を可能にし、統合解析を推進することとなります。そのような相互運用を確保するため、F1000Researchの論文等を支えるデータは、独自の仕様を用いないオープンフォーマットで保管され、(可能な場合)標準語彙で記述される必要があります。場合によっては、ファイル形式や語彙がデータ保管先のリポジトリによって規定されていることもあります。
実用ガイドにつきましては、
「共有するデータを準備する」をご覧ください。
Reusable(再利用できる)
見つけられ、アクセスかつ相互運用できるデータは、一般に再利用に適したものです。時折、データを理解可能で再利用可能なものとするため、データと併せて追加資料が求められることもあります。通常、当該データを熟知していなくても、提供されているメタデータと資料のみを通じ、それがどのようなデータであるかを理解できる必要があります。ひいては、データの再利用を可能にすることで、データの再現性を裏付けることにもつながります。
2. データを共有するための4つのステップ
2.1 共有するデータを準備する
手続きを開始される前に
FAIRSharing.orgでご自身の研究テーマに関するデータ標準を確認されますよう強くお勧めいたします。研究領域によっては、データの構成、フォーマット、アノテーションの仕方に関する標準が既に確立している場合もあります。
被験者に関するデータを共有する場合は、事前にすべてのデータセットが
セーフハーバー方式(Safe Harbor method)に準拠して匿名化されている必要があります。
すべてのファイルに明確なラベルを付与し、読者にファイルの内容と違いが分かるようにしてください。それぞれのファイルやファイルグループに対し、以下の情報を付与されることをお勧めいたします。
- ファイルの内容を記述した単一の短いタイトル
- ファイルを区別でき、ダウンロードできることが分かるよう、それぞれのデータセットを記述した詳細な説明文(データセットで使用されている略語の説明を含む)
論文等には「データ利用可能性」という見出しを設け、登録済みのデータセットについて簡潔な概要を記してください。
2.1.1 テキストデータ
テキストファイルは、インタビューの音声反訳、ツイッター上のツイート、フィールドノートといった質的研究データの保管によく用いられます。この種のデータは以下の要領を遵守する必要があります。
すべきこと
- 未加工データを保存しておく。変更や変換はコピーファイルで行い、履歴を記録しておく。
- 機密性の高い情報は可能な限り匿名化しておく。たとえば人名、団体名、所在地などは仮名を使って匿名化することができる。
- ファイルの「プロパティ」を確認し、情報漏洩の可能性がないか調べておく。
- 変更履歴やコメントにも情報が残されている場合があるので注意する。
- 使用したコードの意味はコードブックに記録しておく。
- データを裏付ける追加情報も添付しておく。たとえば、アンケート用紙、データ辞書、コードブック、音声反訳のガイドライン、インタビュースケジュールなど。
- 必要な場合は文字情報を元データファイルの該当箇所に直接リンクしておく。
- セマンティックマークアップを使い、元データファイルには見られるが文字情報そのものからは読み取れない文脈情報を記しておく。
- 部分的な音声反訳などでデータが欠損している場合は当該箇所を記しておく。
- バージョン管理システムを利用し、ファイルをバックアップしておく。
- それぞれのデータファイルは独自の仕様を用いない.txtや.rtfなどのオープンフォーマットでエクスポートし、内容が分かる適切なファイル名を付けておく。
- データを綿密に確認しておく。データは刊行物と同様に取り扱いに注意する。
してはいけないこと
- ヘッダーやフッターは使用しない。分析ソフトで除去されてしまうことが多いため。
- 書式設定による意味付けを行わない。Word文書を.txt形式で保存すると書式はすべて失われてしまうため。
- 不用意に検索置換ツールを使用しない。
2.1.2 スプレッドシートデータ
スプレッドシートデータ(大規模な未加工データの表)のアクセスと再利用を容易にするため、以下の要領を遵守する必要があります。
すべきこと
- それぞれの列には記述的な見出しを付けておく。
- 行には単一の見出しを付けておく。
- 必ず最初のセル(A1)を使用する。
- それぞれのスプレッドシートを記述するタイトルと説明文を付けておく(論文等のファイルの末尾で図表の説明文の後に付けてください)。
- それぞれのデータファイルに内容が分かる適切なファイル名を付けて保存しておく。
- データセットを構成する個々の表を個別のファイルとして登録しておく。
- それぞれのワークシートを個別のファイルとして登録しておく。
してはいけないこと
- スプレッドシートにグラフ、コメント、表を埋め込まない。
- カラーコードを使用しない(機械的データマイニングでは処理できない)。
- スプレッドシートでコンマを含む特殊記号(英数字以外の記号)を使用しない。
- 結合セルを使用しない。
- 単一のスプレッドシート内で(Microsoft Excelで使われるような)複数のワークシートを登録しない。CSVないしTAB形式ではサポートされないため。
スプレッドシートはCSVないしTAB形式で登録する必要があります。ただし、スプレッドシートに変数ラベル、コードラベル、定義された欠損地が含まれる場合は、これらをSAV、SASないしPOR形式で登録し、英語で変数を定義する必要があります。
2.1.3 Software source code
すべての論文等には、記述されたデータセットの閲覧や分析の再現に必要なソフトウェアの詳細を記す必要があります。すべての使用ソフトウェアについて、使用したバージョン、当該ソフトウェアが入手できる場所の詳細、分析結果に影響を及ぼし得る変数パラメーターを明記してください。
論文等の著者自身がソフトウェアをコーディングした場合は、ソースコードを公開する必要があります。ソースコードを公開できない倫理上またはプライバシー上の事情がある場合は、
編集チームまでご連絡ください。
2.2. リポジトリを選択する
可能な場合には、論文等を提出する前に、データをCC0ライセンスのある安定的かつ一般に認められた公開リポジトリに登録する必要があります。ご提示いただくDOIまたはアクセッション番号が公開されていることをご確認ください。
F1000Researchは学術コミュニティで認められたリポジトリのご利用を強くお勧めします。
学術コミュニティで認められたリポジトリが存在しない場合は、上記のガイドラインに従ってファイルを作成し、
一般的なデータリポジトリか組織リポジトリ、または国営リポジトリに提出してください。データセットと併せ、概要を記述する説明文と、該当する場合はコード体系も明記してください。
データの種類によっては、論文等の中での視覚表現が有益な場合があります。F1000Researchでは、
Plot.lyで作成したインタラクティブな図表>や、
Code Oceanのコンピュートカプセル>を盛り込んだ論文等の提出を歓迎します。動画や画像はFigshareで提供されているウィジェットを使って表示することができます。当該のデータセットにおいて視覚表現が有益とお考えの場合は、
弊社までご連絡ください。そのような視覚表現が当該データに適しているか否かについて弊社よりご連絡します。
2.2.1 F1000Researchが承認するリポジトリの抜粋一覧
F1000Researchに投稿する論文等と併せてデータを登録するために承認を受けたリポジトリの一覧を以下にご紹介します。
論文等の著者で、一覧に記載されていないリポジトリのご利用を希望される方は、
弊社までご連絡ください。リポジトリの管理者で、一覧への記載を希望される方は、こちらの
Repository Evaluation formにご記入の上、
、弊社までご提出ください。
一般データ、研究資料、証拠書類
* 多くのリポジトリは、アップロードするファイルの一つあたりのサイズに制限を設けており(通常は2GBまたは5GB)、それより大きいデータファイルには課金が必要となります。
$ 当該データが論文等の中でFigshareビューアーによる視覚化に適しているとお考えの場合は、
弊社までご連絡ください。
† 登録記録を永続的で変更不能にするため、データ等を公開し、研究プロジェクトを登録する必要があります。
人文・社会科学分野のデータ
* オープンアクセスである必要があります。
音声反訳のデータ
インタビューやフォーカスグループによる話し合いの録音・録画から得られた質的データは、編集による匿名化を行い、一般データ用のリポジトリにアップロードする必要があります(上記をご覧ください)。編集による匿名化が十分に行えない場合は、著者がデータへのアクセス経路に制限をかけ、論文等のデータ利用可能性セクションに包括的なステートメントを追加する必要があります(共有できないデータについては下記をご覧ください)。何らかの状況により音声反訳のデータを共有できない場合は、編集チームまでご相談ください。
ソフトウェアとソースコード
データの種類 |
提出先 |
論文等のデータ利用可能性セクションに記載する事柄 |
最新のソースコード |
GitHub,
GitLab,
BitBucket
|
URL |
アーカイブしたソースコード |
Zenodo |
タイトル, DOI, 使用したライセンス* |
異なるデータやコードが混在するもの |
Code Ocean |
タイトル, DOI, インタラクティブ再分析ツールの埋め込みコード |
ソフトウェア |
任意の場所にソフトウェアを保管できる(ただし、安定したURLの使用を強くお勧めします) |
URL |
* オープンライセンスが必要です。
OSIに承認されたライセンスのご利用を強くお勧めいたします
2.3 データ利用可能性に関するステートメントを論文等に追加する
すべての論文等には、関連データがない場合も、データ利用可能性に関するステートメントを記載しなければなりません。。このステートメントは、論文等の提出前に、論文等の末尾に追加する必要があります。.データ利用可能性に関するステートメントは、読者や査読者に対し、データ入手のため著者へ連絡することを促すものではなく、下記の一覧から該当する情報を記載するものとします。
関連データがない場合
論文等に関連付けられたデータがない場合は、以下のステートメントを記載してください:「本論文には関連データがない。」
論文等の中で関連データをすべて提示している場合は、以下のステートメントを記載してください:「本論文の研究結果の基礎となるデータは、すべて本論文中に示されており、追加のソースデータは必要とされていない。」
リポジトリに保管されているデータ
リポジトリに保管されているデータ 基礎となるデータや拡張データがリポジトリに保管されている場合は、ご利用のリポジトリとライセンスの名称、および上掲の
一覧の「論文等のデータ利用可能性セクションに記載する事柄」欄に掲載されている情報を記載してください。こちらの情報は以下のような様式での記載をお願いします:
例)Open Science Framework: Hand preference and language ability in 6- to 7-year-old children.
https://doi.org/10.17605/OSF.IO/PBYW5 (Pritchard et al., 2019).
本プロジェクトは以下の基礎データを含む:
- データファイル1 (ファイルの種類と形式を含むデータの記述
- データファイル2 (ファイルの種類と形式を含むデータの記述)
データはクリエイティブ・コモンズ・ゼロの"No rights reserved"著作権放棄条項(CC0 1.0 Public domain dedication)に則って入手することができます。
論文等で言及されたそれぞれのデータセットは、データ利用可能性ステートメントに記載されたものも含め、正式な
データの引用形式で参照しなければなりません。
データ利用可能性セクションの構成に関する詳細については、弊社の
論文等のガイドラインをご覧ください。
共有できないデータ
倫理上ないしセキュリティ上の事情がある場合
倫理上ないしセキュリティ上の理由によりデータへのアクセスが制限される場合は、該当データの制限について説明し、読者や査読者がデータへのアクセスを申請するのに必要な情報とアクセス許可の条件をすべて記述してください。
データ保護上の事情がある場合
人物に関するデータを十分に匿名化できない場合は、以下の事柄を明記してください:データ保護上の問題の説明;データ共有に関する所属機関の倫理委員会(Institutional Review Board: IRB)等の見解(該当する場合);および、読者や査読者がデータへのアクセスを申請するのに必要な情報とアクセス許可の条件すべて。
大規模なデータ
データが大規模でF1000Researchが承認するリポジトリで保管できない場合は、読者や査読者がデータへのアクセスに必要な情報すべてと、その手順の説明を明記してください。
第三者のライセンスを受けたデータ
データが第三者より入手したもので、入手に制限がある場合は、論文等に以下の項目を明記しなければなりません:読者や査読者が著者と同様の方法でデータへアクセスするのに必要なすべての情報;および、分析を行ったデータセットを代表し、論文等で記述されている方法を適用することのできる公開データ(上記の
「リポジトリに保管されているデータ」をご覧ください)。
こちらに挙げられていない理由によりデータを共有できない場合や、データの共有についてご質問がある場合は、どうぞご相談ください。編集チームまでご一報くださいますようお願いいたします。
2.4 データセットを論文等にリンクする
論文等の掲載後は、リポジトリのプロジェクトを更新し、掲載手続き完了後にメールでお送りするDOIを追加されることを強くお勧めいたします。データを論文等にリンクすることで、両者を相互に紐付けすることができ、業績が広く認められるようになります。