資料品質需求:名錄資料集

依循這些資料品質的需求及建議,資料發布者可以改善他們名錄資料集的品質、完整性及價值。

Phonognatha-graeffei-iNat-Lek-Khauv
Leaf-curling spider (Phonognatha graeffei), Kingston, Victoria, Australia. Photo 2017 Lev Khauv via iNaturalist research-grade observations, licensed under CC BY-NC 4.0.

名錄資料集提供一組已鑑定生物或分類群(註)的目錄、摘要或基線清單。 名錄通常依照分類學、地理、主題(如瀕危等級)或此三者中的組合來進行資訊的分類,同時可能包含其他細節如當地物種普通名或標本佐證。

依循這些資料品質的需求及建議,資料發布者可以改善他們名錄資料集的品質、完整性及價值。 註:分類群(taxon,複數 taxa)為演化上親緣關係接近的同系群體,可以指涉種、亞種或者種以上位階。

達爾文核心集紀錄

欄位名稱 填寫指示
taxonID(分類群識別碼) 必填
scientificName(學名) 必填
taxonRank(分類階層) 必填
kingdom(界) 強烈建議填寫
parentNameUsageID(母學名用法編號) 強烈建議填寫
acceptedNameUsageID(有效名用法編號) 強烈建議填寫
vernacularName(普通名) 有則分享

資料集詮釋資料(EML)

欄位名稱 填寫指示
title(資料集名稱) 必填
description(描述) 必填
publisher(發布組織) 必填
type(資料類型) 必填
license(資料使用授權) 必填
contact(聯絡資訊) 必填
creator(創建者) 必填
metadataProvider(詮釋資料提供者) 必填
citation(引用條目) 強烈建議填寫

注意:若一資料集為 GBIF 下的計畫所資助(例如:BID, BIFA, CESP),則必須額外填寫以下兩個欄位

projectID(計畫編號) 必填
projectTitle(計畫名稱) 必填

填寫指示說明

必填

下方所列為正式發表名錄資料集必須之最少欄位項目。 GBIF.org 不會接受缺少這些欄位元素的資料集,也不會為其中的紀錄製作索引。 雖然這些欄位是發布資料必備,但這僅只是開始而已。 除非再提供更多額外欄位資料,僅滿足必填欄位的發布資料仍會有很多使用上的限制。

強烈建議填寫

除了必填的資料元素以外,我們也強烈建議完成一些欄位以協助改善資料集的用處。理由是

  • 有些資訊會協助匯集到全球的資料來源並避免模稜兩可的情況,例如將可能被用在超過一個物種的學名(即異物同名)放在骨幹分類架構中正確的位置。
  • 越精確的地理位置資訊(經緯度)越可以有效地增加資料被其他案例廣泛使用的可能性。
  • 資料元素的額外修飾子(例如經緯度相對於地點),在資料元素外進一步支援資料解讀,讓使用者能更容易地評估資料集的可用性。
  • 一些額外的資訊可以支援資料品質控管以及錯誤偵測(例如,若兩者同時提供的話,國碼可用來驗證經緯度)。
  • 列在最後但一樣重要的是,資料集的公開資訊範圍越豐富,就越有可能用在更多的地方,這也表示該資料集會將能得到更廣泛的取得和使用,當然也就會有更多的引用。

有則分享

若有更多額外的資料,請考慮盡量分享這些資訊,以提高發表資料的可用性。

詞彙(欄位元素)

taxonID 分類群識別碼
達爾文核心集資料元素,在名錄資料集為必填
此欄位為一分類群獨一無二的識別碼,可讓同一個分類群在不同的資料集版本以及透過下載和使用的資料中辨認出來(參閱達爾文核心集詞彙:快速參考指南)。

理想上,物種識別碼為一個全球獨一無二的識別碼;最低的要求則是在發布的資料集本身其有唯一性。 如此隨著修訂每次針對資料集製作索引時才可以追蹤所包含的分類群資訊;它可以連結其他額外的訊息,如影像及出現紀錄;並且使人可以引用紀錄,例如,資料使用報告或學術發表。 這代表物種識別碼需要可靠地連結來源的分類群內容,並且總是在同一個發布的資料集及其來源資料中指向同一組分類群資訊。

scientificName 學名
達爾文核心集資料元素,在名錄資料集為必填
此欄位為一完整的學名,包含其作者及發表年代。 在名錄中,學名為準備整理及發表分類群列表或階層的核心資料元素(參閱達爾文核心集詞彙:快速參考指南)。
依照名錄的需求,學名可以是任何分類階層,通常會是種級或是種級以下,例如地區性的植物相或動物相名錄、紅皮書,亦或者是海洋生物或是特定物種群的分類修訂。 若要發布一個包含階層資訊的名錄(分類的樹狀結構),可以在資料集中加入一些相對高階的分類群紀錄(例如界、綱、科),再藉由母學名用法編號(parentNameUsageID)欄位連結成一階層架構(見下方說明),以清楚表達名錄紀錄間的關係。
有效的學名為遵從個別分類群制定之語法規則的拉丁名稱(例如:植物命名法規)。 不可以使用臨時名稱(像是 Mallomonas sp.4)、普通名(例如 fruit fly)或是含有鑑定狀態的名稱(例如 Anemone cf. nemorosa)。 如要使用普通名(俗名)則只能當成學名的補充,可以使用普通名(VernacularName)的相關欄位(見下方說明)。

taxonRank
Darwin Core dataset element, REQUIRED for checklist datasets
The taxonomic rank of the supplied scientific name (see Darwin Core Terms: A quick reference guide).
The taxon rank supports the interpretation of the scientific name during indexing, and supports matching the checklist records to the core taxonomy, especially in the case of names at genus level or above (monomials). 雖然有些高階分類群的學名已經指出分類階層,但這在群體間甚至群體內部不一定一致,故無法(由索引程序)用來解讀。 為使學名可以正確地歸位,在高階分類資訊中明確指出其分類階層實為必要。 實務上,分類階層必須依循林奈系統的(主要)層級:kingdom(界)、phylum(門)、class(綱)、order(目)、family(科)、genus(屬)、speciea(種)。 此處使用拉丁文或英文的用法均可。

kingdom
Darwin Core dataset element, STRONGLY RECOMMENDED for checklist datasets
The full scientific name specifying the kingdom that the scientific name is classified under (see Darwin Core Terms: A quick reference guide) and other higher taxonomy, if possible.
With scientific names, there are numerous cases where the matching of a given name against the core taxonomy is unsure or ambiguous. 例如,異物同名(是不同的類群中不一樣的生物,有完全一樣的學名)、有些剛描述的學名尚未列在現有的分類樹中,或是拼法的變異(錯字或斷字因素等)。 為了能正確對應到 GBIF 系統的核心分類學骨幹,加入更高階層的學名可以協助解讀並防止錯誤。 For datasets where the hierarchical representation in the published data is not important, higher level names can be supplied as part of the record itself by adding the relevant DarwinCore fields, similar to occurrence datasets.

Names should be scientific (latin) names at major Linnean ranks, like "Animalia" (kingdom) or "Rosaceae" (family). 不可以是:俗名(animals),縮寫(Rosac.),中間階層(Tetrapoda,超綱),多系群或是非分類學的分群(algae,藻類、herbivora,草食性動物)。

parentNameUsageID 母學名用法編號
達爾文核心集資料元素,在名錄資料集為強烈建議填寫
在名錄資料集紀錄中,某分類群下一個高階學名紀錄(母紀錄)的物種識別碼(taxonID),前提為此高階分類群學名在列表中為單獨的紀錄。 參閱 https://dwc.tdwg.org/list/#dwc_parentNameUsageID
這個編號可支援資料集內容以階層的樣式呈現,例如分類學成果的出版。

acceptedNameUsageID 有效名用法編號
達爾文核心集資料元素,在名錄資料集為強烈建議填寫
假使名錄資料集中提供有效名及異名,則異名(synonym)的有效名用法編號,應為名錄中有效名的分類群識別碼(taxonID)。 See http://rs.tdwg.org/dwc/terms/acceptedNameUsageID
This supports the representation of synonymy for a taxonomic dataset.

vernacularName 普通名
達爾文核心集資料元素,在名錄資料集為有則分享
請參照 http://rs.gbif.org/extension/gbif/1.0/vernacularname.xml 。 提供時,也請至少參照 ISO 639-1 語言編碼提供普通名的語言編碼。

title 資料集名稱
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
資料集的標題,亦是發布在 gbif.org 網站上的資料集名稱。 E.g. 例如「Four new generic and 14 new specific synonymies in Pholcidae, and transfer of Pholcoides Roewer to Filistatidae (Araneae)」。 不建議:像是「Araneae (Part 1) part」的標題。 此標題將會是使用資料時,資料集引用條目的一部分。

description 描述
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
一段以英文描述資料集內容的文字。
可以是較長版本的標題,敘明名錄之地理區、時間及分類範疇、研究方法及編撰目的(例如紅皮書、入侵種、淡水物種、地區性植物相)、相關的參考文獻以及任何符合資料集特性的其他資訊。 A second version of the description in another language than English may be added underneath.

publisher 發布組織
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
研究機構或組織的名稱,在 gbif.org 中將被列為資料發布者。 The title given should be the official title of the organization as registered with relevant authorities, listed on websites, and, if applicable, as stated in the project contract.

type 資料集類別
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
資料集的類別。 Here: "checklist".
The record type describes the main focus of all records contained in the dataset (core records). For a checklist dataset, the record type will always be "checklist". 它也有可能連結至物種出現紀錄(例如,分類修訂的證據標本,或紀錄一個地區植物相的標本館紀錄)。 The structure and requirements for this linked information follows the guidelines given for occurrence data publication.

license 資料使用授權
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
發布的資料集所附上一機器可讀的權利聲明。 使用 CC0 或 CC BY。
注意:所有由 BIDBIFA 計畫資助的資料集均需使用創用授權(Creative Commons)CC0 公眾領域貢獻宣告CC BY 姓名標示授權發表。 Datasets without a valid license statement will not be accepted for publication. 機器可讀的授權讓資料可以自動過濾,為使用者提供資料記錄使用範圍的明確指引,從而促進資料的使用和引用。

contact 聯絡資訊
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
此資料集至少一位行政人員的聯絡資料(最少有名字與電子郵件)。 This information is required to ensure the possibility of communication about the dataset. The administrative contact is the person/role to be consulted about content, quality, and rights questions concerning the dataset, both by users and by central services (GBIFS). 如果無法提供個人的連絡資訊,也可以提供一個功能性角色名稱(例如:典藏管理員)及電子郵件(例如:[email protected])。 It is necessary, though, that responsibilities for handling incoming communication are clearly defined and followed internally.

creator 創建者
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
此資料集創建者(們)的聯絡資料(至少有名字與電子郵件)。

metadataProvider
Dataset metadata EML, REQUIRED for checklist datasets
Contact data (minimum: name and email) for the author(s) of the dataset metadata (see metadataProvider).

citation 引用條目
生態詮釋資料語言(EML)資料元素,在名錄資料集為強烈建議填寫
指出您資料集的使用者應如何在發表中引用您資料的一段文字。 This text will be displayed on the dataset page, and it will be supplied to data users together with downloads that contain any contribution from your dataset. If no text is specified, GBIF will automatically supply a standard format citation that includes the dataset name and the name of the publishing institution, together with the date of the download and a reference to gbif.org.

projectID 計畫編號
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
一個計畫衍生資料集獨一無二的識別碼。
紀錄形式為 GUID 或是幾乎全球唯一的識別碼。
若資料集是由 GBIF 管理的計畫所資助,此欄位為必填。 計畫編碼列在受資助的合約文件,例如「BID-AF2016-0001-REG」。 In this case, the projectID is the ID of the funded project as listed in the contract document, e.g. "BID-AF2016-0001-REG".

metadataProvider 詮釋資料提供者
生態詮釋資料語言(EML)資料元素,在名錄資料集為必填
資料集詮釋資料作者(們)的聯絡資料(至少有名字與電子郵件)。