-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
元數據可分為哪三類
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于元數據可分為哪三類的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端
創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、DC 元數據在成果地質資料編目中的應用
李 磊 李效廣 張良軍 鄭錦娜 王心華
(天津地質調查中心)
摘 要 本文主要研究了 DC 元數據和成果地質資料編目之間的映射關系,探討了如何在此基礎上基于 XML schema 技術對生成的地質資料核心元數據進行建模,并利用其來構建分布式共享平臺體系。
關鍵詞 DC Dublin Core XML schema OAI 地質資料 編目
0 引言
成果地質資料是指各類地質工作或專題研究項目完成時,按相應技術規(guī)范的規(guī)定和原項目設計要求,以文字、圖、表等形式提供的一整套科技文件材料。我國地質資料館成果地質資料案卷級目錄庫多采用國土資源部頒布的《地質資料電子目錄著錄格式規(guī)定(試行)》或中國地質調查局發(fā)展研究中心制訂的規(guī)則標準而建,文件級編目采用《原始地質資料清理數據庫》系統(tǒng)標準。以這些標準完成的編目,在實現資料檢索、傳播、共享、服務、利用方面一直起著非常重要作用。然而,此類編目與地學數據庫元數據抑或其他文獻編目平臺無法實現交換。事實上,成果地質資料作為一種地質專業(yè)文獻,具有文獻的共性,與其他文獻目錄庫互為交換是必要的,特別是與地學信息元數據實現共享是必要的。
元數據是關于數據的數據,是關于信息資源的形式、主要內容、存放位置等信息的綜合。目前,元數據技術研究已經深入到各個領域,有專業(yè)領域的元數據,如關于地理空間數據的數字地理空間元數據、圖書館文獻館藏資源的機讀目錄。也有適用范圍廣泛的元數據,如都柏林核心元數據。筆者經過對比各種元數據,認為成果地質資料作為地質信息資源的重要載體,雖然有空間信息,但是其結構和內容并不符合空間數據的標準。成果地質資料作為一類文獻資源,雖然可以以機讀目錄編目,然而機讀目錄由于其字段復雜,對錄入人員專業(yè)要求較高,適用類型狹窄,故考慮到與其他類型資源的交換問題,其并不適于作為通用的元數據標準。而都柏林核心元數據(Dublin Core,DC)簡單易用,其最初是為描述網絡資源,現已發(fā)展成可以描述任何信息資源的元數據標準,應用范圍廣泛,便于組織與數據交換,可以提高檢索數據的準確性。
筆者通過研究認為,利用都柏林核心元數據(DC 元數據)編目成果地質資料,可很好地解決異地多源數據共享的問題,會更有利于促進成果地質資料社會化服務。
1 成果地質資料編目與 DC 元數據的映射
1.1 成果地質資料編目
成果地質資料是指物理上的一套地質資料,除了其具有檔案的基本編目信息外,還有具體的文件級資料內容信息。根據其內容形式的不同,成果地質資料文件由 8 類資源組成:正文、審批、附圖、附表、附件、數據庫和軟件、多媒體和其他。這些資源信息全部以表的形式存儲在成果資料目錄數據庫中[1]。
以原始地質資料清理數據庫為例,成果地質資料案卷級編目主要字段包括館藏機構編號、館藏機構名稱、資料編號、資料名稱、資料類別、資料類型、語種、編寫報告單位、編著者、形成(提交)時間、工作程度、密級、關鍵詞、關鍵詞(礦產)、地理坐標、行政區(qū)劃、內容提要、工作時段,共計 18 個字段;文件級編目的所有 8 類資源的共有字段包括:資料編號和資料名稱,其中審批需要增加審批機構和審批日期,附圖則需要增加比例尺。
1.2 DC 元數據字段
都柏林核心元數據產生于 1995 年,經過 10 年不斷擴展和完善,形成了 15 個基本核心元素,通過限定詞對元素進行細化和修飾的元數據方案,用于描述越來越豐富的網絡信息。DC 元素依據其所描述內容的類別和范圍,可分為三組[2]:①資源內容描述類元數據項 7 個:分別為 Title、Subject、Description、Language、Source、Relation、Coverage;②知識產權描述類元數據項 4 個:Creator、Publisher、Contributor、Rights;③外部屬性描述類。元數據項 4 個:Date、Type、Format、Identifier。具體字段的定義參見表 1。
DC 限定詞是對 15 個元素的語義進行限定和修飾的詞。它的制訂遵循著名的向下兼容原則,即修飾詞的語義包含于未修飾詞中,在范圍上對未修飾詞的語義進行限定,在深度上對未修飾詞的語義進行延伸[3]。
1.3 映射關系
筆者通過對比研究,認為:
(1)案卷級編目字段除了Format(格式)外,其余14個基本元素皆可與DC核心元素建立起對應關系。在覆蓋范圍(Coverage)元素中,由于地質資料兼具時間特征與空間特征,故采用限定詞spatial(空間范圍)和 temporal(時間范圍)對覆蓋范圍進行描述;此外,由于成果地質資料部分元素具有行業(yè)特殊性,需要增加三個自定義字段作為補充,分別為Districts(行政區(qū)劃)、DataCategory(資料類別)和WorkingDegree(工作程度)。而Relation(關聯)與Contributor(其他責任者)在成果資料目錄庫中無對應字段,需要單獨填寫。其中Relation(關聯)填寫的內容為成果地質資料所含的所有文件級內容的唯一標識碼,關系為部分為(HasPart),即所描述的案卷級資源在物理或邏輯上包含被參照文件級資源,Contributor(其他責任者)填寫數據庫錄入人員姓名。
(2)文件級的各類資源中,由于各自屬性內容有所差別,最終分為三類資源:第一類資源為正文、附表、附件、數據庫和軟件、多媒體和其他這六類文件級資源,均與 DC 核心元素建立起 4 個對應關系,其中 Format(格式)和 Relation(關聯)這兩個元素在庫中無對應字段。需要說明的是:這里 Format(格式)填寫的是地質資料的媒體類型和資源大小。在這六類資源中,數據庫和軟件、多媒體資源只有源電子文件[1],其余均有源電子文件和存檔電子文件。Relation(關聯)填寫的是文件級資料所對應案卷級資料的唯一標識碼,關系為部分于(is part of)。第二類資源為審批資源,其在第一類資源的基礎上增加了Creator(創(chuàng)建者)和 Date(日期)兩個元素來表示審批機構和審批日期。第三類資源為附圖資源,其在第一類資源的基礎上增加了自定義字段比例尺(Scale)。
通過將 DC 字段的定義和原始地質資料清理數據庫中的字段定義進行比對,最終得出了 DC 元數據與該數據庫字段的映射關系,案卷級編目對應關系如表 1 所示,文件級編目對應關系如表 2、3、4 所示,由此確定了成果地質資料核心元數據的元素集。在該核心元素集中,如果映射關系成立,則沿用 DC 元數據的元素名稱,若未找到對應關系,則采用自定義元素名稱。
表 1 DC 元數據與成果地質資料案卷級編目映射關系表
續(xù)表
表 2 DC 元數據與成果地質資料文件級正文、附表、附件、數據庫和軟件、多媒體和其他資源編目的映射關系表
表 3 DC 元數據與成果資料文件級審批資源編目的映射關系表
表 4 DC 元數據與成果資料文件級附圖資源編目的映射關系表
2 實現方法
XML(Extensible Makeup Language)是一種結構化與半結構化數據的標志語言,由互聯網聯合組織(W3C)所開發(fā)和創(chuàng)建,其目的不僅在于滿足不斷增長的網絡應用需求,更是為了確保在通過網絡進行交互合作時,具有良好的可靠性和互操作性,XML 作為一種獨立于系統(tǒng)的表達數據信息的標記語言,更適合于元數據在網絡系統(tǒng)中進行數據交換。
XML Schema 是采用 XML 語法描述,提供描述和控制 XML 文檔的一種規(guī)范。用于定義 XML 文檔中使用的元素、屬性和數據類型,簡單地講,就是利用一個通用模式,生成具有不同數據但相同結構的XML 數據文檔。Schema 與 XML 文檔的關系,相當于類和對象之間的關系。有了 XML Schema,XML 文檔的寫法就有了限制,利用 XML Schema 對成果地質資料核心元數據進行建模生成的 XML 元數據,可以便于資源在網絡系統(tǒng)中進行數據管理,從而更好地實現傳輸。
具體實現過程中可以使用 altova 公司的 XML spy 工具完成成果地質資料核心元數據的建模,生成HTML 或者 Word 形式的 XML schema 文檔?;诮N臋n,開發(fā)人員可以依托相關 xml 技術,比如apache 公司的 XMLBeans[4],實現查詢成果資料目錄數據庫中的對應數據,通過 Schema 來修飾生成需要的 XML 文檔,整個過程皆可以用代碼實現,無需多次錄入數據。最終將生成的 XML 元數據文檔以 XML混合數據庫(hybird database)形式存儲。經過對比研究,作者認為基于 XML schema 技術可很好地實現成果地質資料核心元數據表達。
3 實例
以下是基于 xml 來描述的一條地質資料案卷級目錄元數據:
第八屆全國地質檔案資料學術研討會文集
“內蒙古阿拉善地區(qū)礦產資源潛力評價綜合研究”項目是中國地質調查局 1999 年 10 月下達的地質調查綜合研究項目(任務書編號:0499201021;項目編號:K1.1.4.4;科研項目編號:DK9902033)。在前人工作基礎上,該項目以板塊構造、邊緣成礦和成礦系統(tǒng)理論為指導,緊緊圍繞本區(qū)礦產資源評價工作的部署,以野外地質調查為基礎,從本區(qū)實際出發(fā),重點開展了工作區(qū)已知礦點和重要物化探異常區(qū)的野外地質調查;開展了區(qū)域地球化學背景、層控型朱拉扎嘎式金礦、火山巖型銅金礦和與花崗巖有關的金礦床等的研究工作,進一步厘定了各類礦床的成礦地質條件和控礦因素,明確了找礦標志,歸納了區(qū)域成礦規(guī)律,篩選了物化遙異常,并在此基礎上圈定了找礦有利的預測區(qū),編制了阿拉善地區(qū) 1∶50萬區(qū)域成礦預測圖,提出了下一步工作部署建議。
第八屆全國地質檔案資料學術研討會文集
第八屆全國地質檔案資料學術研討會文集
4 成果地質資料數據共享技術探討
基于網絡的成果地質資料數據共享,主要存在兩個問題:首先,成果地質資料分布比較分散,服務方式不盡相同;其次,用戶是分布的,其背景、教育程度、熟練程度等相差很大。因此必須研究一種合適的分布式數據的共享體系來整合這些分散的數據資源,為互聯網用戶提供統(tǒng)一的數據共享服務[5]。
作者經過比較國內外常用的分布式共享平臺體系,認為 OAI(open archives initiative)數據資源整合模式比較適合成果地質資料數據共享。OAI 對外提供了開放文檔元數據采集協(xié)議(OAIMH)。它最主要的目標就是通過元數據采集模式來實現網絡上發(fā)布信息的不同組織之間的互操作,為其提供一個與應用無關的元數據互操作框架。OAIMH 基于 HTTP 協(xié)議,返回的數據采用 XML 格式,所有的存儲必須為自己的資源產生 Dublin Core 的元數據以供交換,由此來實現各個節(jié)點之間的網絡互操作。數據生產者無需完全開放自己的本地資源,只需共享元數據,這樣既不用改變本地存儲數據的軟件結構,又能輕松實現聯合檢索和數據共享。不失為一種經濟的互操作模式,故將成果地質資料目錄轉換為 DC 元數據能在更大范圍內與其他科學數據實現共享交換。由于篇幅限制,對共享平臺如何實現不做進一步的論述。
5 結論
用 DC 標準來設計成果地質資料核心元數據完全可行,基于 XML schema 技術可以實現建模,最終生成 XML 元數據文檔。最終在基于 OAI 協(xié)議的數據資源整合模式下構建分布式共享平臺,交換生成的地質資料核心元數據,將能更好地實現成果地質資料的共享與服務,進而能最大限度地發(fā)揮地質資料信息的潛在價值,服務整個社會。
參 考 文 獻
[1] 李效廣等 . 機讀目錄在成果地質資料管理中的應用前瞻 . 中國地質學會第二屆學術研討會論文集,[C]. 2010
[2] 劉芳,朱沙 . 數字圖書館中基于 XML_RDF 的 DC 元數據描述體系 [J]. 大學圖書情報學刊,2005
[3] 盛劍鋒 . 電子期刊 MARC 與 DC 編目數據比較 . 圖書館論壇 [J],2008,(2):104 ~ 107
[4] 楊典華,楊志剛 . 基于 XML 和 DC 元數據標準研究教育資源的元數據及其數據傳播 . 現代教育技術 [J],2006,(16):57 ~ 67
[5] 諸云強 . 地球系統(tǒng)科學數據共享關鍵技術研究 M. 北京:科學出版社, 2009:36 ~ 57
二、Ceph RGW:數據的存儲及尋址
RGW是一個對象處理網關。數據實際存儲在ceph集群中。利用librados的接口,與ceph集群通信。RGW主要存儲三類數據:元數據(metadata)、索引數據(bucket index)、數據(data)。這三類數據一般存儲在不同的pool中,元數據也分多種元數據,存在不同的ceph pool中。
1、 Metadata
元數據信息包括:user,bucket,以及bucket.instance。其中:
user: 主要是對象存儲的用戶信息
bucket:主要維護bucket name與bucket instance id之間的映射信息
bucket.instance:維護了bucket instance信息
查看user的元數據如下:
radosgw-admin metadata list user:
radosgw-admin metadata get user:testid:
radosgw-admin metadata list bucket:
radosgw-admin metadata get bucket:first:
radosgw-admin metadata list bucket.instance:
radosgw-admin metadata get bucket.instance:first:{bucket_id}
2、Bucket Index
bucket index主要維護的是一個bucket中object的索引信息。一個bucket對應一個或多個rados object(開啟bucket shards下)。維護的是一個key-val的map結構,map存放在object的omap(rocksdb)中,key對應的rgw object,val是關于rgw object的一些元數據信息,檢索bucket的存放的object時,需要這些信息。omap也包含一個Header,其存放的是bucket account info,如此bucket中Object的個數,總的size等。
3、Data
rgw object內容,存放在一個或多個rados object中。rados object分為header和tail部分,header最多可以容納512KB的數據,如果一個rgw object的大小小于512KB,那么只有header。否則剩余的數據會按照集群rados object的大小條帶化分割成多個rados object。
在Pool: {zone}.rgw.meta利用namespace隔離多個存儲空間:
對于Pool: {zone}.rgw.log也包含多個namespace:
當檢索對象存儲中的一個object時,會包含三個要素:user,bucket,object。user主要是RGW用于獲取user id驗證ACL;bucket及obejct用于確定object在pool中的位置。
User
user數據存儲在 {zone}.rgw.meta:users.uid 中,如下:
包含兩部分: ups3: user本身信息; ups3.buckets: 用戶所屬的bucket。
ups3: 用戶的基本信息,及ACL/Bucekt Quota/User Quota等;對應struct RGWUserInfo, 定義于rgw_common.h。
ups3.buckets:用戶所屬的Buckets,key-value結構,存放于omap結構中;對應struct cls_user_bucket_entry,定義于rgw_common.h,數據操作如下:
通過{uid}.buckets查到用戶具有哪些buckets,并且這些bucket以下基本數據。
Bucket
Bucket信息存在在 {zone}.rgw.meta:root 中,如下:
first: 記錄了bucket與bucket_instance_id的對應關系,其對應于數據結構:struct RGWBucketEntryPoint
.bucket.meta.first:1c60b268-0a5d-4718-ad02-e4b5bce824bf.44166.4: bucket instance;尋址方式:.bucket.meta.{tenant}:{bucket.name}:{bucket_id};對應結構體:struct RGWBucketInfo。
其中Bucket ACL及IAM Policy存放在bucket instance object的attr中。如下:
獲取Bucket ACL及IAM Policy數據如下:
Object
Bucket Index: Bucket中包含的Object信息,都存放在一個或多個Object的 omap 中。此omap為一個key-value結構,key為object的名稱,value對應 struct rgw_bucket_dir_entry : cls_rgw_types.h 。
Bucket Index Object:
如下:
在此bucket下,有一個object: ntp.conf:
檢索value:
omap header記錄了以下統(tǒng)計信息:
對象存儲object的數據存放在pool: {zone}.rgw.buckets.data 中。object的構成及尋址分為以下兩類:
一個RGW Object可以由一個或多個rados object構成。其中第一個 object 是此RGW 的 head 對象,主要包含一些元數據信息,如 manifest, ACLs, content type, ETag, and user-defined metadata 。這些metadata存放在此head 對象的xattr中。其中 manifest 描述了此rgw object在分布情況。同時,此head對象,最多可額外容納 4MB 數據,如果RGW Object大小下于 4MB ,那么此 RGW Object就不會分片,只有此 head 對象。
如下檢索:
目前bucket下有一個 ntp.conf , <4MB 。檢索其 manifest :
如上:
max_head_size: 表示head對象最大size;
head_size: 表示當前head 對象size;
prefix: 用于在rados中分片object的尋址。
RGW OBject ACL:
上傳一個 >4MB 的 RGW Object,檢索其 manifest 信息:
Manifest信息:
根據 manifest 檢索對象:
對于一個大的RGW Object,會被切割成多個獨立的RGW Object上傳,稱為multipart。multipar的優(yōu)勢是斷點續(xù)傳。s3接口默認切割大小為15MB。
在此,上傳一個60MB大小的Object。
分成了四個部分上傳,查看rados對象:
包含了三類對象, head,multipart,shadow 。
multipart 下的 manifest :
所有的object的檢索是根據上述manifest信息構建object index:
在上以上的信息中,此RGW Object大小為48128000字節(jié),分為4段,三段15MB,最后一段為920KB。同時每段存儲在rados集群中的條帶化大小為4MB。因此15MB大小的分段,也分為4個rados object,一個multipart首部,及3個shadow分片。920KB大小的分段只有一個multipart首部。
.rgw.root :
包含的都是zone,zonegroup,realm等信息
三、3、元數據信息采用哪兩個文件進行保存?
(1)規(guī)則庫
規(guī)則是數據質量檢查的具體標準,主要包括大數據的約束規(guī)則、合理性規(guī)則和檢查規(guī)則等。規(guī)則分為三類:約束規(guī)則、計算規(guī)則和條件規(guī)則。
約束規(guī)則描述了一種必須為真或假的強制規(guī)則。這種約束可以是結構化約束,也可以是行為約束。
➢ 結構化約束:當創(chuàng)建術語或者改變術語之間的關系時,結構化約束能夠保證術語的完整性。
➢ 行為約束:典型地被定義為“前置條件”和“后置條件”。只有在符合“前置條件”的情況下,操作才能夠正確地執(zhí)行;“后置條件”保證了操作結果的正確性,“后置條件”表示該行為是否滿足了其預期的結果。例如,客戶在開戶時余額為0,在能夠使用移動業(yè)務之前,必須先充值,這里的前置條件就是必須先充值,而后置條件是指所辦理的業(yè)務是否成功辦理。
(2)算法庫
算法庫主要是指支撐上述規(guī)則所需要的基本算法的集合,這些算法結合具體的規(guī)則由數據質量檢查相關功能調用。
3)度量信息
度量信息是數據質量檢查的基本依據,它反映了數據質量的衡量標準,也是元數據管理模塊技術元數據的一個重要組成部分。
度量信息是經驗的積累,需要在數據質量不斷建設的過程中逐步精確化。隨著衡量標準的不斷細化和精確,大數據系統(tǒng)的數據質量也會不斷提高。
四、數據庫和元數據的關系是什么,怎樣來區(qū)分它倆?
元數據,就是表示數據的數據,只要不是我們存儲到數據庫里的數據,大多都可以理解為元數據。描述數據庫的任何數據—作為數據庫內容的對立面—是元數據。因此,列名、數據庫名、用戶名、版本名以及從SHOW語句得到的結果中的大部分字符串是元數據。數據庫就是存放數據的倉庫。
以上就是關于元數據可分為哪三類相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀:
北京市作家協(xié)會主席(北京市作家協(xié)會會員名單)