更新時間:2020-12-29 來源:黑馬程序員 瀏覽量:
在編寫XML文檔時,需要掌握XML語法。同理,在編寫DTD文檔時,也需要遵循一定的語法。DTD的結(jié)構(gòu)一般由元素類型定義、屬性定義、實體定義、記號(notation)定義等構(gòu)成,一個典型的文檔類型定義會把將來要創(chuàng)建的XML文檔的元素結(jié)構(gòu)、屬性類型、實體引用等預(yù)先進行定義。接下來,針對DTD結(jié)構(gòu)中所涉及到的語法進行詳細講解。
一、元素定義
元素是XML文檔的基本組成部分,在DTD定義中,每一條<!ELEMENT…>語句用于定義一個元素,其基本的語法格式如下所示:
<!ELEMENT 元素名稱 元素內(nèi)容>
在上面元素的定義格式中,包含了“元素名稱”和“元素內(nèi)容”。其中,“元素名稱”是自定義的名稱,它用于定義被約束XML文檔中的元素,“元素內(nèi)容”是對元素包含內(nèi)容的聲明,包括數(shù)據(jù)類型和符號二部分,它共有五種內(nèi)容形式,具體如下:
(1)#PCDATA:表示元素中嵌套的內(nèi)容是普通文本字符串,其中,關(guān)鍵字PCDATA是Parsed Character Data的簡寫。例如<!ELEMENT 書名 (#PCDATA)>表示書名所嵌套的內(nèi)容是字符串類型。
(2)子元素:說明元素包含的元素。通常用一對圓括號()將元素中要嵌套的一組子元素括起來,例如,<!ELEMENT 書 (書名,作者,售價)>表示元素書中要嵌套書名、作者、售價等子元素。
(3)混合內(nèi)容:表示元素既可以包含字符數(shù)據(jù),也可以包含子元素?;旌蟽?nèi)容必須被定義零個或多個,例如,<!ELEMENT 書 (#PCDATA|書名)*>表示書中嵌套的子元素書名包含零個或多個,并且書名是字符串文本格式。
(4)EMPTY:表示該元素既不包含字符數(shù)據(jù),也不包含子元素,是一個空元素。如果在文檔中元素本身已經(jīng)表明了明確的含義,就可以在DTD中用關(guān)鍵字EMPTY表明空元素。例如,<!ELEMENT br EMPTY>,
其中br是一個沒有內(nèi)容的空元素。
(5)ANY:表示該元素可以包含任何的字符數(shù)據(jù)和子元素。例如,<!ELEMENT 聯(lián)系人 ANY>表示聯(lián)系人可以包含任何形式的內(nèi)容。但在實際開發(fā)中,應(yīng)該盡量避免使用ANY,因為除了根元素外,其它使用ANY的元素都將失去DTD對XML文檔的約束效果。
需要注意的是,在定義元素時,元素內(nèi)容中可以包含一些符號,不同的符號具有不同的作用,接下來,針對一些常見的符號進行講解,具體如下:
● 問號[?]:表示該對象可以出現(xiàn)0次或1次。
●星號[*]:表示該對象可以出現(xiàn)0次或多次。
●加號[+]:表示該對象可以出現(xiàn)1次或多次。
● 豎線[|]:表示列出的對象中選擇1個。
●逗號[,]:表示對象必須按照指定的順序出現(xiàn)。
● 括號[()]:用于給元素進行分組。
二、屬性定義
在DTD文檔中,定義元素的同時,還可以為元素定義屬性。DTD屬性定義的基本語法格式如下所示:
<!ATTLIST 元素名 屬性名1 屬性類型 設(shè)置說明 屬性名1 屬性類型 設(shè)置說明 ...... >
在上面屬性定義的語法格式中,“元素名”是屬性所屬元素的名字,“屬性名”是屬性的名稱,“屬性類型”則是用來指定該屬性是屬于哪種類型,“設(shè)置說明”用來說明該屬性是否必須出現(xiàn)。關(guān)于“屬性類型”和“設(shè)置說明”的相關(guān)講解,具體如下:
1、設(shè)置說明
定義元素的屬性時,有四種設(shè)置說明可以選擇,具體如下:
1)#REQUIRED
表示元素的該屬性是必須的,例如,當(dāng)定義聯(lián)系人信息的DTD時,我們希望每一個聯(lián)系人都有一個聯(lián)系電話屬性,這時,可以在屬性聲明時,使用REQUIRED。
2)#IMPLIED
表示元素可以包含該屬性,也可以不包含該屬性。比如,當(dāng)定義一本書的信息時,發(fā)現(xiàn)書的頁數(shù)屬性對讀者無關(guān)緊要,這時,在屬性聲明時,可以使用IMPLIED。
3)#FIXED
表示一個固定的屬性默認值,在XML文檔中不能將該屬性設(shè)置為其它值。使用#FIXED關(guān)鍵字時,還需要為該屬性提供一個默認值。當(dāng)XML文檔中沒有定義該屬性時,其值將被自動設(shè)置為DTD中定義的默認值。
4)默認值
和FIXED一樣,如果元素不包含該屬性,該屬性將被自動設(shè)置為DTD中定義的默認值。不同的是,該屬性的值是可以改變的,如果XML文件中設(shè)置了該屬性,新的屬性值會覆蓋DTD中定義的默認值。
2、屬性類型
在DTD中定義元素的屬性時,有十種屬性類型可以選擇,具體如下:
1) CDATA
這是最常用的一種屬性類型,表明屬性類型是字符數(shù)據(jù),與元素內(nèi)容說明中的#PCDATA相同。當(dāng)然,在屬性設(shè)置值中出現(xiàn)的特殊字符,也需要使用其轉(zhuǎn)義字符序列來表示,例如,用&表示字符(&),用<表示字符(<)等。
2) Enumerated(枚舉類型)
在聲明屬性時,可以限制屬性的取值只能從一個列表中選擇,這類屬性屬于Enumerated(枚舉類型)。需要注意的是,在DTD定義中并不會出現(xiàn)關(guān)鍵字Enumerated。接下來通過一個案例來學(xué)習(xí)如何定義Enumerated類型的屬性,如例1所示。
例1 enum.xml
<?xml version="1.0" encoding="GB2312" standalone="yes"> <!DOCTYPE 購物籃 [ <!ELEMENT 購物籃 ANY> <!ELEMENT 肉 EMPTY> <!ATTLIST 肉 品種(雞肉|牛肉|豬肉|魚肉) "雞肉"> ]> <購物籃> <肉 品種="魚肉"/> <肉 品種="牛肉"/> <肉/> </購物籃>
在例1中,“品種”屬性的類型是Enumerated,其值只能為 “雞肉”、“牛肉”“豬肉”和“魚肉”,而不能使用其它值?!捌贩N”屬性的默認值是“雞肉”,所以,即使<購物籃>元素中的第三個子元素沒有顯示定義“品種”這個屬性,但它實際也具有“品種”這個屬性,且屬性的取值為“雞肉”。
3)ID
一個ID類型的屬性用于唯一標識XML文檔中的一個元素。其屬性值必須遵守XML名稱定義的規(guī)則。一個元素只能有一個ID類型的屬性,而且ID類型的屬性必須設(shè)置為#IMPLIED或#REQUIRED。因為ID類型屬性的每一個取值都是用來標識一個特定的元素,所以,為ID類型的屬性提供默認值,特別是固定的默認值是毫無意義的。接下來通過一個案例來學(xué)習(xí)如何定義一個ID類型的屬性,如例2所示。
例2 id.xml
<?xml version="1.0" encoding="GB2312" standalone="yes" ?> <!DOCTYPE 聯(lián)系人列表[ <!ELEMENT 聯(lián)系人列表 ANY> <!ELEMENT 聯(lián)系人 (姓名,EMAIL)> <!ELEMENT 姓名 (#PCDATA)> <!ELEMENT EMAIL (#PCDATA)> <!ATTLIST 聯(lián)系人 編號 ID #REQUIRED> ]> <聯(lián)系人列表> <聯(lián)系人 編號="1"> <姓名>張三</姓名> <EMAIL>zhang@itcast.cn</EMAIL> </聯(lián)系人> <聯(lián)系人 編號="2"> <姓名>李四</姓名> <EMAIL>li@itcast.cn</EMAIL> </聯(lián)系人> </聯(lián)系人列表>
在例2中,將元素為<聯(lián)系人>的編號屬性設(shè)置為#REQUIRED,說明每個聯(lián)系人都有一個編號,同時,屬性編號的類型為ID,說明編號是唯一的。如此一來,通過編號就可以找到唯一對應(yīng)的聯(lián)系人了。
4)IDREF和IDREFS
例2中,雖然張三和李四兩個聯(lián)系人的ID編號是唯一的,但是這兩個ID類型的屬性沒有發(fā)揮作用,這時可以使用IDREF類型,使這兩個聯(lián)系人之間建立一種一對一的關(guān)系。接下來通過一個案例來學(xué)習(xí)IDREF類型的使用,如例3所示。
例3 Idref.xml
<?xml version="1.0" encoding="GB2312" standalone="yes" ?> <!DOCTYPE 聯(lián)系人列表[ <!ELEMENT 聯(lián)系人列表 ANY> <!ELEMENT 聯(lián)系人 (姓名,EMAIL)> <!ELEMENT 姓名 (#PCDATA)> <!ELEMENT EMAIL (#PCDATA)> <!ATTLIST 聯(lián)系人 編號 ID #REQUIRED 上司 IDREF #IMPLIED> ]> <聯(lián)系人列表> <聯(lián)系人 編號="1"> <姓名>張三</姓名> <EMAIL>zhang@itcast.org</EMAIL> </聯(lián)系人> <聯(lián)系人 編號="2" 上司="1"> <姓名>李四</姓名> <EMAIL>li@itcast.org</EMAIL> </聯(lián)系人> </聯(lián)系人列表>
在例3中,為元素<聯(lián)系人列表>的子元素<聯(lián)系人>增加了一個名稱為上司的屬性,并且將該屬性的類型設(shè)置為IDREF,IDREF類型屬性的值必須為一個已經(jīng)存在的ID類型的屬性值。在第二個<聯(lián)系人>元素中,將上司屬性設(shè)置為第一個聯(lián)系人的編號屬性值,如此一來,就形成了兩個聯(lián)系人元素之間的對應(yīng)關(guān)系,即李四的上司為張三。
IDREF類型可以使兩個元素之間建立一對一的關(guān)系,但是,如果兩個元素之間的關(guān)系是一對多,例如,一個學(xué)生去圖書館可以借多本書。這時,需要使用IDREFS類型來指定某個人借閱了哪些書。需要注意的是,IDREFS類型的屬性可以引用多個ID類型的屬性值,這些ID的屬性值需要用空格分隔。接下來通過一個案例來學(xué)習(xí)IDREFS的使用,如例4所示。
例4 Library.xml
<?xml version=”1.0” encoding=”GB2312”?> <!DOCTYPE library[ <!ELEMENT libarary (books,records)> <!ELEMENT books (book+)> <!ELEMENT book (title)> <!ELEMENT title (#PCDATA)> <!ELEMENT records (item+)> <!ELEMENT item (data,person)> <!ELEMENT data (#PCDATA)> <!ELEMENT person EMPTY> <!ATTLIST book bookid ID #REQUIRED> <!ATTLIST person name CDATA #REQUIRED> <!ATTLIST person borrowed IDREFS #REQUIRED> ]> <library> <books> <book> <book bookid="b0101"> <title>Java就業(yè)培訓(xùn)教材</title> </book> <book bookid="b0102"> <title>Java Web開發(fā)內(nèi)幕 </title> </book> <book bookid="b0103"> <title>Java開發(fā)寶典</title> </book> </books> <records> <item> <data>2013-03-13</data> <person name="張三" borrowed="b0101 b0103"/> </item> <item> <data>2013-05-23</data> <person name="李四" borrowed="b0101 b0102 b0103"/> </item> </records> </library>
例4中,將元素<book>中屬性名為bookid的屬性設(shè)置為ID類型,元素<person>中名為borrowed的屬性設(shè)置為IDREFS類型。從Library.xml文檔中可以看出,張三借閱了《Java就業(yè)培訓(xùn)教材》和《Java開發(fā)寶典》這兩本書,而李四則借閱了《Java就業(yè)培訓(xùn)教材》、《Java Web開發(fā)內(nèi)幕》和《Java開發(fā)寶典》這三本書。
5)NMTOKEN和NMTOKENS
NMTOKEN是Name Token的簡寫,它表示由一個或者多個字母、數(shù)字、句點(.)、連字號(-)或下劃線(_)所組成的一個名稱。NMTOKENS關(guān)鍵字表示一種列表類型。一個元素的NMOTOKENS類型的屬性設(shè)置值可以是同一個XML文件中的另外多個NMTOKEN類型的屬性的設(shè)置值,每個NMTOKEN屬性值之間用空格分隔。具體示例如下:
<!ELEMENT 用戶 EMPTY> <!ATTLIST 用戶 姓名 NMTOKEN #REQUIRED> <!ELEMENT 數(shù)據(jù) (#PCDATA)> <!ATTLIST 數(shù)據(jù) 授權(quán)用戶 NMTOKENS #IMPLIED>
在上面的示例中,元素<用戶>的“姓名”屬性指定為NMTOKEN類型,元素<數(shù)據(jù)>的“授權(quán)用戶”屬性指定為NMTOKENS,與這段DTD定義語句對應(yīng)的XML具體如下:
<用戶 姓名="張三">
<用戶 姓名="李四">
<數(shù)據(jù) 授權(quán)用戶="張三 李四">
這里是一些授權(quán)訪問的數(shù)據(jù)
</數(shù)據(jù)>
6)NOTATION
現(xiàn)實世界中存在很多無法或不易用XML格式組織的數(shù)據(jù),例如圖像、聲音、影像等等。對于這些數(shù)據(jù),XML應(yīng)用程序常常并不提供直接的應(yīng)用支持,但可以通過設(shè)置NOTATION類型的屬性來讓一個外部應(yīng)用程序進行處理。在DTD文件中,NOTATION定義語句分為兩種情況,具體如下:
第一種情況:<!NOTATION 符號名 SYSTEM "MIME類型"> 第二種情況:<!NOTATION 符號名 SYSTEM "URL路徑名">
在上述定義語句中,第一種情況指定數(shù)據(jù)的MIME類型,第二種情況指定處理程序的URL路徑。當(dāng)使用NOTATION類型作為屬性的類型時,首先要在DTD中使用<!NOTATION…>語句定義相應(yīng)的notation,接下來通過一個例來演示NOTATION屬性的使用,如例5所示。
例5 notation.xml
<?xml version="1.0" encoding="GB2312" standalone="yes"?> <!DOCTYPE 文件[ <!NOTATION mp SYSTEM "movPlayer.exe"> <!NOTATION gif SYSTEM "Image/gif"> <!ELEMENT 文件ANY> <!ELEMENT 電影 EMPTY> <ELEMENT 電影 演示設(shè)備 NOTATION (mp|gif) #REQUIRED> <文件> <電影 演示設(shè)備=”mp”/> <文件>
在例5中,元素<電影>指定了兩種可選的演示設(shè)備,一種是movPlayer.exe,一種是用來繪制GIF圖像的應(yīng)用程序。
7)ENTITY和ENTITYS
ENTITY對應(yīng)的中文意思為實體(關(guān)于實體定義的細節(jié),將在后面進行介紹)。當(dāng)某個屬性的類型設(shè)置為ENTITY時,表明其屬性值必須為在DTD中使用<!ENTITY …>語句定義的一個實體(entity)的引用。接下來看一段DTD定義的語句,具體如下:
<!ENTITY itcast "傳智播客論壇交流,www.itcast.cn"> <!ELEMENT 電影 EMPTY> <!ATTLIST 電影 來源 ENTITY #REQUIRED>
與這段DTD定義語句對應(yīng)的XML數(shù)據(jù)片斷如下:
<電影 來源="&itcast;" />
需要注意的是,只有引用實體才可以作為ENTITY類型屬性的設(shè)置值,參數(shù)實體不能用作ENTITY類型的屬性的設(shè)置值。關(guān)于參數(shù)實體和引用實體的相關(guān)講解,將在實體定義中進行詳細講解。
ENTITYS關(guān)鍵字用于表示一種列表類型,一個元素的ENTITYS類型的屬性設(shè)置值可以是多個實體的引用,每個實體的引用之間用空格分隔,具體示例如下:
<!ENTITY banner SYSTEM "http://www.itcast.cn/images/topword.gif"> <!ENTITY logo SYSTEM "http://www.itcast.cn/images/logo.gif"> <!ATTLIST image src ENTITIES #REQUIRED>
根據(jù)上面的DTD語句,如果想通過src屬性引用兩幅圖像,則對應(yīng)的XML數(shù)據(jù)如下所示:
<img src="logo banner">
三、實體定義
有時候需要在多個文檔中調(diào)用同樣的內(nèi)容,比如公司名稱,版權(quán)聲明等,為了避免重復(fù)輸入這些內(nèi)容,可以通過<!ENTITY…>語句定義一個表示這些內(nèi)容的實體,然后在各個文檔中引用實體名替代它所表示的內(nèi)容。實體可分為兩種類型,分別是引用實體和參數(shù)實體,接下來,針對這兩種實體類型進行詳細地講解。
1)引用實體
引用實體的語法定義格式有兩種:
(1)<!ENTITY 實體名稱 "實體內(nèi)容"> (2)<!ENTITY 實體名稱 SYSTEM "外部XML文檔的URL">
引用實體用于解決XML文檔中內(nèi)容重復(fù)的問題,其引用方式方法為:
&實體名稱;
了解了引用實體的語法格式及其在XML文檔中的引用方式,接下來通過一個案例來學(xué)習(xí),如例6和例7所示。
例6 book.dtd
<!ENTITY itcast "傳智播客官網(wǎng),www.itcast.cn"> <!ELEMENT 書架 (書+)> <!ELEMENT 書 (書名,作者,售價)> <!ELEMENT 書名 (#PCDATA)> <!ELEMENT 作者 (#PCDATA)> <!ELEMENT 售價 (#PCDATA)>
例7 book.xml
<?xml version="1.0" encoding="GB2312"?> <!DOCTYPE 書架 SYSTEM "book.dtd"> <書架> <書> <書名>Java就業(yè)培訓(xùn)教程</書名> <作者>&itcast;</作者> <售價>39.9</售價> </書> <書> <書名>EJB3.0入門經(jīng)典</書名> <作者>黎活明</作者> <售價>39.00元</售價> </書> </書架>
用IE9.0以下的瀏覽器打開book.xml文件,瀏覽器顯示的結(jié)果如圖1所示。
圖1提示的錯誤信息是“文本內(nèi)容中發(fā)現(xiàn)無效字符。”這是因為book.dtd文件使用的是本地字符集編碼,即GB2312編碼,而DTD文件應(yīng)該使用UTF-8或者Unicode編碼。需要注意的是,IE9以上版本的瀏覽器也不會提示錯誤。
接下來我們將book.dtd按照UTF-8編碼方式進行重新保存,保存方式如圖2所示。
按照圖2的方式完成編碼保存后,用IE瀏覽器重新打開book.xml文件或者單擊圖1-10工具欄中的“刷新”按鈕,瀏覽器顯示的結(jié)果如圖3所示。
從圖1、3中可以看出,book.xml文件中的“&itcast;”被顯示成“傳智播客官網(wǎng),www.itcast.cn”。
2)參數(shù)實體
參數(shù)實體只能被DTD文件自身使用,它的語法格式為:
<!ENTITY % 實體名稱 "實體內(nèi)容">
需要注意的是,在聲明參數(shù)實體時,ENTITY、%、實體名和“實體內(nèi)容”之間各有一個空格。
引用參數(shù)實體的方式是:
%實體名稱;
了解了參數(shù)實體的語法格式和引用方式,接下來通過一段示例代碼來演示參數(shù)實體的定義,具體如下:
<!ENTITY % TAG_NAME "姓名|EMAIL|電話|地址"> <!ELEMENT 個人信息 (%TAG_NAME; |生日)> <!ELEMENT 客戶信息 (%TAG_NAME; |公司名)>
在上面的示例中,DTD中定義了兩個元素,分別是“個人信息”和“客戶信息”,這兩個元素的定義中都包含了“姓名| EMAIL|電話|地址”這一相同的部分,因此,可以將相同的部分定義為一個TAG_NAMES的參數(shù)實體,然后將“個人信息”和“客戶信息”這兩個元素的定義規(guī)則中的“姓名 | EMAIL | 電話 | 地址”部分替換成對TAG_NAMES這個參數(shù)實體的引用即可。
參數(shù)實體不僅可以簡化元素中定義的相同內(nèi)容,還可以簡化屬性的定義,具體示例如下:
<!ENTITY % common.attributes 'id ID #IMPLIED account CDATA #REQUIRED' > <!ELEMENT purchaseOrder (item+, manufacturer)> <!ELEMENT item (price, quantity)> <!ELEMENT manufacturer (#PCDATA)> <!ATTLIST purchaseOrder %common.attributes;> <!ATTLIST item %common.attributes;> <!ATTLIST manufacturer %common.attributes;>
在上面的示例中,由于多個元素都具有id和account這兩個屬性的相同定義,因此,可以將這兩個屬性的文本內(nèi)容定義為一個名稱為common.attributes的參數(shù)實體。當(dāng)定義元素的屬性時,通過引用common.attributes 這個參數(shù)實體,將該參數(shù)實體轉(zhuǎn)換為id和account 這兩個屬性所定義的文本內(nèi)容了。
值得一提的是,當(dāng)DTD的元素和屬性定義中要出現(xiàn)大量相同內(nèi)容時,參數(shù)實體是一種非常不錯的選擇。因為如果需要修改DTD中相同的部分,只需要在參數(shù)實體的定義中修改即可。
猜你喜歡: