เมนู
ฟรี
การลงทะเบียน
บ้าน  /  ลดา/ เอกสารภาษามาร์กอัปข้อมูลทั่วไป ทำไมเราต้องมีภาษามาร์กอัป? ระบบมาร์กอัปเชิงพรรณนา

ข้อมูลทั่วไปของภาษามาร์กอัปเอกสาร ทำไมเราต้องมีภาษามาร์กอัป? ระบบมาร์กอัปเชิงพรรณนา

มาร์กอัปเชิงตรรกะและภาพ

มีมาร์กอัปเชิงตรรกะและภาพ ในกรณีแรก เรากำลังพูดถึงเฉพาะว่าส่วนที่กำหนดของเอกสารมีบทบาทอย่างไรในโครงสร้างโดยรวม (เช่น "บรรทัดนี้คือส่วนหัว") ส่วนที่สองกำหนดว่าองค์ประกอบนี้จะแสดงอย่างไร (เช่น “บรรทัดนี้ควรแสดงด้วยตัวหนา”) แนวคิดเบื้องหลังภาษามาร์กอัปคือลักษณะที่ปรากฏของเอกสารควรได้มาจากมาร์กอัปแบบลอจิคัลโดยอัตโนมัติและไม่ควรขึ้นอยู่กับเนื้อหาจริง ซึ่งช่วยให้ประมวลผลเอกสารโดยอัตโนมัติและแสดงในสภาพแวดล้อมที่แตกต่างกันได้ง่ายขึ้น (เช่น ไฟล์เดียวกันอาจปรากฏแตกต่างกันบนหน้าจอคอมพิวเตอร์ หน้าจอโทรศัพท์มือถือ และหน้าจอการพิมพ์ เนื่องจากคุณสมบัติของอุปกรณ์ส่งออกเหล่านี้แตกต่างกันอย่างมาก) อย่างไรก็ตามกฎนี้มักถูกละเมิด: ตัวอย่างเช่นเมื่อสร้างเอกสารในตัวแก้ไขเช่น MS Word ผู้ใช้อาจเน้นส่วนหัวด้วยตัวหนา แต่ไม่มีที่ไหนเลยระบุว่าบรรทัดนี้เป็นส่วนหัว

ตัวอย่างของภาษามาร์กอัป

ภาษามาร์กอัปจะถูกใช้ทุกที่ที่ต้องการเอาต์พุตข้อความที่จัดรูปแบบ: ในการพิมพ์ (SGML, TeX, PostScript, PDF), ส่วนต่อประสานผู้ใช้คอมพิวเตอร์ (Microsoft Word, OpenOffice, troff), เวิลด์ไวด์เว็บ (HTML, XHTML, XML, WML, VML, PGML, SVG, XBRL)

ภาษามาร์กอัปแบบน้ำหนักเบา

ภาษาที่ออกแบบมาเพื่อการเขียนข้อความที่ง่ายและรวดเร็วในโปรแกรมแก้ไขข้อความแบบง่ายเรียกว่า เบาลง(th:ภาษามาร์กอัปแบบไลท์เวท) คุณสมบัติของภาษาดังกล่าว:

  • ฟังก์ชั่นขั้นต่ำ
  • แท็กที่รองรับชุดเล็กๆ
  • ง่ายต่อการเรียนรู้
  • ข้อความต้นฉบับในภาษานี้อ่านได้ง่ายเช่นเดียวกับเอกสารที่เสร็จสมบูรณ์

ใช้ในกรณีที่บุคคลต้องเตรียมข้อความในโปรแกรมแก้ไขข้อความทั่วไป (บล็อก ฟอรัม วิกิ) หรือเมื่อผู้ใช้ที่มีโปรแกรมแก้ไขข้อความทั่วไปสามารถอ่านข้อความได้ ต่อไปนี้คือภาษามาร์กอัปแบบไลท์เวทที่ใช้กันทั่วไปบางส่วน:

  • มาร์กอัป Wiki (ดู Wikipedia: วิธีแก้ไขบทความ)
  • ระบบเอกสารอัตโนมัติต่างๆ (เช่น Javadoc)

เรื่องราว

คำว่า "เครื่องหมาย" (อันเป็นผลมาจากกระบวนการชื่อเดียวกันภาษาอังกฤษ มาร์กอัป) มาจากวลีภาษาอังกฤษ “ ทำเครื่องหมายขึ้น” (“การทำเครื่องหมาย (เป็นกระบวนการ)” ซึ่งแปลตรงตัวว่า “การทำเครื่องหมาย การทำเครื่องหมาย”) นำมาจากแนวทางปฏิบัติในการจัดพิมพ์แบบดั้งเดิมโดยการวางบันทึกแบบธรรมดาพิเศษไว้ตรงขอบและในข้อความของต้นฉบับหรือหลักฐานก่อนที่จะส่งไปพิมพ์ ดังนั้น "คนมาร์กอัป" จึงระบุแบบอักษร สไตล์ และขนาดตัวอักษรสำหรับแต่ละส่วนของข้อความ ปัจจุบันมาร์กอัปข้อความทำได้โดยบรรณาธิการ ผู้ตรวจทาน นักออกแบบกราฟิก และแน่นอน โดยผู้เขียนเอง

เจนโค้ด

แนวคิดของการใช้ภาษามาร์กอัปในการประมวลผลคำด้วยคอมพิวเตอร์น่าจะถูกนำมาใช้ครั้งแรกโดย William Tunnicliffe วิลเลียม ดับเบิลยู. ทันนิคคลิฟ ) ในการประชุมใหญ่เมื่อปี พ.ศ. 2510 ตัวเขาเองเรียกข้อเสนอของเขาว่า "การเข้ารหัสสากล" (อังกฤษ "การเข้ารหัสทั่วไป"- ในปี 1970 Tunnicliffe เป็นผู้นำการพัฒนามาตรฐาน GenCode สำหรับอุตสาหกรรมการพิมพ์ และต่อมาได้กลายมาเป็นหัวหน้าคณะกรรมการชุดหนึ่งขององค์การระหว่างประเทศเพื่อการมาตรฐาน (ISO) องค์การระหว่างประเทศเพื่อการมาตรฐาน ) ซึ่งเป็นผู้สร้าง SGML ซึ่งเป็นภาษามาร์กอัปเชิงอธิบายภาษาแรก ไบรอัน รีด (คุณ. ไบรอัน รีด ) ในวิทยานิพนธ์ของเขา ซึ่งเขาปกป้องในปี 1980 ที่มหาวิทยาลัยคาร์เนกี้ มหาวิทยาลัยคาร์เนกีเมลลอน ) ในการพัฒนาแนวคิดที่นำเสนอได้ดำเนินการใช้งานมาร์กอัปเชิงพรรณนาในทางปฏิบัติ

อย่างไรก็ตามในปัจจุบัน "บิดา" ของภาษามาร์กอัปมักเรียกว่านักวิจัยของ IBM Charles Goldfarb ชาร์ลส์ โกลด์ฟาร์บ - แนวคิดพื้นฐานนี้ถือกำเนิดขึ้นในปี 1969 ขณะที่ทำงานเกี่ยวกับระบบการจัดการเอกสารแบบดั้งเดิมสำหรับสำนักงานกฎหมาย ในปีเดียวกันนั้นเอง เขาได้มีส่วนร่วมในการสร้างภาษา IBM GML ซึ่งเปิดตัวครั้งแรกในปี 1973

การใช้งานภาษามาร์กอัปคอมพิวเตอร์ในช่วงแรกๆ สามารถพบได้ในยูทิลิตี้การพิมพ์ของ UNIX เช่น troff และ nroff ช่วยให้คุณสามารถแทรกคำสั่งการจัดรูปแบบลงในข้อความของเอกสารเพื่อจัดรูปแบบตามความต้องการของบรรณาธิการ

ความพร้อมใช้งานของซอฟต์แวร์การเผยแพร่ที่มีฟังก์ชัน WYSIWYG "สิ่งที่คุณเห็นคือสิ่งที่คุณได้รับ" - "สิ่งที่คุณเห็นคือสิ่งที่คุณได้รับ") ได้แทนที่ภาษาเหล่านี้ส่วนใหญ่ในหมู่ผู้ใช้ทั่วไป แม้ว่างานเผยแพร่ที่จริงจังยังคงใช้มาร์กอัปสำหรับโครงสร้างข้อความที่ไม่ใช่ภาพเฉพาะ และขณะนี้บรรณาธิการแบบ WYSIWYG มักจะบันทึกเอกสารในรูปแบบตาม ภาษามาร์กอัป

Τ Ε Χ

มาตรฐานการเผยแพร่ที่สำคัญอีกประการหนึ่งคือ Τ Ε Χ สร้างและปรับปรุงในเวลาต่อมาโดย Donald Knuth ในช่วงทศวรรษที่ 70-80 ของศตวรรษที่ 20 Τ Ε Χ รวบรวมการจัดรูปแบบข้อความและคำอธิบายแบบอักษรคุณภาพสูง โดยเฉพาะหนังสือคณิตศาสตร์คุณภาพระดับมืออาชีพ ปัจจุบัน Τ Ε Χ เป็นมาตรฐานโดยพฤตินัยในสาขาวิชาวิทยาศาสตร์หลายสาขา นอกจากเทคโนโลยีแล้ว ยังมี LaTeX ซึ่งเป็นระบบมาร์กอัปเชิงพรรณนาที่ใช้กันอย่างแพร่หลายโดยอิงจาก T Ε Χ .

อาลักษณ์, GML และ SGML

ในช่วงต้นทศวรรษ 1980 แนวคิดที่ว่ามาร์กอัปควรมุ่งเน้นไปที่ลักษณะโครงสร้างของเอกสารและปล่อยให้การตีความเอกสารภายนอกเป็นหน้าที่ของล่าม ซึ่งนำไปสู่การสร้าง SGML ภาษาได้รับการพัฒนาโดยคณะกรรมการที่นำโดย Goldfarb เขาผสมผสานแนวคิดจากหลายแหล่ง รวมถึงโครงการ Tunnikoflick, GenCode Sharon Adler, Anders Berglund และ James A. Marke เป็นสมาชิกคนสำคัญของคณะกรรมการ SGML เช่นกัน

SGML กำหนดไวยากรณ์อย่างชัดเจนสำหรับการรวมมาร์กอัปในข้อความ และยังอธิบายโดยเฉพาะว่าแท็กใดที่ได้รับอนุญาตและตำแหน่ง (DTD - คำจำกัดความประเภทเอกสาร) สิ่งนี้ทำให้ผู้เขียนสามารถสร้างและใช้มาร์กอัปใดๆ ที่พวกเขาต้องการ โดยเลือกแท็กที่จะใช้และตั้งชื่อเป็นภาษาปกติ ดังนั้น SGML จึงควรได้รับการพิจารณาว่าเป็นภาษาโลหะ ภาษามาร์กอัปพิเศษหลายภาษาได้พัฒนามาจากมัน ช่วงปลายทศวรรษ 1980 มีภาษามาร์กอัปใหม่เพิ่มขึ้นโดยใช้ SGML เช่น TEI และ DocBook

ในปี พ.ศ. 2529 SGML ได้รับการเผยแพร่เป็นมาตรฐานสากลโดย ISO หมายเลข 8879 SGML ได้รับการยอมรับอย่างกว้างขวางและมีการใช้กันอย่างแพร่หลายในโครงการขนาดใหญ่มาก อย่างไรก็ตาม โดยทั่วไปพบว่ามีความยุ่งยากและเรียนรู้ได้ยาก โดยผลข้างเคียงของภาษาคือการพยายามทำมากเกินไปและยืดหยุ่นเกินไป ตัวอย่างเช่น SGML ได้สร้างแท็กปิดที่ไม่จำเป็นเสมอไป (หรือแท็กเปิด หรือแม้แต่ทั้งสองอย่าง) เนื่องจากเชื่อว่ามาร์กอัปนี้จะถูกเพิ่มด้วยตนเองโดยเจ้าหน้าที่ฝ่ายสนับสนุนโครงการ ซึ่งยินดีกับการประหยัดค่ากดแป้นพิมพ์

HTML

ภายในปี 1991 การใช้ SGML ถูกจำกัดอยู่เพียงโปรแกรมธุรกิจและฐานข้อมูล และเครื่องมือ WYSIWYG (ซึ่งจัดเก็บเอกสารในรูปแบบไบนารีที่เป็นกรรมสิทธิ์) ถูกนำมาใช้สำหรับโปรแกรมประมวลผลเอกสารอื่นๆ สถานการณ์เปลี่ยนไปเมื่อ Sir Tim Berners-Lee ได้เรียนรู้เกี่ยวกับ SGML จาก Anders Bergland เพื่อนร่วมงานของเขา แอนเดอร์ส เบิร์กลันด์ ) และผู้ร่วมงานคนอื่นๆ ที่ CERN ใช้ไวยากรณ์ SGML เพื่อสร้าง HTML ภาษามีความคล้ายคลึงกับภาษามาร์กอัปที่ใช้ไวยากรณ์ SGML อื่นๆ แต่เริ่มต้นได้ง่ายกว่ามาก แม้แต่สำหรับนักพัฒนาที่ไม่เคยทำมาก่อนก็ตาม Steven DeRose แย้งว่า HTML ที่ใช้มาร์กอัปเชิงอธิบาย (และโดยเฉพาะ SGML) เป็นปัจจัยสำคัญในการพัฒนาเว็บเนื่องจากได้รับการออกแบบให้มีความยืดหยุ่นและความสามารถในการขยายได้ (เช่นเดียวกับปัจจัยอื่น ๆ รวมถึงแนวคิดของ URL และการใช้งานฟรีโดยเบราว์เซอร์) . ปัจจุบัน HTML เป็นภาษามาร์กอัปที่น่าดึงดูดและใช้กันมากที่สุดในโลก

อย่างไรก็ตาม สถานะของ HTML ในฐานะภาษามาร์กอัปถูกโต้แย้งโดยนักวิทยาศาสตร์คอมพิวเตอร์บางคน ข้อโต้แย้งหลักของพวกเขาคือ HTML จำกัดตำแหน่งของแท็ก โดยกำหนดให้ทั้งสองแท็กซ้อนกันภายในแท็กอื่นหรือภายในแท็กหลักของเอกสาร ด้วยเหตุนี้ นักวิชาการเหล่านี้จึงถือว่า HTML เป็นภาษาคอนเทนเนอร์ที่เป็นไปตามโมเดลแบบลำดับชั้น

XML

XML (Extensible Markup Language) เป็นภาษาเมตามาร์กอัปที่ใช้กันอย่างแพร่หลายในปัจจุบัน XML ได้รับการพัฒนาโดย World Wide Web Consortium ในคณะกรรมการที่นำโดย Jon Bosak วัตถุประสงค์หลักของ XML คือเพื่อให้ง่ายกว่า SGML และมุ่งเน้นไปที่ปัญหาเฉพาะ - เอกสารบนอินเทอร์เน็ต XML เป็นภาษาเมตาเช่น SGML ผู้ใช้สามารถสร้างแท็กใดๆ ที่พวกเขาต้องการได้ (ดังนั้นจึง "ขยายได้") การเพิ่มขึ้นของ XML ได้รับการช่วยเหลือเนื่องจากเอกสาร XML ทุกฉบับสามารถเขียนได้ในลักษณะเดียวกับเอกสาร SGML และโปรแกรมและผู้ใช้ที่ใช้ SGML สามารถโยกย้ายไปยัง XML ได้อย่างง่ายดาย

อย่างไรก็ตาม XML สูญเสียคุณลักษณะที่มุ่งเน้นมนุษย์จำนวนมากของ SGML ซึ่งทำให้ใช้งานง่ายขึ้น (จนกว่าจะขยายจำนวนมาร์กอัปและกลับมาสามารถอ่านและแก้ไขได้อีกครั้ง) การปรับปรุงอื่นๆ ได้แก้ไขปัญหา SGML บางอย่างในระดับสากล และทำให้สามารถแยกวิเคราะห์เอกสารตามลำดับชั้นได้ แม้ว่าจะไม่มี DTD ก็ตาม

XML ได้รับการออกแบบมาเพื่อสภาพแวดล้อมแบบกึ่งโครงสร้างเป็นหลัก เช่น เอกสารและสิ่งพิมพ์ อย่างไรก็ตาม มันเป็นสื่อกลางที่น่าพึงพอใจระหว่างความยืดหยุ่นและความเรียบง่าย และผู้ใช้จำนวนมากก็นำไปใช้อย่างรวดเร็ว ขณะนี้ XML ถูกนำมาใช้กันอย่างแพร่หลายในการถ่ายโอนข้อมูลระหว่างโปรแกรม เช่นเดียวกับ HTML มันสามารถกำหนดลักษณะเป็นภาษา "คอนเทนเนอร์" ได้

XHTML

เริ่มตั้งแต่เดือนมกราคม พ.ศ. 2543 คำแนะนำ W3C ทั้งหมดอิงตาม XML แทนที่จะเป็น SGML และเสนอตัวย่อ XHTML (Extensible HyperText Markup Languge) ข้อกำหนดด้านภาษากำหนดให้เอกสาร XHTML ต้องได้รับการจัดรูปแบบเป็นเอกสาร XML ซึ่งช่วยให้สามารถใช้ XHTML สำหรับเอกสารที่ชัดเจนและแม่นยำยิ่งขึ้นโดยใช้แท็กจาก HTML

ความแตกต่างที่น่าสังเกตที่สุดประการหนึ่งระหว่าง HTML และ XHTML คือกฎที่ต้องปิดแท็กทั้งหมด เช่น แท็กว่าง เป็นต้น<พี่ชาย/> ทั้งคู่ต้องปิดด้วยแท็กปิดมาตรฐานหรือรายการพิเศษ:<พี่ชาย/> (ช่องว่างก่อน "/" ในแท็กปิดเป็นทางเลือก แต่มักใช้เนื่องจากเบราว์เซอร์ก่อน XML และโปรแกรมแยกวิเคราะห์ SGML บางตัวใช้ช่องว่างนี้) คุณลักษณะอื่นๆ ในแท็กจะต้องอยู่ในเครื่องหมายคำพูด สุดท้ายนี้ ชื่อแท็กและแอตทริบิวต์ทั้งหมดจะต้องเขียนด้วยตัวพิมพ์เล็กเพื่อให้อ่านได้อย่างถูกต้อง HTML ไม่คำนึงถึงขนาดตัวพิมพ์

การพัฒนาอื่น ๆ ที่ใช้ XML

ขณะนี้มีการใช้งานการพัฒนาที่ใช้ XML จำนวนมาก เช่น RDF (Resource Description Framework), XFORMS, DocBook, SOAP และ OWL (Ontology Web Language)

ลักษณะเฉพาะ

คุณลักษณะทั่วไปของภาษามาร์กอัปทั้งหมดคือผสมข้อความในเอกสารกับคำแนะนำมาร์กอัปในสตรีมข้อมูลหรือไฟล์ สิ่งนี้ไม่จำเป็น แต่สามารถแยกมาร์กอัปออกจากข้อความได้โดยใช้พอยน์เตอร์ ป้ายกำกับ ตัวระบุ หรือเทคนิคการประสานงานอื่นๆ “มาร์กอัปแยก” นี้เป็นเรื่องปกติสำหรับการเป็นตัวแทนภายในของโปรแกรมที่ทำงานกับเอกสารมาร์กอัป อย่างไรก็ตาม มาร์กอัปแบบฝังหรือ "อินไลน์" จะได้รับการยอมรับมากกว่าในที่อื่น ตัวอย่างเช่น นี่คือส่วนเล็กๆ ของข้อความที่มาร์กอัปโดยใช้ HTML:

อนาติดี

ครอบครัว อนาติดีได้แก่เป็ด ห่าน หงส์ แต่ ไม่เสียงกรีดร้องที่เกี่ยวข้องอย่างใกล้ชิด

รหัสคำสั่งมาร์กอัป (เรียกว่าแท็ก) อยู่ในวงเล็บมุม<как здесь>- ข้อความระหว่างคำแนะนำเหล่านี้คือข้อความของเอกสาร รหัส h1, พีและ em- ตัวอย่างของมาร์กอัปโครงสร้าง อธิบายตำแหน่ง วัตถุประสงค์ หรือความหมายของข้อความที่รวมอยู่ในนั้น

แม่นยำยิ่งขึ้น h1หมายถึง "นี่คือหัวข้อระดับแรก" พีหมายถึง "นี่คือย่อหน้า" และ emหมายถึง "นี่คือคำหรือวลีที่ขีดเส้นใต้" โปรแกรมล่ามสามารถใช้กฎหรือสไตล์เหล่านี้เพื่อแสดงส่วนต่างๆ ของข้อความ โดยใช้แบบอักษร ขนาดแบบอักษร ระยะห่าง สี หรือสไตล์อื่นๆ ที่แตกต่างกันตามต้องการ ตัวอย่างเช่น แท็ก เช่น h1 อาจแสดงด้วยแบบอักษรตัวพิมพ์ขนาดใหญ่ตัวหนา หรือในเอกสารที่มีข้อความแบบเว้นวรรค (เช่น บนเครื่องพิมพ์ดีด) อาจถูกขีดเส้นใต้ หรืออาจไม่เปลี่ยนรูปลักษณ์เลย

เพื่อความคมชัด ให้แท็ก ฉันใน HTML - ตัวอย่างของมาร์กอัปแบบภาพ โดยปกติจะใช้เพื่อระบุคุณลักษณะเฉพาะของข้อความ (ใช้แบบอักษรตัวเอียงในบล็อกนี้) โดยไม่ต้องอธิบายเหตุผล

TEI (Tex Encoding Initiative) ได้เผยแพร่เอกสารคำแนะนำที่ครอบคลุมเพื่อเป็นแนวทางในการเข้ารหัสข้อความเพื่อประโยชน์ของมนุษยชาติและสังคมวิทยาศาสตร์ คู่มือเหล่านี้ใช้ในการเข้ารหัสเอกสารทางประวัติศาสตร์ งานเฉพาะของนักวิทยาศาสตร์ วารสาร และอื่นๆ

การใช้งานทางเลือก

แม้ว่าแนวคิดในการใช้ภาษามาร์กอัปกับเอกสารข้อความจะได้รับการพัฒนา แต่ก็มีการใช้ภาษามาร์กอัปในด้านอื่น ๆ เพิ่มขึ้น โดยแนะนำว่าสามารถใช้เพื่อแสดงข้อมูลประเภทต่าง ๆ รวมถึงเพลย์ลิสต์ กราฟิกแบบเวกเตอร์ เว็บ บริการ และอินเทอร์เฟซผู้ใช้ แอปพลิเคชันเหล่านี้ส่วนใหญ่ใช้ XML เนื่องจากเป็นภาษาที่มีโครงสร้างที่ดีและสามารถขยายได้

คู่มือนักแปลทางเทคนิค

ภาษามาร์กอัป- ภาษามาร์กอัป 06/23/33: ภาษาที่ประกอบด้วยคำสั่งในตัวที่ให้การสนับสนุนการมาร์กอัปข้อความระหว่างการประมวลผล

ภาษามาร์กอัป

ภาษามาร์กอัป(ข้อความ) ในคำศัพท์ทางคอมพิวเตอร์ หมายถึง ชุดของอักขระหรือลำดับที่แทรกลงในข้อความเพื่อถ่ายทอดข้อมูลเกี่ยวกับผลลัพธ์หรือโครงสร้าง จัดอยู่ในกลุ่มภาษาคอมพิวเตอร์ เอกสารข้อความที่เขียนโดยใช้ภาษามาร์กอัปไม่เพียงแต่ประกอบด้วยข้อความเท่านั้น (เป็นลำดับของคำและเครื่องหมายวรรคตอน) แต่ยังมีข้อมูลเพิ่มเติมเกี่ยวกับส่วนต่าง ๆ ของข้อความ - ตัวอย่างเช่น การบ่งชี้ส่วนหัว ไฮไลต์ รายการ ฯลฯ ใน ซับซ้อนมากขึ้น ในบางกรณี ภาษามาร์กอัปช่วยให้คุณสามารถแทรกองค์ประกอบเชิงโต้ตอบและเนื้อหาจากเอกสารอื่นลงในเอกสารได้

ควรสังเกตว่าภาษามาร์กอัปนั้นทัวริงไม่สมบูรณ์และโดยทั่วไปไม่ถือว่าเป็นภาษาการเขียนโปรแกรมแม้ว่าจะพูดอย่างเคร่งครัดก็ตาม

HTML (จากภาษาอังกฤษ) ภาษามาร์กอัปไฮเปอร์เท็กซ์-- "ภาษามาร์กอัปไฮเปอร์เท็กซ์") - พัฒนาโดยนักวิทยาศาสตร์ชาวอังกฤษ Tim Berners-Lee ประมาณปี 1986-1991 ที่ศูนย์วิจัยนิวเคลียร์แห่งยุโรปในเมืองเจนีวา (สวิตเซอร์แลนด์) HTML ถูกสร้างขึ้นเป็นภาษาสำหรับการแลกเปลี่ยนเอกสารทางวิทยาศาสตร์และทางเทคนิค เหมาะสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญในด้านการจัดวาง HTML ประสบความสำเร็จในการจัดการกับความซับซ้อนของ SGML โดยการกำหนดชุดเล็กๆ ขององค์ประกอบโครงสร้างและความหมายที่เรียกว่า descriptors ตัวอธิบายมักเรียกว่า "แท็ก" เมื่อใช้ HTML คุณสามารถสร้างเอกสารที่ค่อนข้างเรียบง่ายแต่ได้รับการออกแบบอย่างสวยงามได้อย่างง่ายดาย นอกเหนือจากการทำให้โครงสร้างเอกสารง่ายขึ้นแล้ว ยังมีการเพิ่มการรองรับไฮเปอร์เท็กซ์ใน HTML ความสามารถด้านมัลติมีเดียถูกเพิ่มเข้ามาในภายหลัง

ในขั้นต้น ภาษา HTML ได้รับการคิดและสร้างขึ้นเพื่อใช้เป็นวิธีการจัดโครงสร้างและการจัดรูปแบบเอกสารโดยไม่ต้องเชื่อมโยงกับเครื่องมือการทำซ้ำ (การแสดงผล) ตามหลักการแล้ว ข้อความที่มีมาร์กอัป HTML ควรได้รับการทำซ้ำโดยไม่มีการบิดเบือนรูปแบบและโครงสร้างบนอุปกรณ์ที่มีอุปกรณ์ทางเทคนิคที่แตกต่างกัน (หน้าจอสีของคอมพิวเตอร์สมัยใหม่ หน้าจอขาวดำของผู้จัดงาน หน้าจอขนาดจำกัดของโทรศัพท์มือถือหรืออุปกรณ์ และโปรแกรมสำหรับเสียง การเล่นข้อความ) อย่างไรก็ตาม การใช้ HTML สมัยใหม่ยังห่างไกลจากจุดประสงค์เดิมมาก ตัวอย่างเช่น แท็ก

ซึ่งใช้หลายครั้งในการจัดรูปแบบหน้า มีวัตถุประสงค์เพื่อสร้างตารางทั่วไปในเอกสาร ในช่วงหลายปีที่ผ่านมา แนวคิดหลักของความเป็นอิสระของแพลตฟอร์ม HTML ได้รับการเสียสละเพื่อสนับสนุนความต้องการด้านมัลติมีเดียและกราฟิกสมัยใหม่

XML(ภาษาอังกฤษ) เอ็กซ์ ตึงเครียด อาร์คอัพ แองเกจ-- ภาษามาร์กอัปที่ขยายได้ เด่นชัด [ อดีต em-eml]) เป็นภาษามาร์กอัปที่แนะนำโดย World Wide Web Consortium (W3C) ข้อมูลจำเพาะ XML อธิบายเอกสาร XML และอธิบายลักษณะการทำงานของตัวประมวลผล XML บางส่วน (โปรแกรมที่อ่านเอกสาร XML และให้การเข้าถึงเนื้อหา) XML ได้รับการออกแบบให้เป็นภาษาที่มีไวยากรณ์อย่างเป็นทางการที่เรียบง่าย สะดวกสำหรับการสร้างและประมวลผลเอกสารโดยโปรแกรม และในขณะเดียวกันก็สะดวกสำหรับมนุษย์ในการอ่านและสร้างเอกสาร โดยเน้นการใช้งานบนอินเทอร์เน็ต ภาษานี้เรียกว่าขยายได้เนื่องจากไม่ได้แก้ไขมาร์กอัปที่ใช้ในเอกสาร นักพัฒนามีอิสระในการสร้างมาร์กอัปตามความต้องการของโดเมนเฉพาะ ซึ่งจำกัดโดยกฎวากยสัมพันธ์ของภาษาเท่านั้น การรวมกันของไวยากรณ์อย่างเป็นทางการที่เรียบง่าย ความเป็นมิตรต่อมนุษย์ ความสามารถในการขยาย รวมถึงการใช้การเข้ารหัส Unicode เพื่อแสดงเนื้อหาของเอกสาร ได้นำไปสู่การใช้ทั้ง XML เองและภาษาเฉพาะทางอนุพันธ์จำนวนมากที่ใช้ XML ในวงกว้าง ซอฟต์แวร์ที่หลากหลาย

XHTML(ภาษาอังกฤษ) อีx ตึงเครียดชม ใช่แล้วที ต่อ อาร์คอัพ แองเกจ-- Extensible Hypertext Markup Language) เป็นตระกูลภาษามาร์กอัปหน้าเว็บที่ใช้ XML ซึ่งจำลองและขยายขีดความสามารถของ HTML 4 ข้อกำหนด XHTML 1.0 และ XHTML 1.1 เป็นคำแนะนำของ World Wide Web Consortium แต่การพัฒนานั้น ขณะนี้หยุดด้วยคำแนะนำให้ใช้ HTML XHTML เวอร์ชันใหม่ยังไม่ออก

ความแตกต่างที่สำคัญระหว่าง XHTML และ HTML คือวิธีการประมวลผลเอกสาร เอกสาร XHTML ได้รับการประมวลผลโดยโมดูลของตัวเอง (ตัวแยกวิเคราะห์) ในลักษณะเดียวกับเอกสาร XML ในระหว่างการประมวลผลนี้ ข้อผิดพลาดที่เกิดจากนักพัฒนาจะไม่ได้รับการแก้ไข

XHTML เป็นไปตามข้อกำหนด SGML เนื่องจาก XML เป็นส่วนย่อยของมัน HTML มีคุณสมบัติมากมายในกระบวนการประมวลผล และจริงๆ แล้วไม่ได้อยู่ในตระกูล SGML ซึ่งประดิษฐานอยู่ในข้อกำหนด HTML 5 แบบร่าง

เบราว์เซอร์เลือก parser เพื่อประมวลผลเอกสารตามส่วนหัวประเภทเนื้อหาที่ได้รับจากเซิร์ฟเวอร์:

· HTML - ข้อความ/html

· XHTML - แอปพลิเคชัน/xhtml+xml

· สำหรับการดูในท้องถิ่นบนไคลเอนต์ การเลือกจะขึ้นอยู่กับนามสกุลไฟล์

· ใน Internet Explorer จนถึงเวอร์ชัน 8 ไม่มี parser สำหรับการประมวลผลเอกสาร XHTML

WML(ภาษาอังกฤษ) ภาษามาร์กอัปไร้สาย-- "ภาษามาร์กอัปไร้สาย") เป็นภาษามาร์กอัปเอกสารสำหรับใช้ในโทรศัพท์มือถือและอุปกรณ์เคลื่อนที่อื่นๆ ที่ใช้มาตรฐาน WAP

โครงสร้างมีลักษณะคล้ายกับ HTML ที่ค่อนข้างง่าย แต่ก็มีความแตกต่างที่สำคัญเช่นกัน เนื่องจาก WML มุ่งเป้าไปที่อุปกรณ์ที่ไม่มีความสามารถของคอมพิวเตอร์ส่วนบุคคล (หน้าจอขนาดเล็ก อุปกรณ์บางชนิดไม่สามารถแสดงกราฟิก หน่วยความจำขนาดเล็ก ฯลฯ): ทั้งหมด ข้อมูลมีอยู่ใน WML ในสิ่งที่เรียกว่า "สำรับ" (อังกฤษ ดาดฟ้า- Dec คือบล็อกข้อมูลขั้นต่ำที่เซิร์ฟเวอร์สามารถส่งได้ สำรับประกอบด้วย "ไพ่" ( การ์ด) (แต่ละแผนที่ถูกจำกัดด้วยแท็ก และ- ควรมีไพ่อย่างน้อยหนึ่งใบในหนึ่งสำรับ แต่อาจมีหลายใบก็ได้ ในเวลาเดียวกัน หน้าจออุปกรณ์จะแสดงการ์ดเพียงใบเดียวและผู้ใช้สามารถสลับระหว่างการ์ดเหล่านั้นได้โดยไปที่ลิงก์ - ทำเพื่อลดจำนวนคำขอไปยังเซิร์ฟเวอร์เพื่อดูข้อมูล ในเวลาเดียวกันขนาดของเพจ WML ไม่ควรเกิน 1-4 กิโลไบต์

วีเอ็มแอล(ภาษาอังกฤษ) ภาษามาร์กอัปเวกเตอร์-- ภาษามาร์กอัปเวกเตอร์) พัฒนาโดย Microsoft เพื่ออธิบายกราฟิกแบบเวกเตอร์ VML ได้รับการแนะนำให้รู้จักกับ W3C ในปี 1998 โดย Microsoft, Macromedia และอื่นๆ ในเวลาเดียวกัน Adobe, Sun และบริษัทอื่นๆ อีกหลายแห่งได้ยื่นเอกสารเกี่ยวกับ PGML ทั้งสองภาษานี้กลายเป็นพื้นฐานสำหรับ SVG ในเวลาต่อมา

พีจีเอ็มแอล (ภาษามาร์กอัปกราฟิกที่แม่นยำแปลเป็นภาษารัสเซียอย่างหลวมๆ - "ภาษามาร์กอัปกราฟิกที่แม่นยำ") - ภาษามาร์กอัปที่ใช้ XML ใช้เพื่ออธิบายกราฟิกแบบเวกเตอร์บนหน้าเว็บ (ไดอะแกรม องค์ประกอบอินเทอร์เฟซแต่ละรายการ) ในรูปแบบของข้อความในรูปแบบ XML ใช้แบบจำลองการสร้างรูปภาพ คล้ายกับ PDF และ PostScript มันถูกส่งไปยังกลุ่ม W3C โดย Adobe Systems, IBM, Netscape Communications และ Sun Microsystems ในปี 1998 แต่ไม่ได้รับการยอมรับตามที่แนะนำ เกือบจะพร้อมกัน Microsoft ได้ส่งโครงการ VML เพื่อประกอบการพิจารณาและอีกหนึ่งปีต่อมาก็มีการพัฒนาภาษา SVG ขั้นสูงยิ่งขึ้นโดยใช้แนวคิดของเทคโนโลยีทั้งสอง SVG ได้รับการแนะนำโดย W3C และกลายเป็นรูปแบบหลักสำหรับการอธิบายกราฟิกแบบเวกเตอร์บนหน้าเว็บ

SVG(จากอังกฤษ ปรับขนาดได้วี บรรณาธิการ ราฟิค-- กราฟิกแบบเวกเตอร์ที่ปรับขนาดได้) -- ภาษามาร์กอัปกราฟิกแบบเวกเตอร์แบบปรับขนาดได้ สร้างขึ้นโดย World Wide Web Consortium (W3C) และชุดย่อยของ Extensible Markup Language XML มีจุดมุ่งหมายเพื่ออธิบายเวกเตอร์สองมิติและกราฟิกแบบเวกเตอร์/แรสเตอร์แบบผสมใน XML รูปแบบ. รองรับทั้งกราฟิกเชิงโต้ตอบทั้งภาพนิ่งและภาพเคลื่อนไหว - หรืออีกนัยหนึ่งคือการประกาศและการเขียนสคริปต์ ไม่รองรับคำอธิบายของวัตถุสามมิติ เป็นมาตรฐานเปิดที่เป็นคำแนะนำของกลุ่ม W3C ซึ่งเป็นองค์กรที่พัฒนามาตรฐานเช่น HTML และ XHTML SVG ขึ้นอยู่กับภาษามาร์กอัป VML และ PGML พัฒนามาตั้งแต่ปี 1999

XBRL(ภาษาอังกฤษ) เอ็กซ์ ตึงเครียดบี ความเป็นประโยชน์ การส่งออก แองเกจสว่าง Extensible Business Reporting Language เป็นมาตรฐานเปิดสำหรับการนำเสนองบการเงินทางอิเล็กทรอนิกส์ รูปแบบ XBRL ขึ้นอยู่กับ XML ภาษามาร์กอัปที่ขยายได้ XBRL ใช้ไวยากรณ์ XML เช่นเดียวกับเทคโนโลยีที่เกี่ยวข้องกับ XML เช่น เนมสเปซ XML, XML Schema, XLink และ XPath วัตถุประสงค์ประการหนึ่งของ XBRL คือการนำเสนอและแลกเปลี่ยนข้อมูลทางการเงิน เช่น งบการเงินของบริษัท ข้อกำหนดภาษา XBRL ได้รับการพัฒนาและเผยแพร่โดยองค์กรระหว่างประเทศอิสระ XBRL International, Inc.

เพื่อปรับปรุงการรับรู้ภาพของเว็บ เทคโนโลยี CSS ถูกนำมาใช้กันอย่างแพร่หลาย ซึ่งช่วยให้คุณสามารถกำหนดรูปแบบการออกแบบที่เหมือนกันสำหรับหน้าเว็บจำนวนมาก อีกหนึ่งนวัตกรรมที่ควรค่าแก่การใส่ใจคือระบบการตั้งชื่อทรัพยากร URN (ภาษาอังกฤษ) ชื่อทรัพยากรที่เหมือนกัน).

แนวคิดยอดนิยมสำหรับการพัฒนาเวิลด์ไวด์เว็บคือการสร้างเว็บเชิงความหมาย Semantic Web เป็นส่วนเสริมของ World Wide Web ที่มีอยู่ ซึ่งได้รับการออกแบบมาเพื่อให้คอมพิวเตอร์เข้าใจข้อมูลที่โพสต์บนเครือข่ายได้ง่ายขึ้น Semantic Web เป็นแนวคิดของเครือข่ายที่ทรัพยากรทุกอย่างในภาษามนุษย์จะได้รับพร้อมกับคำอธิบายที่คอมพิวเตอร์สามารถเข้าใจได้ Semantic Web เปิดการเข้าถึงข้อมูลที่มีโครงสร้างอย่างชัดเจนสำหรับแอปพลิเคชันใดๆ โดยไม่คำนึงถึงแพลตฟอร์มและโดยไม่คำนึงถึงภาษาการเขียนโปรแกรม โปรแกรมจะสามารถค้นหาทรัพยากรที่จำเป็นได้ด้วยตนเอง ประมวลผลข้อมูล จำแนกข้อมูล ระบุการเชื่อมต่อเชิงตรรกะ สรุปข้อสรุป และแม้กระทั่งตัดสินใจตามข้อสรุปเหล่านี้ หากนำไปใช้อย่างกว้างขวางและนำไปใช้อย่างชาญฉลาด Semantic Web ก็มีศักยภาพที่จะจุดประกายการปฏิวัติบนอินเทอร์เน็ต หากต้องการสร้างคำอธิบายทรัพยากรที่คอมพิวเตอร์อ่านได้ Semantic Web จะใช้รูปแบบ RDF (ภาษาอังกฤษ) กรอบคำอธิบายทรัพยากร) ซึ่งอิงตามไวยากรณ์ XML และใช้ URI เพื่อระบุทรัพยากร ผลิตภัณฑ์ใหม่ในพื้นที่นี้คือ RDFS (eng. สคีมา RDF) และ SPARQL (อังกฤษ. โปรโตคอลและภาษาแบบสอบถาม RDF) ภาษาคิวรีใหม่สำหรับการเข้าถึงข้อมูล RDF อย่างรวดเร็ว

ในช่วงต้นเดือนกุมภาพันธ์ พ.ศ. 2541 องค์กรระหว่างประเทศ W3C ได้อนุมัติข้อกำหนด Extensible Markup Language (XML) 1.0 ซึ่งเป็นจุดเริ่มต้นของการพัฒนาภาษามาร์กอัปใหม่จำนวนมากสำหรับการส่งข้อมูลผ่านอินเทอร์เน็ตตามมาตรฐาน XML โดยพื้นฐานแล้ว นี่หมายถึงก้าวใหม่ในการพัฒนาภาษามาร์กอัปไฮเปอร์เท็กซ์ ตลอดสี่ปีที่ผ่านมา XML ไม่เพียงดึงดูดความสนใจจากผู้ใช้ทั่วไปและนักออกแบบเว็บไซต์จำนวนมากเท่านั้น แต่ยังกลายเป็นส่วนสำคัญของอินเทอร์เน็ตอีกด้วย ปัจจุบันไม่มีเซิร์ฟเวอร์ใดที่ใช้เทคโนโลยีนี้เป็นแอนะล็อกของ HTML ในระดับหนึ่งหรืออย่างอื่น อย่างไรก็ตาม อย่างน้อยก็ยังเร็วเกินไปที่จะกล่าวว่า XML กำลังกลายเป็นวิธีการหลักในการส่งไฮเปอร์เท็กซ์ผ่านเครือข่ายทั่วโลก ภาษายังค่อนข้างใหม่ และองค์ประกอบบางอย่างยังอยู่ระหว่างการพัฒนา จนถึงขณะนี้มีเพียงกรอบการทำงานทั่วไปเท่านั้นที่ถูกสร้างขึ้นสำหรับสิ่งที่อาจจะแทนที่ HTML ในอนาคต แต่ยังเป็นไปไม่ได้ที่จะพูดในรูปแบบเฉพาะใด

ตั้งแต่เริ่มต้น

ในเดือนพฤศจิกายน พ.ศ. 2533 เมื่อผู้ใช้อินเทอร์เน็ตได้ยินเกี่ยวกับเทคโนโลยีใหม่เป็นครั้งแรก ชื่อที่สามารถใส่ตัวอักษรสามตัวได้อย่างง่ายดาย แทบไม่มีใครจินตนาการได้ว่าเวลาจะผ่านไปเพียงเล็กน้อย และเทคโนโลยีนี้จะกลายเป็นวิธีเดียวในการส่งข้อมูลบน เครือข่ายทั่วโลก ทุกวันนี้สำหรับผู้ใช้ที่ไม่มีประสบการณ์จำนวนมาก คำว่าอินเทอร์เน็ตมีความเกี่ยวข้องอย่างมากกับ WWW แม้ว่าในความเป็นจริงแล้วสิ่งเหล่านี้จะเกี่ยวข้องกัน แต่ก็ยังแตกต่างกันเล็กน้อย

โดยทั่วไปแล้ว มันเป็นความนิยมอย่างไม่น่าเชื่อของเวิลด์ไวด์เว็บและส่วนสำคัญของ HTML ซึ่งกลายเป็นสาเหตุของความสนใจที่เพิ่มขึ้นอย่างมากต่อโครงสร้างของมาร์กอัปไฮเปอร์เท็กซ์ของเอกสาร

แนวคิดเรื่องไฮเปอร์เท็กซ์ถูกนำมาใช้ครั้งแรกโดย V. Bush ย้อนกลับไปในปี 1945 อย่างไรก็ตาม แอปพลิเคชันจริงที่ใช้โครงสร้างข้อมูลดังกล่าวเริ่มถูกนำมาใช้ตั้งแต่ทศวรรษที่ 60 เท่านั้น และกิจกรรมที่เพิ่มขึ้นอย่างรวดเร็วรอบ ๆ เทคโนโลยีนี้เริ่มต้นเมื่อมีความต้องการที่แท้จริงสำหรับกลไกในการรวมทรัพยากรข้อมูลหลาย ๆ อย่างเข้าด้วยกัน โดยให้ความสามารถในการสร้างและ ดูข้อความที่ไม่ใช่เชิงเส้น และตัวอย่างของการนำกลไกนี้ไปใช้ก็คือ WWW เดียวกัน

ภาษามาร์กอัปเอกสารนั้นเป็นชุดคำสั่งพิเศษที่เรียกว่าแท็ก (ในสิ่งพิมพ์ที่แปลบางฉบับ แท็กจะเรียกว่าทางลัด) ซึ่งออกแบบมาเพื่อสร้างโครงสร้างในเอกสารและกำหนดความสัมพันธ์ตามลำดับระหว่างองค์ประกอบต่างๆ ของโครงสร้างนี้ แท็กภาษามาร์กอัปหรือตัวอธิบายการควบคุมที่บางครั้งเรียกว่า จะถูกเข้ารหัสในเอกสารดังกล่าวในลักษณะเฉพาะเจาะจง โดยจัดสรรสัมพันธ์กับเนื้อหาหลักของเอกสาร จากนั้นทำหน้าที่เป็นคำแนะนำสำหรับโปรแกรมที่ตีความและแสดงเนื้อหาของ ในความเป็นจริงสำหรับผู้ที่ดูเอกสารหากคุณพยายามค้นหาการเปรียบเทียบกับอินเทอร์เน็ตบุคคลนี้ก็คือไคลเอนต์และโปรแกรมล่ามในกรณีที่พบบ่อยที่สุดคือเบราว์เซอร์) ในระบบแรก ๆ มีการตัดสินใจใช้สัญลักษณ์ "<" и ">" ซึ่งภายในจะมีชื่อของคำสั่งและพารามิเตอร์อยู่ ทุกวันนี้ วิธีกำหนดแท็กนี้เป็นมาตรฐานที่ยอมรับกันโดยทั่วไป

การใช้การแยกย่อยไฮเปอร์เท็กซ์ของเอกสารข้อความในระบบข้อมูลสมัยใหม่ส่วนใหญ่เกิดจากการที่ไฮเปอร์เท็กซ์ช่วยให้คุณสร้างกลไกสำหรับการดูข้อมูลแบบไม่เชิงเส้นที่เรียกว่า ซึ่งหมายความว่าในระบบ ข้อมูลจะไม่ถูกนำเสนอเป็นกระแสของโครงสร้างข้อความที่ต่อเนื่อง แต่เป็นชุดของส่วนประกอบที่เชื่อมต่อถึงกัน ซึ่งนำทางโดยใช้ไฮเปอร์ลิงก์

ภาษามาร์กอัปไฮเปอร์เท็กซ์ที่ได้รับความนิยมและเป็นที่รู้จักมากที่สุดในปัจจุบันคือ HTML ถูกสร้างขึ้นโดยเฉพาะสำหรับการจัดโครงสร้างและการส่งข้อมูลบนอินเทอร์เน็ต และไม่ต้องสงสัยเลยว่าเป็นองค์ประกอบสำคัญของเทคโนโลยี WWW ด้วยการใช้โมเดลเอกสารไฮเปอร์เท็กซ์ วิธีการนำเสนอแหล่งข้อมูลข้อมูลต่างๆ บนเครือข่ายมีความเป็นระเบียบมากขึ้น และผู้ใช้ได้รับกลไกที่สะดวกในการค้นหาและดูข้อมูลที่จำเป็น อย่างไรก็ตาม สัญญาณแรกในเรื่องนี้ยังถือว่าเป็นภาษาที่เก่ากว่ามาก - SGML

SGML (ภาษามาร์กอัปมาตรฐานทั่วไป) ถูกนำมาใช้อย่างเป็นทางการในปี 1986 เป็นมาตรฐานสากล (ISO 8879:1986) สำหรับการอธิบายอุปกรณ์อินพุต/เอาท์พุตและวิธีการที่เป็นอิสระต่อสภาพแวดล้อมสำหรับการแสดงข้อมูลที่เป็นข้อความในรูปแบบอิเล็กทรอนิกส์ พื้นฐานสำหรับการสร้างคือภาษามาร์กอัปที่ค่อนข้างเก่า GML (ภาษามาร์กอัปทั่วไป) ซึ่งพัฒนาโดย IBM ในสมัยของคอมพิวเตอร์ส่วนบุคคลเครื่องแรก พูดให้ถูกคือ SGML เป็นภาษาโลหะที่ออกแบบมาเพื่ออธิบายภาษามาร์กอัปอื่นๆ

เดิมที คำว่ามาร์กอัปมักถูกใช้เพื่ออธิบายคำอธิบายประกอบหรือเครื่องหมายอื่นๆ ภายในข้อความที่มีจุดมุ่งหมายเพื่อแนะนำผู้เขียนเอกสาร หรือ "ผู้ออกแบบเลย์เอาต์" ตามที่บางครั้งเรียกว่า วิธีการพิมพ์ข้อความโดยเฉพาะ วิธีการดังกล่าวอาจรวมถึงการขีดเส้นใต้เพื่อระบุตัวเอียง ไอคอนพิเศษบางอย่างเพื่อข้ามวลีบางวลีหรือพิมพ์เป็นแบบอักษรเฉพาะ และอื่นๆ เนื่องจากการจัดรูปแบบและการพิมพ์กลายเป็นแบบอัตโนมัติเมื่อเวลาผ่านไป คำนี้จึงรวมไปถึงรหัสมาร์กอัปพิเศษทุกประเภทที่แทรกลงในเอกสารข้อความอิเล็กทรอนิกส์เพื่อควบคุมการจัดรูปแบบ การพิมพ์ หรือการประมวลผลอื่นๆ

ภาษามาร์กอัปจึงเข้าใจว่าเป็นชุดของแบบแผนการจัดรูปแบบที่ใช้ในการเข้ารหัสกลุ่มข้อความ ภาษามาร์กอัปต้องระบุอย่างชัดเจนว่ามาร์กอัปใดที่ยอมรับได้ในเอกสารที่กำหนด มาร์กอัปที่ต้องใช้ วิธีแยกแยะองค์ประกอบจากข้อความธรรมดา และความหมายของมาร์กอัป SGML สามารถแก้ปัญหาสามข้อแรกได้ วิธีแก้ปัญหาสำหรับปัญหาสุดท้ายจำเป็นต้องมีคำอธิบายที่ไม่เป็นทางการ

SGML ซึ่งแตกต่างจากภาษามาร์กอัปอื่น ๆ ทั้งหมดที่สร้างขึ้นบนพื้นฐานของมันใช้หลักการที่เรียกว่ามาร์กอัปเชิงพรรณนาแทนมาร์กอัปขั้นตอน ระบบดังกล่าวใช้องค์ประกอบมาร์กอัปที่จัดเตรียมชื่อเพื่อกำหนดแต่ละส่วนของเอกสารให้กับบางหมวดหมู่ กล่าวอีกนัยหนึ่งแท็กเช่น หรือ \end(list) เพียงระบุส่วนของเอกสารและระบุว่า "ส่วนนี้คือย่อหน้า" หรือ "ส่วนนี้เป็นจุดสิ้นสุดของรายการเริ่มต้น" เป็นต้น ระบบที่ใช้มาร์กอัปขั้นตอน (ซึ่งรวมถึงโปรแกรมประมวลผลคำเช่น Microsoft Word) กำหนดว่าการประมวลผลประเภทใดที่จะดำเนินการ ณ จุดเฉพาะในเอกสารข้อความ: “ ณ สถานที่แห่งนี้ให้เรียกขั้นตอนดังกล่าวและขั้นตอนดังกล่าวด้วยพารามิเตอร์ 5 e และ z” หรือ “ย้ายเส้นขอบของเอกสารไปทางขวา 7 มม. โดยสัมพันธ์กับองค์ประกอบใด ๆ ข้ามหนึ่งบรรทัด เริ่มบรรทัดถัดไปจากเส้นสีแดง ฯลฯ ใน SGML คำแนะนำที่จำเป็นในการประมวลผลเอกสารเพื่อวัตถุประสงค์เฉพาะบางอย่าง (เช่น การจัดรูปแบบ) จะถูกแยกออกจากมาร์กอัปเชิงอธิบายที่เกิดขึ้นภายในเอกสารอย่างชัดเจน โดยปกติแล้วจะถูกรวบรวมไว้นอกเอกสารในขั้นตอนหรือโปรแกรมที่แยกจากกัน

โดยใช้คำอธิบายมากกว่ามาร์กอัปขั้นตอน เอกสารเดียวกันสามารถประมวลผลโดยโปรแกรมที่แตกต่างกัน ซึ่งแต่ละโปรแกรมสามารถใช้คำสั่งการประมวลผลของตัวเองกับส่วนที่เห็นว่าสำคัญ ตัวอย่างเช่น โปรแกรมแยกวิเคราะห์เนื้อหาอาจเพิกเฉยต่อเชิงอรรถทั้งหมด ในขณะที่โปรแกรมการจัดรูปแบบอาจแยกและประกอบเข้าด้วยกันเพื่อพิมพ์ที่ส่วนท้ายของแต่ละส่วน คำแนะนำการประมวลผลประเภทต่างๆ อาจเชื่อมโยงกับส่วนเดียวกันของไฟล์ ตัวอย่างเช่น โปรแกรมหนึ่งอาจแยกชื่อบุคคลและชื่อสถานที่ออกจากเอกสารเพื่อสร้างดัชนีหรือฐานข้อมูล ในขณะที่อีกโปรแกรมหนึ่งที่ประมวลผลข้อความเดียวกันอาจพิมพ์ชื่อด้วยแบบอักษรอื่น

SGML ยังแนะนำแนวคิดของประเภทเอกสาร และวิธีการกำหนดประเภทเอกสาร (คำจำกัดความประเภทเอกสาร DTD) เอกสารถือเป็นการพิมพ์ เช่นเดียวกับวัตถุอื่นๆ ที่ประมวลผลด้วยคอมพิวเตอร์ ประเภทของเอกสารถูกกำหนดอย่างเป็นทางการโดยส่วนประกอบและโครงสร้างของเอกสาร ตัวอย่างเช่น เราอาจกำหนดประเภทเอกสารที่ประกอบด้วยชื่อเรื่องและอาจเป็นชื่อผู้แต่ง ตามด้วยบทคัดย่อและลำดับของย่อหน้าหนึ่งหรือหลายย่อหน้า เอกสารใดๆ ที่ไม่มีชื่อเรื่องตามคำจำกัดความที่เป็นทางการนี้จะไม่ใช่รายงาน เกินกว่าลำดับของย่อหน้าตามด้วยบทคัดย่อ ไม่ว่าเอกสารจะมีลักษณะเหมือนรายงานเพียงใดจากมุมมองของมนุษย์ ผู้อ่าน

เนื่องจากเอกสารเป็นประเภทที่รู้จัก คุณสามารถใช้โปรแกรมพิเศษที่เรียกว่า parser เพื่อประมวลผลเอกสารที่อ้างว่าเป็นประเภทเฉพาะ และตรวจสอบว่าองค์ประกอบทั้งหมดที่จำเป็นสำหรับประเภทเอกสารนั้นมีอยู่และพบในลำดับที่ถูกต้องและถูกต้องหรือไม่ มีโครงสร้าง ที่สำคัญกว่านั้นสามารถประมวลผลเอกสารประเภทเดียวกันที่แตกต่างกันได้ในลักษณะเดียวกัน เป็นไปได้ที่จะเขียนโปรแกรมที่ใช้ความรู้ที่มีอยู่ในโครงสร้างข้อมูลของเอกสาร ซึ่งจะทำให้มีความชาญฉลาดมากขึ้น

SGML เป็นภาษาโลหะ อนุญาตให้มีคำจำกัดความของภาษาเฉพาะ (มักเรียกว่า "แอปพลิเคชัน SGML") ที่กำหนดเป้าหมายแอปพลิเคชันเฉพาะ ตัวอย่างนี้คือภาษา HTML ที่ใช้กันอย่างแพร่หลายใน WWW แต่ละภาษาดังกล่าวได้รับการอธิบายในรูปแบบของ DTD ซึ่งกำหนดองค์ประกอบและคุณลักษณะของภาษาเหล่านั้น เมื่อได้รับ DTD ดังกล่าวแล้ว ซอฟต์แวร์ SGML จะสามารถประมวลผลเอกสารที่เขียนตาม DTD นั้นได้อย่างถูกต้อง

แม้แต่ในโครงการ ภาษานี้ก็ถูกสร้างขึ้นโดยเฉพาะเพื่อใช้รูปแบบการถ่ายโอนข้อมูลไปยังเครือข่ายทั่วโลกที่เรามีอยู่ในขณะนี้ กล่าวอีกนัยหนึ่ง HTML เป็นผลิตภัณฑ์ของอินเทอร์เน็ต แม้ว่าในความเป็นจริง HTML จะเป็นเวอร์ชันที่เรียบง่ายของ Standard Generalized Markup Language - SGML (Standard Generalized Markup Language) ซึ่งได้รับการอนุมัติจาก ISO ให้เป็นมาตรฐานในยุค 80 ของศตวรรษที่ผ่านมา SGTML ไม่ใช่ภาษาในรูปแบบที่บริสุทธิ์ แต่เป็นชุดของกฎและคำอธิบายสำหรับการสร้างภาษาอื่น ๆ โดยจะกำหนดชุดแท็ก คุณลักษณะ และโครงสร้างภายในของเอกสารที่ถูกต้อง การควบคุมการใช้ตัวอธิบายที่ถูกต้องนั้นดำเนินการโดยใช้ชุดกฎพิเศษที่เรียกว่าคำอธิบาย DTD ซึ่งใช้โดยโปรแกรมล่ามไคลเอนต์เมื่อแยกวิเคราะห์เอกสาร สำหรับเอกสารแต่ละคลาส จะมีการกำหนดชุดกฎของตัวเองซึ่งอธิบายไวยากรณ์ของภาษามาร์กอัปที่เกี่ยวข้อง เมื่อใช้ SGML คุณสามารถจัดระเบียบข้อมูลที่มีอยู่ในเอกสาร อธิบายข้อมูลที่มีโครงสร้าง และนำเสนอข้อมูลนี้ในรูปแบบมาตรฐานเพื่อใช้ในภายหลัง อย่างไรก็ตาม เนื่องจากความซับซ้อนบางประการ SGML จึงถูกใช้เพื่ออธิบายไวยากรณ์ของภาษาอื่นเป็นหลัก (ภาษาที่มีชื่อเสียงที่สุดคือ HTML) และแอปพลิเคชันบางตัวที่ทำงานกับเอกสาร SGML โดยตรง

HTML เป็นภาษาที่สะดวกและใช้งานง่ายกว่า SGML มาก ไม่อนุญาตให้กำหนดภาษาเพิ่มเติมตามพื้นฐาน การใช้ HTML เกี่ยวข้องกับการมาร์กอัปเอกสารตามมาตรฐาน ซึ่งกำหนดโดยชุดคำสั่งหรือแท็กที่ค่อนข้างจำกัด ก่อนอื่นคำแนะนำดังกล่าวมีจุดประสงค์เพื่อควบคุมกระบวนการแสดงเนื้อหาของเอกสารบนหน้าจอของโปรแกรมไคลเอนต์และด้วยเหตุนี้จึงกำหนดวิธีการนำเสนอเอกสาร แต่ไม่ใช่โครงสร้างโดยรวม ในกรณีส่วนใหญ่ ข้อมูล HTML จะแสดงเป็นไฟล์ข้อความธรรมดาที่สามารถถ่ายโอนผ่านเครือข่ายได้อย่างง่ายดายโดยใช้โปรโตคอล http

อย่างไรก็ตาม เมื่อเวลาผ่านไปและมีความต้องการเทคโนโลยียอดนิยมที่เข้มงวดมากขึ้น แอปพลิเคชันสมัยใหม่ไม่เพียงต้องการภาษาในการนำเสนอข้อมูลบนหน้าจอไคลเอนต์เท่านั้น แต่ยังต้องมีกลไกที่ช่วยให้สามารถกำหนดโครงสร้างของเอกสารและอธิบายองค์ประกอบที่มีอยู่ด้วย . HTML มีชุดคำสั่งที่เรียบง่ายและค่อนข้างประสบความสำเร็จในการรับมือกับงานอธิบายข้อมูลข้อความและแสดงบนหน้าจอของโปรแกรมดู - เบราว์เซอร์ อย่างไรก็ตาม ข้อมูลที่แสดงนั้นไม่เกี่ยวข้องกับแท็กที่ใช้ในการจัดรูปแบบ ดังนั้นโปรแกรมแยกวิเคราะห์จึงไม่สามารถใช้แท็ก HTML เพื่อค้นหาส่วนของเอกสารที่เราต้องการ เหล่านั้น. ได้พบเห็นลักษณะเช่นนี้เป็นต้น

ดอกกุหลาบ,

ผู้ดูจะรู้ว่าข้อความที่อยู่ภายในแท็กจะแสดงสีอะไร และเป็นไปได้มากว่าจะแสดงอย่างถูกต้อง แต่ไม่แยแสอย่างแน่นอนว่าแท็กนี้พบที่ไหนในเอกสาร แท็กอื่นใดที่แฟรกเมนต์ปัจจุบันถูกปิดอยู่ ไม่ว่าแฟรกเมนต์จะซ้อนกันอยู่หรือไม่ หรือความสัมพันธ์ระหว่างวัตถุจะถูกสร้างขึ้นหรือไม่ อย่างถูกต้อง “ความไม่แยแส” ต่อโครงสร้างของเอกสารนี้นำไปสู่ความจริงที่ว่าการค้นหาหรือวิเคราะห์ข้อมูลภายในนั้นจะไม่ต่างจากการทำงานกับไฟล์ข้อความต่อเนื่องที่ไม่แบ่งออกเป็นองค์ประกอบ และอย่างที่คุณทราบนี่ไม่ใช่วิธีที่มีประสิทธิภาพที่สุดในการทำงานกับข้อมูล

ข้อเสียเปรียบที่สำคัญอีกประการหนึ่งของแนวคิดนี้ซึ่งนำไปใช้ใน HTML ก็คือชุดแท็กที่จำกัด กฎ DTD สำหรับ HTML กำหนดชุดคำอธิบายที่ตายตัว ดังนั้นนักพัฒนาจึงไม่มีโอกาสป้อนแท็กพิเศษของตนเอง แม้ว่าส่วนขยายภาษาใหม่จะปรากฏขึ้นเป็นครั้งคราว (ปัจจุบัน HTML เวอร์ชันล่าสุดคือ HTML 4.0) เส้นทางที่ยาวไกลไปสู่มาตรฐานของพวกเขาพร้อมกับความขัดแย้งอย่างต่อเนื่องระหว่างผู้ผลิตเบราว์เซอร์หลักทำให้แทบเป็นไปไม่ได้เลยที่จะปรับภาษาอย่างรวดเร็ว การใช้งาน สำหรับแสดงข้อมูลเฉพาะทาง (เช่น มัลติมีเดีย คณิตศาสตร์ สูตรเคมี ฯลฯ)

เพื่อสรุปทั้งหมดที่กล่าวมา อาจเป็นที่ถกเถียงกันอยู่ว่าปัจจุบัน HTML ไม่ตรงตามข้อกำหนดที่กำหนดโดยนักพัฒนาสมัยใหม่สำหรับภาษาประเภทนี้อย่างสมบูรณ์ และถูกแทนที่ด้วยภาษามาร์กอัปไฮเปอร์เท็กซ์ใหม่: ทรงพลัง ยืดหยุ่น และในขณะเดียวกันก็เป็นภาษา XML ที่สะดวกสบาย

XML (Extensible Markup Language) เป็นภาษามาร์กอัปที่อธิบายออบเจ็กต์ข้อมูลทั้งหมดที่เรียกว่าเอกสาร XML ภาษานี้ใช้เป็นวิธีอธิบายไวยากรณ์ของภาษาอื่นและควบคุมความถูกต้องของเอกสาร เหล่านั้น. XML เองไม่มีแท็กใดๆ ที่มีไว้สำหรับมาร์กอัป เพียงกำหนดลำดับที่สร้างขึ้น ตัวอย่างเช่น ถ้าเราคิดว่าเราควรใช้แท็กเพื่อระบุองค์ประกอบดอกกุหลาบในเอกสาร จากนั้น XML ช่วยให้เราใช้แท็กที่เรากำหนดได้อย่างอิสระ และเราสามารถรวมส่วนต่างๆ ดังต่อไปนี้ในเอกสารได้:

ดอกกุหลาบ

ชุดแท็กสามารถขยายได้อย่างง่ายดาย หาก สมมติว่า เราต้องการระบุด้วยว่าคำอธิบายของดอกไม้ควรอยู่ในคำอธิบายของเรือนกระจกที่ดอกไม้บานอย่างมีความหมาย เราก็เพียงตั้งค่าแท็กใหม่ และเลือกลำดับที่ปรากฏ:

ดอกกุหลาบ

หากเราต้องการปลูกดอกไม้อีกสองสามดอกที่นั่น เราต้องทำการเปลี่ยนแปลงต่อไปนี้:

ดอกกุหลาบ

ทิวลิป

กระบองเพชร

อย่างที่คุณเห็น กระบวนการสร้างเอกสาร XML นั้นง่ายมาก และต้องการให้เรามีความรู้พื้นฐานเกี่ยวกับ HTML และความเข้าใจในงานที่เราต้องการดำเนินการโดยใช้ XML เป็นภาษามาร์กอัปเท่านั้น สิ่งนี้ทำให้นักพัฒนามีความสามารถพิเศษในการกำหนดคำสั่งแบบกำหนดเองที่ช่วยให้พวกเขาสามารถกำหนดข้อมูลที่มีอยู่ในเอกสารได้อย่างมีประสิทธิภาพสูงสุด ผู้เขียนเอกสารสร้างโครงสร้าง สร้างการเชื่อมต่อที่จำเป็นระหว่างองค์ประกอบต่างๆ โดยใช้คำสั่งที่ตรงตามความต้องการของเขา และบรรลุประเภทของมาร์กอัปที่เขาต้องใช้ในการดู ค้นหา และวิเคราะห์เอกสาร

ข้อดีที่ชัดเจนอีกประการหนึ่งของ XML คือความสามารถในการใช้เป็นภาษาสืบค้นสากลสำหรับที่เก็บข้อมูล วันนี้ในส่วนลึกของ W3C กำลังพิจารณาเวอร์ชันที่ใช้งานได้ของมาตรฐาน XML-QL (หรือ XQL) ซึ่งในอนาคตอาจกลายเป็นคู่แข่งสำคัญของ SQL นอกจากนี้ เอกสาร XML ยังทำหน้าที่เป็นวิธีการจัดเก็บข้อมูลที่ไม่เหมือนใครซึ่งมีทั้งวิธีการแยกวิเคราะห์ข้อมูลและการนำเสนอทางฝั่งไคลเอ็นต์ ในพื้นที่นี้ หนึ่งในพื้นที่ที่น่าหวังคือการบูรณาการเทคโนโลยี Java และ XML ซึ่งทำให้สามารถใช้พลังของเทคโนโลยีทั้งสองเมื่อสร้างแอปพลิเคชันที่ไม่ขึ้นกับเครื่องจักรซึ่งใช้รูปแบบข้อมูลสากลสำหรับการแลกเปลี่ยนข้อมูลด้วย

XML ยังช่วยให้คุณควบคุมความถูกต้องของข้อมูลที่จัดเก็บไว้ในเอกสาร ตรวจสอบความสัมพันธ์แบบลำดับชั้นภายในเอกสาร และสร้างมาตรฐานแบบรวมสำหรับโครงสร้างของเอกสาร ซึ่งเนื้อหาอาจเป็นข้อมูลที่หลากหลายได้ ซึ่งหมายความว่าสามารถใช้ในการสร้างระบบข้อมูลที่ซับซ้อนได้ ซึ่งประเด็นการแลกเปลี่ยนข้อมูลระหว่างแอปพลิเคชันต่าง ๆ ที่ทำงานในระบบเดียวกันมีความสำคัญมาก ด้วยการสร้างโครงสร้างสำหรับกลไกการแลกเปลี่ยนข้อมูลในช่วงเริ่มต้นของการทำงานในโครงการ ผู้จัดการสามารถช่วยตัวเองในอนาคตจากปัญหามากมายที่เกี่ยวข้องกับความไม่เข้ากันของรูปแบบข้อมูลที่ใช้โดยส่วนประกอบต่างๆ ของระบบ

นอกจากนี้ ข้อดีประการหนึ่งของ XML ก็คือโปรแกรมประมวลผลเอกสาร XML นั้นเรียบง่าย และปัจจุบันผลิตภัณฑ์ซอฟต์แวร์ทุกประเภทที่ออกแบบมาเพื่อทำงานกับเอกสาร XML ได้รับการเผยแพร่อย่างอิสระ ปัจจุบันรองรับ XML ในทุกเบราว์เซอร์ของตระกูล Microsoft Internet Explorer โดยเริ่มตั้งแต่เวอร์ชัน 4.0 มีการประกาศว่าจะได้รับการสนับสนุนในแอปพลิเคชัน Netscape Communicator, Oracle DBMS, DB-2 และ MS-Office เวอร์ชันต่อๆ ไป ทั้งหมดนี้ให้เหตุผลให้สันนิษฐานว่าในอนาคตอันใกล้นี้ XML จะกลายเป็นภาษาแลกเปลี่ยนข้อมูลหลักสำหรับระบบข้อมูลซึ่งแทนที่ HTML ภาษามาร์กอัปเฉพาะที่รู้จักกันดีเช่น SMIL, CDF, MathML, XSL ได้ถูกสร้างขึ้นแล้วบนพื้นฐานของ XML และรายการแบบร่างการทำงานของภาษาใหม่ภายใต้การพิจารณาของ W3C มีการเติบโตอย่างต่อเนื่อง

เอกสาร XML มีลักษณะอย่างไร

หากคุณคุ้นเคยกับ HTML การเรียนรู้ XML จะไม่ต้องใช้ความพยายามมากนัก แม้ว่า XML จะมีความแตกต่างอย่างมากในด้านความสามารถและจุดประสงค์จาก HyperText Markup Language แต่ทั้งสองภาษาเป็นส่วนย่อยของ SGML และดังนั้นจึงสืบทอดหลักการพื้นฐานของมัน

โครงสร้างเอกสาร

เอกสาร XML แบบธรรมดาอาจมีลักษณะเหมือนตัวอย่างที่ 1

อันดับแรก

ที่สอง ย่อหน้าย่อย 1

ที่สาม

ล่าสุด

โปรดทราบว่าเอกสารนี้คล้ายกับหน้า HTML ทั่วไปมาก เช่นเดียวกับใน HTML คำแนะนำที่อยู่ในวงเล็บมุมจะเรียกว่าแท็กและทำหน้าที่มาร์กอัปเนื้อหาของเอกสาร ใน XML มีแท็กเปิด ปิด และว่างเปล่า (ใน HTML แนวคิดของแท็กว่างเปล่าก็มีอยู่เช่นกัน แต่ไม่จำเป็นต้องกำหนดพิเศษ)

เนื้อความของเอกสาร XML ประกอบด้วยองค์ประกอบมาร์กอัปและเนื้อหาจริงของเอกสาร - ข้อมูล (เนื้อหา) แท็ก XML ได้รับการออกแบบมาเพื่อกำหนดองค์ประกอบของเอกสาร คุณลักษณะ และโครงสร้างภาษาอื่นๆ เราจะพูดถึงรายละเอียดเพิ่มเติมเกี่ยวกับประเภทของมาร์กอัปที่ใช้ในเอกสารในภายหลัง

เอกสาร XML ใดๆ จะต้องเริ่มต้นด้วยคำสั่งเสมอภายในซึ่งคุณสามารถตั้งค่าหมายเลขเวอร์ชันภาษา หมายเลขหน้าโค้ด และพารามิเตอร์อื่น ๆ ที่จำเป็นสำหรับโปรแกรมวิเคราะห์ในกระบวนการแยกวิเคราะห์เอกสาร

กฎสำหรับการสร้างเอกสาร XML

โดยทั่วไป เอกสาร XML จะต้องเป็นไปตามข้อกำหนดต่อไปนี้:

ส่วนหัวของเอกสารมีการประกาศ XML ที่ระบุภาษามาร์กอัปของเอกสาร หมายเลขเวอร์ชัน และข้อมูลเพิ่มเติม

แท็กเปิดแต่ละแท็กที่กำหนดพื้นที่ข้อมูลบางส่วนในเอกสารจะต้องมี "พันธมิตร" ปิดของตัวเอง กล่าวคือ ไม่สามารถละเว้นแท็กปิดได้ ซึ่งต่างจาก HTML

XML คำนึงถึงขนาดตัวพิมพ์

ค่าแอตทริบิวต์ทั้งหมดที่ใช้ในคำจำกัดความของแท็กจะต้องอยู่ในเครื่องหมายคำพูด

การซ้อนแท็กใน XML ได้รับการควบคุมอย่างเข้มงวด ดังนั้นจึงจำเป็นต้องตรวจสอบลำดับการเปิดและปิดแท็ก

ข้อมูลทั้งหมดระหว่างแท็กเริ่มต้นและแท็กสิ้นสุดจะถือเป็นข้อมูลใน XML ดังนั้นอักขระการจัดรูปแบบทั้งหมดจึงถูกนำมาพิจารณาด้วย (เช่น การเว้นวรรค ตัวแบ่งบรรทัด แท็บจะไม่ถูกละเว้นเช่นเดียวกับใน HTML)

หากเอกสาร XML ไม่ละเมิดกฎข้างต้น จะเรียกว่าถูกต้องอย่างเป็นทางการ และผู้วิเคราะห์ทั้งหมดที่ออกแบบมาเพื่อแยกวิเคราะห์เอกสาร XML จะสามารถทำงานได้อย่างถูกต้อง

อย่างไรก็ตาม นอกเหนือจากการตรวจสอบการปฏิบัติตามไวยากรณ์ของภาษาอย่างเป็นทางการแล้ว เอกสารอาจมีวิธีการควบคุมเนื้อหาของเอกสาร การปฏิบัติตามกฎที่กำหนดความสัมพันธ์ที่จำเป็นระหว่างองค์ประกอบและสร้างโครงสร้างของเอกสาร ตัวอย่างเช่น ข้อความต่อไปนี้ แม้ว่าจะเป็นเอกสาร XML ที่ถูกต้องสมบูรณ์ แต่ก็จะไม่มีความหมายโดยสิ้นเชิง:

รัสเซีย โนโวซีบีสค์</country>

เพื่อให้มั่นใจว่ามีการตรวจสอบความถูกต้องของเอกสาร XML จำเป็นต้องใช้เครื่องวิเคราะห์ที่ทำการตรวจสอบดังกล่าวและเรียกว่าเครื่องตรวจสอบ

ปัจจุบัน มีสองวิธีหลักในการควบคุมความถูกต้องของเอกสาร XML: คำจำกัดความ DTD (คำจำกัดความประเภทเอกสาร) และสคีมาข้อมูล (Semantic Schema) เราจะพูดคุยเพิ่มเติมเกี่ยวกับการใช้ DTD และสคีมาในครั้งต่อไป ต่างจาก SGML ตรงที่ไม่จำเป็นต้องกำหนดกฎ DTD ใน XML และสถานการณ์นี้ทำให้เราสามารถสร้างเอกสาร XML ใดๆ ได้โดยไม่ต้องกังวลกับไวยากรณ์ DTD ที่ซับซ้อนมาก

หลักการพื้นฐาน

องค์ประกอบคือหน่วยโครงสร้างพื้นฐานของเอกสาร XML ใส่คำว่า กุหลาบ ในแท็ก เรากำหนดองค์ประกอบที่ไม่ว่างเปล่าที่เรียกว่า ซึ่งมีเนื้อหาเป็นกุหลาบ ในกรณีทั่วไป เนื้อหาขององค์ประกอบอาจเป็นเพียงข้อความบางส่วน หรือองค์ประกอบเอกสารที่ซ้อนกัน ส่วน CDATA คำแนะนำในการประมวลผล ความคิดเห็น เช่น เกือบทุกส่วนของเอกสาร XML

องค์ประกอบที่ไม่ว่างเปล่าจะต้องประกอบด้วยแท็กเริ่มต้น แท็กปิดท้าย และข้อมูลที่อยู่ระหว่างองค์ประกอบเหล่านั้น

ชุดขององค์ประกอบทั้งหมดที่มีอยู่ในเอกสารจะกำหนดโครงสร้างและกำหนดความสัมพันธ์แบบลำดับชั้นทั้งหมด การใช้องค์ประกอบ โมเดลข้อมูลแบบเรียบจะถูกแปลงเป็นระบบลำดับชั้นที่ซับซ้อนโดยมีความสัมพันธ์ที่เป็นไปได้มากมายระหว่างองค์ประกอบ

เมื่อค้นหาเอกสารในภายหลัง โปรแกรมไคลเอนต์จะใช้ข้อมูลที่ฝังอยู่ในโครงสร้างโดยใช้องค์ประกอบของเอกสาร เหล่านั้น. ตัวอย่างเช่น หากคุณต้องการค้นหามหาวิทยาลัยที่เหมาะสมในเมืองที่ถูกต้อง คุณจะต้องดูเนื้อหาขององค์ประกอบเฉพาะ ซึ่งอยู่ภายในองค์ประกอบเฉพาะ - การค้นหาในกรณีนี้จะมีประสิทธิภาพมากกว่าการค้นหาลำดับที่ต้องการตลอดทั้งเอกสารโดยธรรมชาติ

ตามกฎแล้วในเอกสาร XML จะมีการกำหนดองค์ประกอบอย่างน้อยหนึ่งองค์ประกอบ เรียกว่ารูท และตัวแยกวิเคราะห์จะเริ่มสแกนเอกสารจากองค์ประกอบนี้ ในตัวอย่างที่ให้มา องค์ประกอบนี้คือ .

ในบางกรณี แท็กสามารถเปลี่ยนและชี้แจงความหมายของส่วนบางส่วนของเอกสาร โดยกำหนดข้อมูลเดียวกันในวิธีที่แตกต่างกัน และด้วยเหตุนี้จึงจัดเตรียมแอปพลิเคชันที่วิเคราะห์เอกสารนี้พร้อมข้อมูลเกี่ยวกับบริบทของการใช้ข้อมูลที่อธิบาย เช่น หลังจากอ่านบทแล้ว ฮอลลีวู้ดเราเดาได้เลยว่าส่วนนี้ของเอกสารเกี่ยวกับเมือง แต่อยู่ในส่วนนั้น ฮอลลีวู้ด- เกี่ยวกับร้านอาหาร

บทสรุป

เดิมทีภาษา HTML สำหรับการจัดรูปแบบเว็บเพจถูกนำมาใช้เป็นแอปพลิเคชันของ SGML ต่อมาด้วยการพัฒนาอย่างรวดเร็วของ WWW HTML ก็เริ่มขยายตัวในทุกวิถีทางที่เป็นไปได้เพื่อให้ผู้เขียนสามารถควบคุมการนำเสนอข้อมูลภายนอกได้มากขึ้น องค์ประกอบและคุณสมบัติใหม่เช่น หรือ เน้นไปที่การจัดรูปแบบภาพ เครื่องมือที่ไม่ได้เป็นส่วนหนึ่งของภาษามาร์กอัปปรากฏขึ้นและเริ่มมีการใช้งานอย่างแข็งขัน: imagemaps, Java และ JavaScript, ปลั๊กอินและอื่น ๆ นอกจากนี้ยังมีองค์ประกอบ HTML มากมายที่เบราว์เซอร์บางประเภทรองรับเท่านั้น หรือที่ทำงานต่างกันในเบราว์เซอร์ที่ต่างกัน ดังนั้นจึงเป็นเรื่องยากที่จะบอกว่า HTML เป็นแอปพลิเคชัน SGML หรือไม่ มีเพียงไม่กี่หน้าเท่านั้นที่ถูกสร้างขึ้นตามข้อกำหนด HTML และ DTD ที่เกี่ยวข้อง

ปัญหานี้บางส่วนมีจุดมุ่งหมายเพื่อบรรเทาด้วยรูปแบบการเรียงซ้อน ซึ่งเป็นมาตรฐานที่สมาคม W3 นำมาใช้ CSS1 แยกสไตล์ที่กำหนดลักษณะที่ปรากฏขององค์ประกอบออกจากมาร์กอัปขององค์ประกอบ

สิ่งที่น่าสนใจอย่างยิ่งคือภาษา XML ซึ่งควรจะแทนที่ HTML เป็นภาษามาร์กอัปสำหรับเว็บเพจ นี่คือรูปแบบหนึ่งของ SGML ซึ่งมุ่งเป้าไปที่การใช้งานบน WWW เป็นหลัก ไม่จำเป็นต้องมี DTD และภาษาเองก็ง่ายขึ้นเนื่องจากมีโครงสร้างที่ซับซ้อนที่ไม่ค่อยได้ใช้ สิ่งนี้จะทำให้ parsers ง่ายขึ้น ซึ่งจะทำให้สามารถใช้ XML ในเบราว์เซอร์ได้ (ความเป็นไปได้ค่อนข้างสูง เมื่อพิจารณาจากผู้เล่นหลักทั้งสองในฟิลด์เบราว์เซอร์ที่มีต่อ XML)


ฉบับพิมพ์>>
บทความที่อ่าน:ครั้งหนึ่ง.

ในระบบประมวลผลคำ ข้อมูลเพิ่มเติมจะรวมอยู่ในเอกสารที่เรียกว่า เครื่องหมายและทำหน้าที่ดังต่อไปนี้:

  • เน้นองค์ประกอบเชิงตรรกะของเอกสารที่กำหนด
  • ฟังก์ชั่นการตั้งค่าสำหรับการประมวลผลองค์ประกอบที่เลือก

โปรแกรมประมวลผลคำทั่วไปมีคำสั่งในตัวสำหรับเปิด/ปิดแบบอักษรและอื่นๆ คล้ายกับคำสั่งสำหรับควบคุมการวางข้อมูลบนหน้าจอหรือเมื่อพิมพ์ (ที่เรียกว่าลำดับ Escare) วิธีนี้เรียกว่า ทีมหรือ มาร์กอัปขั้นตอน.

เทคนิคมาร์กอัปทางเลือกอีกวิธีหนึ่งคือการเลือกส่วนของข้อความโดยไม่ระบุว่าควรจัดการกับการเลือกอย่างไร คำสั่งอื่นๆ จะกำหนดวิธีการประมวลผลแฟรกเมนต์ มาร์กอัปนี้เรียกว่า พรรณนา(บรรยาย). โดยมีแท็กที่จุดเริ่มต้นและจุดสิ้นสุดขององค์ประกอบข้อความ และระบุวิธีการตีความส่วนนี้

ด้วยการเปลี่ยนชุดขั้นตอนที่สอดคล้องกับมาร์กอัปเชิงอธิบาย คุณสามารถเปลี่ยนรูปลักษณ์ของเอกสารเดียวกันได้ การพัฒนาแนวคิดเกี่ยวกับมาร์กอัปเชิงพรรณนานำไปสู่คำจำกัดความของมาร์กอัปเป็นภาษาที่เป็นทางการ วิธีนี้ช่วยให้คุณตรวจสอบความถูกต้องของมาร์กอัปและลดปริมาณให้เหลือน้อยที่สุดโดยการแทนที่ค่าเริ่มต้น

ข้อดี

ข้อได้เปรียบหลักของมาร์กอัปเชิงพรรณนาคือความยืดหยุ่น เนื่องจากชิ้นส่วนของข้อความถูกทำเครื่องหมายว่า "คืออะไร" (แทนที่จะเป็น "วิธีที่ควรแสดงผล") และซอฟต์แวร์อาจถูกเขียนขึ้นในอนาคตเพื่อจัดการกับชิ้นส่วนเหล่านี้ด้วยวิธีที่แม้แต่ ตั้งใจโดยนักออกแบบภาษา ตัวอย่างเช่น ไฮเปอร์ลิงก์ HTML ซึ่งเดิมมีจุดประสงค์เพื่อให้ผู้ใช้สามารถนำทางผ่านชุดการเชื่อมต่อบนเครือข่าย ต่อมาเริ่มถูกใช้โดยกลไกการค้นหาและการจัดทำดัชนีบนเครือข่าย เพื่อประเมินความนิยมของทรัพยากร และอื่นๆ

มาร์กอัปเชิงอธิบายยังช่วยให้ฟอร์แมตเอกสารใหม่ได้ง่ายขึ้นหากจำเป็น เนื่องจากคำอธิบายของรูปแบบไม่เกี่ยวข้องกับเนื้อหา ตัวอย่างเช่น, ตัวเอียงสามารถใช้เพื่อเน้นข้อความ ทำเครื่องหมายคำภาษาต่างประเทศ (หรือสแลง) หรือเพื่อวัตถุประสงค์อื่น อย่างไรก็ตาม หากคำต่างๆ ถูกเน้นเพียงอย่างเดียว (โดยอธิบายหรือตามขั้นตอน) เป็นตัวเอียง ความกำกวมนี้ก็ไม่สามารถแก้ไขได้ทั้งหมด หากทั้งสองกรณีมีป้ายกำกับต่างกันตั้งแต่เริ่มแรก แต่ละกรณีสามารถจัดรูปแบบใหม่ได้โดยแยกจากกรณีอื่นๆ มาร์กอัปทั่วไปเป็นอีกชื่อหนึ่งของมาร์กอัปที่สื่อความหมาย

ในทางปฏิบัติ องค์ประกอบของคลาสมาร์กอัปที่แตกต่างกันมักจะอยู่ร่วมกันในระบบใดก็ตาม ตัวอย่างเช่น HTML มีทั้งองค์ประกอบมาร์กอัปที่เป็นขั้นตอน (b สำหรับตัวหนา) และองค์ประกอบอื่นๆ ที่เป็นคำอธิบาย (แอตทริบิวต์ "blockquote" หรือ "href") HTML ยังมีองค์ประกอบ PRE ซึ่งจำกัดพื้นที่ของข้อความที่จะอยู่ในตำแหน่งที่พิมพ์ทุกประการ

ระบบมาร์กอัปเชิงพรรณนา

ระบบมาร์กอัปเชิงพรรณนาที่ทันสมัยส่วนใหญ่ถือว่าเอกสารเป็นโครงสร้างแบบลำดับชั้น (ต้นไม้) และยังมีสิ่งอำนวยความสะดวกบางอย่างสำหรับการอ้างอิงโยงในตัว ดังนั้นเอกสารดังกล่าวจึงสามารถตีความและประมวลผลได้ดังนี้ ฐานข้อมูลซึ่งมีโครงสร้างที่กำหนดไว้ค่อนข้างดี (อย่างไรก็ตาม เนื่องจากไม่มีสคีมาที่เข้มงวดเช่นฐานข้อมูลเชิงสัมพันธ์ จึงมักเรียกว่า "ฐานข้อมูลกึ่งโครงสร้าง")

เมื่อถึงสหัสวรรษที่ 3 ความสนใจก็เกิดขึ้นในเอกสารที่มีโครงสร้างที่ไม่ใช่ลำดับชั้น ตัวอย่างเช่น วรรณกรรมโบราณและวรรณกรรมทางศาสนามักจะมีโครงสร้างวาทศิลป์หรือร้อยแก้ว (เรื่องราว บท ย่อหน้า ฯลฯ) และยังรวมถึงข้อมูลความเป็นมา (หนังสือ บท บท บรรทัด) เนื่องจากขอบเขตของโมดูลเหล่านี้มักจะทับซ้อนกัน จึงไม่สามารถเข้ารหัสได้อย่างสมบูรณ์โดยใช้เพียงระบบมาร์กอัปที่มีโครงสร้างแบบต้นไม้เท่านั้น ระบบการสร้างแบบจำลองเอกสารที่รองรับโครงสร้างดังกล่าว ได้แก่ MECS, TEI Guidelines, LMNL และ CLIX

คำว่า "มาร์กอัป" มาจากการปฏิบัติแบบดั้งเดิมในการทำเครื่องหมายต้นฉบับก่อนตีพิมพ์ (นั่นคือ การเพิ่มคำสั่งเชิงสัญลักษณ์ที่ระยะขอบและระหว่างบรรทัดของต้นฉบับบนกระดาษ) เป็นเวลาหลายศตวรรษแล้วที่สิ่งนี้ทำโดยผู้จัดพิมพ์ (บรรณาธิการและผู้พิสูจน์อักษร) ซึ่งสังเกตว่าควรพิมพ์แบบอักษรสไตล์และขนาดจุดใดของข้อความจากนั้นส่งมอบต้นฉบับให้กับผู้เรียงพิมพ์ซึ่งพิมพ์ข้อความด้วยตนเองโดยคำนึงถึงมาร์กอัป สัญลักษณ์

ปัจจุบันมีภาษามาร์กอัปหลายภาษาซึ่งเป็นที่รู้จักกันอย่างแพร่หลาย ได้แก่ DocBook, MathML, SVG, Open eBook, XBRL และอื่น ๆ มีวัตถุประสงค์หลักเพื่อแสดงเอกสารข้อความต่าง ๆ แต่ภาษาพิเศษสามารถใช้ได้ในด้านอื่น ๆ อีกมากมาย แน่นอนว่าภาษามาร์กอัปที่รู้จักกันดีที่สุดคือ HTML (HyperText Markup Language) ซึ่งเป็นหนึ่งในรากฐานของ WWW (เวิลด์ไวด์เว็บ)

เอกสารใด ๆ มีองค์ประกอบสามประการ:

  • เนื้อหา;
  • โครงสร้าง;
  • สไตล์.

โดยปกติแล้ว เนื้อหาของเอกสารจะไม่เรียงลำดับใดๆ แต่มีเนื้อหาที่แน่นอนโครงสร้าง - โครงสร้างคือองค์ประกอบและลำดับของส่วนต่างๆ (บล็อก) ของเอกสาร

สไตล์ document กำหนดรูปแบบเอาต์พุตของเนื้อหาไปยังอุปกรณ์เฉพาะ (เช่น เครื่องพิมพ์หรือจอแสดงผล) แนวคิดของสไตล์ประกอบด้วยลักษณะของแบบอักษร (ชื่อ ขนาด สี) ของเอกสารเอาต์พุตทั้งหมดหรือแต่ละบล็อก ลำดับของการแบ่งหน้า ตำแหน่งของบล็อกบนหน้า และพารามิเตอร์อื่น ๆ

ภาษามาร์กอัปเอกสารเป็นภาษาประดิษฐ์ที่ออกแบบมาเพื่ออธิบายโครงสร้างของเอกสารและความสัมพันธ์ระหว่างวัตถุต่างๆ ของโครงสร้าง ข้อมูลมาร์กอัปเรียกอีกอย่างว่าข้อมูลเมตา

ภาษามาร์กอัปแรกคือภาษาจีเอ็มแอล . ทายาทโดยทันทีของเขาคือภาษาเอสจีเอ็มแอล ภาษามาร์กอัปทั่วไปมาตรฐานที่กำหนดกฎสำหรับการเขียนองค์ประกอบมาร์กอัปเอกสาร

ข้อกำหนดภาษามาร์กอัปเอกสาร:

  1. ภาษาจะต้องเป็นภาษาที่มนุษย์สามารถอ่านได้
  2. ไฟล์เอกสารที่มาร์กอัปต้องเป็นข้อความและเข้ารหัสโดยใช้สัญลักษณ์โค้ดแอสกี
  3. ภาษาสามารถใช้ลิงก์ไปยังทรัพยากรภายใน (ในเอกสารเดียวกัน) และทรัพยากรภายนอก (ในเอกสารอื่น)

ใน SGML และภาษาที่คล้ายกันใช้เครื่องมือมาร์กอัปเอกสารพิเศษ:

  • โครงสร้างเอกสาร
  • คำอธิบายหรือองค์ประกอบและคุณลักษณะที่เกี่ยวข้อง
  • หน่วยงาน;
  • ความคิดเห็น

เอกสาร SGML มีโครงสร้างเป็นต้นไม้

ตัวอธิบายใน SGML วางไว้ที่จุดเริ่มต้น (ตัวอธิบายการเปิด) และส่วนท้าย (ตัวอธิบายปิด) ของแต่ละรายการองค์ประกอบ (รายการ)

คุณลักษณะ สิ่งเหล่านี้คือโครงสร้างเชิงสัญลักษณ์ที่เรียบง่าย (รายการ ) ซึ่งถูกเพิ่มเข้าไปในองค์ประกอบเพื่อชี้แจงผลกระทบของตัวอธิบาย

ภาษามาร์กอัปทั่วไปเช่นเอสจีเอ็มแอล อนุญาตให้ใช้แอตทริบิวต์ที่สามารถเชื่อมโยงกับค่าประเภทต่างๆ ได้ถึง 15 ประเภท รวมถึง:

  • การอ้างอิงถึงทรัพยากรใดๆ ภายนอกเอกสารที่โดยทั่วไปจะเรียกว่าเอนทิตี (เอนทิตี)
  • ตัวระบุที่ไม่ซ้ำ (บัตรประจำตัวประชาชน ) องค์ประกอบในเอกสาร
  • ตัวชี้ตัวระบุ (ตัวชี้ ID ) มีการอ้างอิงโยงสำหรับองค์ประกอบเหล่านั้นที่มีบัตรประจำตัวประชาชน กล่าวถึงในเอกสาร
  • ตัวกำหนดหรือแอตทริบิวต์ขององค์ประกอบที่กำหนดการกำหนดในเนื้อหาขององค์ประกอบ
  • ข้อมูลตัวละคร (ข้อมูลอักขระ) หรือ CDATA ซึ่งเป็นอักขระที่ถูกต้องซึ่งไม่สามารถทำหน้าที่เป็นค่าแอตทริบิวต์ได้

ความคิดเห็น อนุญาตให้คุณเพิ่มข้อมูลที่จะไม่ปรากฏให้เห็นหลังจากประมวลผลเอกสาร ความคิดเห็นไม่ส่งผลต่อความเร็วของการประมวลผลเอกสาร และไม่ถือเป็นหรือประมวลผลเป็นส่วนหนึ่งของเนื้อหาเอสจีเอ็มแอล -เอกสาร. สิ่งเหล่านี้รวมอยู่ในข้อความต้นฉบับ

ในการตรวจสอบความสอดคล้องของเอกสารด้วยมาร์กอัปประเภทที่กำหนดจะใช้โปรแกรมพิเศษเครื่องวิเคราะห์ (พาร์เซอร์) Parsers เป็นโปรแกรมแบบสแตนด์อโลนหรือเป็นส่วนหนึ่งของโปรแกรมประมวลผลเอกสาร SGML เพื่อให้ parser ดำเนินการตรวจสอบเอกสาร จะมีการสร้างเอกสารพิเศษขึ้นการกำหนดประเภทเอกสาร

ภาษา HTML เป็นแอปพลิเคชั่นภาษาเอสจีเอ็มแอล เพื่อใช้ในอินเทอร์เน็ต ด้วยโครงสร้างคงที่ ชุดองค์ประกอบคงที่ (ตัวอธิบาย) และคุณลักษณะ ตลอดจนชุดเอนทิตีคงที่ ภาษามาร์กอัปขั้นสูง XML (ภาษามาร์กอัปที่ขยายได้) ภาษาเอ็กซ์เอ็มแอล เป็นส่วนย่อยของภาษาเอสจีเอ็มแอล เข้ากันได้อย่างสมบูรณ์กับมัน

XML มีฟังก์ชันการทำงานที่หลากหลายซึ่งไม่มีในนั้น HTML

4 . 3 .2. เวอร์ชันและส่วนขยาย HTML XML

รุ่นแรก ภาษามาร์กอัปไฮเปอร์เท็กซ์ HTML (HyperText Markup Language) เช่นเดียวกับเทคโนโลยีเว็บ ได้รับการพัฒนาโดย Tim Berners Lee ในปี 1991 ภาษา HTMLเป็นการดำเนินการตามกฎภาษา SGML สำหรับประเภทเอกสารที่ได้รับการตั้งชื่อเอกสาร HTML. ภาษาระบุโครงสร้างคงที่ ชุดแท็กและคุณลักษณะคงที่ และชุดเอนทิตีคงที่ โปรแกรมประมวลผลเอกสาร HTML เรียกว่าเว็บ-เบราว์เซอร์ - ผลลัพธ์ของการประมวลผลเอกสารคือเว็บ-หน้าหนังสือ ปรากฏบนหน้าจอแสดงผล

ในปี 1994 กลุ่มสนับสนุนอินเทอร์เน็ต IETF (คณะทำงานเฉพาะกิจวิศวกรรมอินเทอร์เน็ต) พัฒนาข้อกำหนด HTML 2.0 ซึ่งเริ่มใช้ HTML อย่างแพร่หลายบนอินเทอร์เน็ตอินเทอร์เน็ต - ในปีเดียวกันนั้น กลุ่ม W3C (World Wide Web Corporation) ได้ถูกสร้างขึ้น โดยรวบรวมองค์กรเชิงพาณิชย์และวิชาการ นักพัฒนา และผู้ใช้ 165 แห่ง (ตั้งแต่ก่อตั้งจนถึงปัจจุบัน องค์กรนี้นำโดย T.B. Lee) ข้อกำหนด HTML เวอร์ชันล่าสุดคือ HTML 4.01 ถูกนำมาใช้โดยสมาคมในเดือนธันวาคม พ.ศ. 2542

  • XML มีฟังก์ชันการทำงานมากมายที่ HTML ไม่มี

ข้อกำหนดภาษา XML เวอร์ชันล่าสุด XML 1.1 ถูกนำมาใช้ในเดือนเมษายน พ.ศ. 2547

จากภาษา XML นั้น W3C ได้พัฒนาการพัฒนาภาษาเพิ่มเติมภาษา HTML XHTML (ขยาย HTML HTML แบบขยาย) เวอร์ชันแรกของภาษานี้ XHTML 1.0 ถูกนำมาใช้ในเดือนมกราคม พ.ศ. 2543 เวอร์ชันนี้เป็นการปรับปรุง HTML 4 ให้เป็นแอปพลิเคชันของ XML 1.0 คาดว่าการพัฒนาภาษา HTML เพิ่มเติมจะดำเนินการตามข้อกำหนด XHTML

XHTML เวอร์ชันใหม่ XHTML 1.1 ถูกนำมาใช้โดย W3C ในเดือนพฤษภาคม พ.ศ. 2544 คำแนะนำนี้กำหนดประเภทเอกสาร XHTML ที่ใช้โมดูลใหม่ แต่ละโมดูล XHTML 1.1 มีองค์ประกอบภาษา HTML และ/หรือแอตทริบิวต์ตั้งแต่หนึ่งรายการขึ้นไป

ตามข้อกำหนดเอกสาร XHTML 1.1 ประกอบด้วยกลุ่มโมดูลดังต่อไปนี้ XHTML:

โมดูลหลักคือโมดูลที่จำเป็นต้องมีอยู่ในเอกสารประเภทใดก็ตามที่สอดคล้องกับข้อกำหนด XHTML (กลุ่มนี้รวมถึงโมดูลด้วยโครงสร้าง ข้อความ ไฮเปอร์เท็กซ์ และรายการ)

โมดูลแอปเพล็ต ซึ่งมีองค์ประกอบเดียว< applet > (องค์ประกอบนี้เลิกใช้แล้ว และขอแนะนำให้ใช้องค์ประกอบแทน< object > ).

โมดูลส่วนขยายข้อความ ซึ่งกำหนดโมดูลมาร์กอัปข้อความเพิ่มเติมต่างๆ (กลุ่มนี้รวมถึงโมดูลด้วยการนำเสนอ แก้ไข และข้อความสองทิศทาง)

โมดูลแบบฟอร์ม (กลุ่มนี้รวมถึงโมดูลด้วยแบบฟอร์มพื้นฐานและแบบฟอร์ม)

โมดูลตาราง (กลุ่มนี้รวมถึงโมดูลตารางพื้นฐานและตาราง)

โมดูลรูปภาพ ซึ่งให้ความสามารถในการฝังรูปภาพขั้นพื้นฐาน (โมดูลนี้ยังสามารถใช้งานได้อย่างอิสระในการใช้งานบางอย่างด้วยการ์ดรูปภาพไคลเอนต์)

โมดูลแผนที่รูปภาพฝั่งไคลเอ็นต์ ซึ่งมีองค์ประกอบสำหรับการแมปรูปภาพไคลเอ็นต์ (เพื่อให้โมดูลนี้ทำงานได้ ต้องเปิดใช้งานโมดูลภาพ).

โมดูลวัตถุ ซึ่งให้การสนับสนุนสำหรับการรวมวัตถุวัตถุประสงค์ทั่วไป

โมดูลเฟรม ซึ่งมีองค์ประกอบที่เกี่ยวข้องกับเฟรม

URL (องค์ประกอบนี้จะคำนวณ URL ของเอกสารที่เกี่ยวข้อง)

โมดูลระบุชื่อ ใช้เพื่อระบุองค์ประกอบบางอย่างในเอกสาร HTML

โมดูลดั้งเดิม ซึ่งกำหนดองค์ประกอบและคุณลักษณะที่ไม่แนะนำใน HTML และ XHTML เวอร์ชันก่อนหน้าอีกต่อไป และไม่แนะนำอีกต่อไป

4. 3 .3. ประเภทของโครงสร้าง HTML และ XHTML

ตามข้อกำหนด HTML 4.01 สำหรับเอกสาร HTML กำหนดสามโครงสร้าง อธิบายโดย DTD สามตัว นักพัฒนาเว็บ -pages ต้องมีการประกาศประเภทใดประเภทหนึ่งจากสามประเภทในเอกสาร ความแตกต่างระหว่าง DTD อยู่ที่องค์ประกอบที่รองรับ ประกาศดีทีดี ควรวางไว้ที่จุดเริ่มต้นของเอกสาร

HTML 4.01 DTD ที่เข้มงวด (คำจำกัดความที่เข้มงวด) รวมถึงองค์ประกอบและคุณลักษณะทั้งหมดที่ไม่ได้ถูกยกเลิก (เลิกใช้แล้ว ) และจะไม่ใช้ในเอกสารที่มีกรอบ

คำจำกัดความ DTD ชั่วคราวของ HTML 4.0 (คำจำกัดความเฉพาะกาล) รวมถึงองค์ประกอบทั้งหมดที่รวมอยู่ในความเข้มงวดดีทีดี รวมถึงองค์ประกอบและคุณลักษณะที่ถูกยกเลิก

นิยาม HTML 4.0 เฟรมเซ็ต DTD (คำจำกัดความสำหรับเฟรม) รวมถึงเฟรมนอกเหนือจากองค์ประกอบของการเปลี่ยน DTD

บรรทัดแรกของเอกสาร HTML กำหนดตามข้อกำหนด XHTML

บรรทัดนี้ระบุเวอร์ชันที่จะใช้ XML และการเข้ารหัสอักขระเอกสาร เมื่อเข้ารหัสอักขระใน XML ใช้รหัสไบต์คู่ยูนิโค้ด - เป็นค่าพารามิเตอร์การเข้ารหัส การเข้ารหัสที่ใช้บ่อยที่สุด UTF-8 ซึ่งค่าของอักขระ 128 ตัวแรกจะแสดงเป็นการเข้ารหัสหนึ่งไบต์ อักขระของภาษาที่พบบ่อยที่สุด (รวมถึงภาษารัสเซียและยูเครน) จะแสดงเป็นสองไบต์ และอักขระที่เหลือจะแสดงเป็นสามไบต์ เข้ารหัสแล้ว UTF-16 อักขระทั้งหมดแสดงด้วยไบต์ 2 ไบต์ (แนะนำให้ใช้การเข้ารหัสเหล่านี้สำหรับเอกสารภาษารัสเซียและยูเครน HTML)