ความสำคัญของ Schema Markup ต่อ AI Search และระบบดึงเอนทิตีแกนหลักของ Google

← กลับสู่คลังความรู้สิทธิบัตร Google Search Patents

หมายเลขสิทธิบัตร (Patent Number): US 9,009,192 B1 (Approved in 2015)
ชื่อทางวิศวกรรมสิทธิบัตร: Identifying central entities
ชื่อภาษาไทยเชิงประยุกต์: สิทธิบัตรการวิเคราะห์และระบุแอนทิตีแกนหลัก (Central Entities Identifier)
หมวดหมู่ทางเทคนิค: Semantic Search & Content Authority (โครงสร้างภาษาและความหมายเอนทิตี)
แหล่งอ้างอิงปฐมภูมิ (Primary Source): Google Patents Registry – US9009192B1

1. บทนำ: การเปลี่ยนแปลงครั้งใหญ่จากระบบ Keyword Matching สู่ Entity-Based Indexing

ในโครงสร้างระบบการค้นหาแบบดั้งเดิม (Classical Information Retrieval) อัลกอริทึมจะประมวลผลหน้าเว็บโดยอิงจากระบบความหนาแน่นของคำค้นหา (Keyword Density) และการจับคู่สตริงข้อความ (Exact Match String Matching) แต่ในยุคที่ Google ก้าวเข้าสู่ความจริงระดับ Semantic Search และ AI Search ผ่านอินเตอร์เฟส Google AI Overviews (SGE) ระบบการจัดทำดัชนีได้ถูกยกระดับขึ้นเป็นแบบ “การเชื่อมโยงเอนทิตี” (Entity-Based Indexing)

การเปลี่ยนแปลงนี้ส่งผลให้โครงสร้างข้อมูล Schema Markup (Structured Data) ไม่ใช่เพียงตัวช่วยให้เว็บแสดงผลในลักษณะกล่องดาวรีวิวหรือกล่องคำถามพบบ่อย (Rich Snippets) อีกต่อไป ทว่ามันคือภาษาเชื่อมต่อปฐมภูมิที่วิศวกรอัลกอริทึมของ Google ออกแบบมาเพื่อให้บ็อทจำแนกแยกแยะตัวตนและระบุ “แอนทิตีแกนหลัก” (Central Entities) ของหน้าเอกสาร

สิทธิบัตร US 9,009,192 B1 คือหลักฐานเชิงประจักษ์ชิ้นสำคัญที่อธิบายกระบวนการกรองข้อมูล และระบบการทำงานร่วมกันระหว่างกราฟเอนทิตี (Entity Graphs) กับแบบจำลองภาษาขนาดใหญ่ (LLMs) ผ่านสถาปัตยกรรมประมวลผลสองสถานะ หรือที่เรียกว่า “Second-Wave Validation” ซึ่งจะอธิบายอย่างละเอียดในบทความนี้

2. เจาะลึกสถาปัตยกรรมการระบุแอนทิตีแกนหลัก (Central Entities Extraction Architecture)

ในการอ่านและทำความเข้าใจข้อความของมนุษย์ (Natural Language Understanding) ระบบสืบค้นข้อมูลของ Google จะทำการสกัดข้อมูลแอนทิตี (Entity Extraction) เพื่อแปลงข้อความดิบที่ไร้โครงสร้าง (Unstructured Text) ให้กลายเป็นโครงข่ายข้อมูลที่มีความสัมพันธ์เชิงคณิตศาสตร์อย่างเป็นระบบ โดยมีขั้นตอนหลักตามข้อกำหนดในสิทธิบัตรดังนี้:

graph TD
A[“1. ค้นหาแอนทิตีผู้สมัครในเอกสารดิบ
(Obtaining Candidate Entities for a Resource)”] –> B[“2. กรองและเชื่อมโยงเข้ากับกราฟเอนทิตีหลักระดับสากล
(Filtering Global Entity Graph via Nodes & Edges)”] B –> C[“3. ขจัดแอนทิตีลอยตัวที่ไม่มีเส้นเชื่อมความเชื่อมโยงย้อนกลับ
(Removing Unconnected & Orphan Nodes)”] C –> D[“4. คำนวณหาแอนทิตีแกนหลักที่มีน้ำหนักความเกี่ยวข้องสูงสุด
(Identifying Central Entities using Second Entity Graph)”]

เฟสที่ 1: การค้นหาแอนทิตีผู้สมัคร (Obtaining Candidate Entities)

เมื่อบ็อทสแกนเอกสารใดๆ ระบบจะทำการวิเคราะห์คำนามเฉพาะ (Named Entity Recognition – NER) เช่น ชื่อคน สถานที่ แบรนด์ องค์กร ตลอดจนแนวคิดเฉพาะทางคณิตศาสตร์หรือวิทยาศาสตร์ เพื่อจัดทำรายการ “แอนทิตีผู้สมัคร” ที่มีบทบาทในหน้าเอกสารนั้น

เฟสที่ 2: การกรองและเชื่อมโยงเข้ากับฐานกราฟความรู้ระดับสากล (Filtering Global Entity Graph)

แอนทิตีผู้สมัครที่สกัดได้จะนำไปทาบและกรองเข้ากับ “กราฟเอนทิตีหลักระดับสากล” (Global Entity Graph) หรือ Knowledge Graph ของ Google ซึ่งเป็นโครงข่ายความสัมพันธ์เชิงเอนทิตีขนาดใหญ่ที่มีจุดเชื่อมต่อ (Nodes) และเส้นเชื่อมระบุประเภทความสัมพันธ์ (Edges) เพื่อคัดเอาแอนทิตีที่ไม่เกี่ยวข้องหรือไม่มีตัวตนในฐานข้อมูลออกไป

เฟสที่ 3: การขจัดแอนทิตีลอยตัวที่ไม่มีความสัมพันธ์ (Removing Unconnected Nodes)

ระบบจะวิเคราะห์ความหนาแน่นและความเกี่ยวเนื่องเชิงบริบท โดยทำการลบแอนทิตีที่ลอยตัว ไร้ความสัมพันธ์เชิงระบบ หรือไม่มีความเชื่อมโยงกับแอนทิตีตัวอื่นๆ ในเอกสาร (Removing nodes that do not have outgoing edges) วิธีการนี้ช่วยปราบปรามความพยายามในการทำสแปมคีย์เวิร์ดที่ไม่เกี่ยวโยงกับเนื้อหา

เฟสที่ 4: การคำนวณระบุแอนทิตีแกนหลัก (Identifying Central Entities)

Google จะสร้างกราฟจำลองเฉพาะเอกสารนั้นขึ้นมาใหม่ (Second Entity Graph) เพื่อคำนวณหาน้ำหนักและความถี่ในการระบุความสัมพันธ์ จุดเชื่อมต่อ (Node) ใดที่มีความหนาแน่นของเส้นเชื่อมโยง (Edges) สูงสุดและมีน้ำหนักความเกี่ยวข้องตรงตาม Search Intent จะได้รับการระบุว่าเป็น “แอนทิตีแกนหลัก” (Central Entity) ของเอกสารชิ้นนั้นทันที

3. Second-Wave Validation: กลไกประหยัดพลังงานและการกรองความน่าเชื่อถือของ AI Search

ปัญหาที่ยากที่สุดในการทำงานของ AI Search (เช่น Google AI Overviews และ SGE) คือการใช้ทรัพยากรเซิร์ฟเวอร์มหาศาลในการประมวลผลคำตอบผ่านโมเดลภาษาขนาดใหญ่ (LLMs) และความเสี่ยงจากการที่ปัญญาประดิษฐ์คิดข้อมูลปลอมขึ้นมาเอง (Hallucination)

วิศวกรของ Google จึงแก้ปัญหานี้โดยการติดตั้งกลไกความมั่นใจสองระดับ หรือ “Second-Wave Validation”:

ด่านแรก – Validation Layer 1 (Schema & Structured Data):
เมื่อ Google Bot เข้ามาสแกนข้อมูล ระบบจะใช้ตัวแปรใน Schema Markup (Structured Data) ที่เขียนในรูปแบบ JSON-LD เป็นด่านแรกในการระบุพิกัดแอนทิตีและการเชื่อมต่อความสัมพันธ์ (Edges) เนื่องจากข้อมูลส่วนนี้ประมวลผลได้รวดเร็วมาก มีโครงสร้างที่เป็นระเบียบสูง และไม่ต้องใช้ทรัพยากรในการคำนวณเชิงภาษา
ด่านที่สอง – Validation Layer 2 (LLM Generation):
เมื่อแอนทิตีได้รับการตรวจสอบ (Validate) ผ่านกราฟระดับแรกแล้ว ข้อมูลเนื้อหาดิบที่เกี่ยวโยงกับแอนทิตีแกนหลักดังกล่าวจะถูกส่งต่อไปยังโมเดลภาษาขนาดใหญ่ (LLMs) เพื่อสรุปย่อและเรียบเรียงเป็นภาษาธรรมชาติ (Natural Language Generation) เพื่อตอบสนองคำถามของผู้ใช้

[!TIP] บทวิเคราะห์ด้านสิทธิบัตร:
เว็บไซต์ที่มีการวางโครงสร้าง Schema Markup ที่ระบุแอนทิตีและวิชาชีพไว้อย่างสมบูรณ์และชัดเจน จะช่วยให้อัลกอริทึมประเมิน ค่าความมั่นใจ (Confidence Score) ได้สูงสุด ส่งผลให้หน้าเพจนั้นถูกเลือกนำข้อมูลไปอ้างอิงเป็นแหล่งข้อมูลปฐมภูมิในกล่องข้อความสรุปคำตอบของ AI Search โดยอัตโนมัติ

4. ข้อพิสูจน์ทางกฎหมายจากเอกสารสิทธิบัตร USPTO (Primary Source Verification)

เพื่อเป็นข้อมูลยืนยันความถูกต้องทางวิชาการและระเบียบวิธีวิจัย นี่คือข้อถือสิทธิหลัก Claim 1 ของสิทธิบัตร US 9,009,192 B1 จากสำนักงานสิทธิบัตรและเครื่องหมายการค้าแห่งสหรัฐอเมริกา:

“What is claimed is: 1. A method implemented by one or more computers, the method comprising:

obtaining candidate entities for a first resource;

filtering a first entity graph whose nodes represent different entities found in a plurality of resources to remove nodes that do not correspond to a candidate entity, wherein pairs of nodes in the first entity graph are connected by edges;

generating a second entity graph for the first resource from the filtered first entity graph, wherein generating the second entity graph comprises removing nodes from the filtered first entity graph that do not have any outgoing edges; and

identifying one or more of the candidate entities as being central entities using the second entity graph.”

การถอดความหมายประโยคสำคัญ:

filtering a first entity graph to remove nodes that do not correspond: การตัดกรองความเชื่อมโยงเพื่อขจัดคำศัพท์ขยะและแอนทิตีที่ไม่สร้างคุณค่าเชิงความหมายออกจากระบบดัชนี
generating a second entity graph… removing nodes that do not have any outgoing edges: การวาดแผนผังย่อยสำหรับเอกสารนั้นๆ โดยขจัดส่วนข้อมูลที่ไม่มีการเชื่อมโยงความรู้ย้อนกลับ (Orphan Nodes) ซึ่งมักเกิดขึ้นในเว็บไซต์สแปม
identifying central entities: การสกัดหาแก่นแท้ความรู้ของเพจ เพื่อให้ AI Search นำไปอ้างอิงได้อย่างมีความน่าเชื่อถือสูงสุด

5. คู่มือแนวทางการวางแผน SEO เชิงลึกและการตั้งค่า Schema Markup รองรับ AI Overviews

เพื่อให้เว็บไซต์ผ่านเกณฑ์ Second-Wave Validation ของ Google และเพิ่มอัตราการปรากฏตัวใน AI Search ผู้เชี่ยวชาญ SEO และนักพัฒนาควรดำเนินการตามกรอบปฏิบัติดังนี้:

ก. การฝังข้อมูล Schema Markup ระดับแอดวานซ์ (JSON-LD Advanced Entities)

หลีกเลี่ยงการใช้ปลั๊กอินอัตโนมัติที่ช่วยสร้างเฉพาะสคีมาพื้นฐาน แต่ควรออกแบบสคริปต์ JSON-LD ที่ระบุแอนทิตีเชิงความสัมพันธ์อย่างลึกซึ้งผ่านแท็ก about, mentions และ sameAs ดังตัวอย่างนี้:

{
  "@context": "https://schema.org",
  "@type": "TechArticle",
  "headline": "การวิเคราะห์โครงสร้างอัลกอริทึมของ Google AI Search",
  "about": [
    {
      "@type": "Thing",
      "name": "Artificial Intelligence",
      "sameAs": "https://en.wikipedia.org/wiki/Artificial_intelligence"
    },
    {
      "@type": "Thing",
      "name": "Semantic Search",
      "sameAs": "https://en.wikipedia.org/wiki/Semantic_search"
    }
  ],
  "author": {
    "@type": "Person",
    "name": "Warrior SEO",
    "jobTitle": "Technical SEO Consultant",
    "sameAs": "https://warrior.in.th/about/"
  }
}

ข. การป้อนคำเกี่ยวเนื่องเชิงธรรมชาติ (Semantic & Natural LSI Co-occurrence)

วิเคราะห์และจัดสรรกลุ่มคำอ้างอิงที่มีความเกี่ยวเนื่องตามหลักวิทยาศาสตร์ในสาขาวิชานั้นๆ (เช่น หากบทความพูดถึง สิทธิบัตร Google ควรต้องปรากฏคำว่า USPTO, Claim, PageRank, อัลกอริทึม ร่วมอยู่ด้วยตามธรรมชาติ) เพื่อเป็นสัญญาณให้บ็อทตรวจจับและจับคู่เชื่อมต่อ Node กับ Edges ในกราฟแอนทิตีได้ง่ายขึ้น

ค. ขจัดปัญหาข้อมูลลอยตัว (Entity Consistency Assessment)

ตรวจสอบว่าเนื้อหาในเพจมีจุดมุ่งหมายตอบสนองแอนทิตีหลักเพียง 1-2 ตัวอย่างลึกซึ้ง ไม่เขียนเนื้อหากระจัดกระจายข้ามสายงานมากเกินไปในหน้าเดียวกัน ซึ่งจะถูกประเมินว่าเป็น Unconnected Nodes และถูกปรับลดคุณภาพลง

🔗 โครงข่ายความสัมพันธ์เชิงความหมาย (Semantic Links)

บทความเกี่ยวเนื่อง:
- วิเคราะห์อัตราส่วนความเชื่อมั่นแบรนด์ในสิทธิบัตร Panda Quality Factor (US 8,682,892 B1)
- เจาะลึกระบบคำนวณน้ำหนักการจัดวางลิงก์ใน Reasonable Surfer Model (US 8,117,209 B1)

บทความให้คำปรึกษาด้าน SEO & AI Search