อัลกอริทึม Phrase-Based Indexing ของ Google: เสาหลักของ Topical Authority

← กลับสู่คลังความรู้สิทธิบัตร Google Search Patents

หมายเลขสิทธิบัตร (Patent Number): US 7,536,408 B2 (Approved in 2009)
ชื่อทางวิศวกรรมสิทธิบัตร: Phrase-based indexing in an information retrieval system
ชื่อภาษาไทยเชิงประยุกต์: อัลกอริทึมการประมวลผลคำร่วมเชิงกลุ่มวลี (Phrase-Based Indexing)
หมวดหมู่ทางเทคนิค: Semantic Search & Content Authority (โครงสร้างภาษาและความหมายเอนทิตี)
แหล่งอ้างอิงปฐมภูมิ (Primary Source): Google Patents Registry – US7536408B2

1. บทนำ: การปฏิวัติวิธีการจัดทำสารบัญดัชนี จากคำเดี่ยวสู่อนาคตความสัมพันธ์เชิงกลุ่มวลี

ในยุคแรกของการจัดทำดัชนีของกูเกิล (First-Generation Indexing) บ็อทจะทำหน้าที่แกะถ้อยคำและบันทึกคีย์เวิร์ดแบบเรียงคำต่อคำ (Single-Word Indexing) เช่น หากหน้าเพจของคุณเขียนเกี่ยวกับธุรกิจคอร์สเรียน ระบบจะจดจำคำว่า คอร์ส และ เรียน แยกออกจากกัน และจะประเมินอันดับตามน้ำหนักความถี่ในการปรากฏตัวของคีย์เวิร์ด (Keyword Frequency)

การทำเช่นนั้นเปิดโอกาสให้เกิดการโกงระบบจัดอันดับผ่านเทคนิคสายดำอย่างการจงใจสอดแทรกคีย์เวิร์ดซ้ำๆ หรือการยัดคำค้นหา (Keyword Stuffing)

สิทธิบัตร US 7,536,408 B2 ภายใต้ชื่อโครงการ Phrase-Based Indexing ได้เข้ามาเป็นสะพานเชื่อมสำคัญที่กูเกิลใช้ในการยกระดับเข้าสู่ยุค Topical Authority โดยระบบจะทำการสแกน จำแนก และประมวลความเกี่ยวเนื่องของกลุ่มวลี (Good Phrases) ที่มีความหมายร่วมกันตามธรรมชาติ รวมถึงจัดทำเครือข่ายความสัมพันธ์เชิงความหมาย (Semantic Network) เพื่อสกัดหาเว็บไซต์ที่มีข้อมูลเชิงวิจัยที่ลึกซึ้งและขจัดเว็บสแปมเนื้อหาอย่างมีประสิทธิภาพ

2. อัลกอริทึมการคำนวณและวัดความเกี่ยวโยงเชิงลึกของกลุ่มวลี (Co-occurrence & Information Gain Theory)

ระบบของ Google จะทำการสแกนคำและจับคู่วลีผ่านทฤษฎี “อัตราการปรากฏตัวร่วมกันตามธรรมชาติ” (Co-occurrence Rate) โดยประเมินความสัมพันธ์ผ่านระบบทางสถิติ

[!NOTE] ถอดรหัสตัวแปรจากสิทธิบัตรต้นฉบับ (Patent Variables Decoder):
ในตัวสิทธิบัตรฉบับจริงของกูเกิล มีการใช้สมการคณิตศาสตร์และตัวแปรเพื่อใช้อ้างอิงทางกฎหมาย ซึ่งอาจทำให้เกิดความสับสนเมื่ออ่านครั้งแรก เพื่อช่วยให้อ่านบทความนี้ได้อย่างเข้าใจง่ายที่สุด เราขอสรุปตัวแปรทั้งหมดออกมาเป็นภาษาคนแบบสั้นๆ ดังนี้ครับ:

ตัวแปรในสิทธิบัตร ชื่อในบทความนี้ ความหมายเชิงลึกและตัวอย่างให้เห็นภาพชัดเจน

g_j วลีหลัก (Primary Phrase) คำหลักตัวแรกที่เป็นแกนกลางเนื้อหา (ตัวอย่าง: Technical SEO)

g_k วลีร่วมเกี่ยวเนื่อง (Related Phrase) คำหรือวลีที่ช่วยขยายความ และมักพบร่วมคู่กันในบทความคุณภาพสูง (ตัวอย่าง: Schema Markup หรือ Internal Link Placement)

A(j,k) อัตราการเกิดคำร่วมจริง (Actual Co-occurrence Rate) ค่าสถิติจริงที่ระบบตรวจเจอว่าคุณใช้คำหลัก g_j และคำเกี่ยวเนื่อง g_k ร่วมกันจริงๆ ในบทความเดียวกัน

E(j,k) อัตราการเกิดคำร่วมตามธรรมชาติทั่วไป (Expected Co-occurrence Rate) ค่าความน่าจะเป็นเฉลี่ยของเว็บทั่วไปที่จะสุ่มเจอคำทั้งสองนี้ร่วมกัน (หากบทความเป็นแค่การเขียนน้ำท่วมทุ่งทั่วไป จะไม่เจอคำทั้งคู่ในความหมายเกี่ยวเนื่องกัน)

I ระดับความรู้เชิงลึก / พลังสารสนเทศเพิ่ม (Information Gain) คะแนนชี้วัดว่าบทความของคุณมีเนื้อหาแน่นและเจาะลึกทางวิชาการจริงหรือไม่ คำนวณจากความแตกต่างระหว่างอัตราการปรากฏร่วมกันจริง A(j,k) และค่าเฉลี่ยปกติ E(j,k)

ตัวแปรในสิทธิบัตร	ชื่อในบทความนี้	ความหมายเชิงลึกและตัวอย่างให้เห็นภาพชัดเจน
`g_j`	วลีหลัก (Primary Phrase)	คำหลักตัวแรกที่เป็นแกนกลางเนื้อหา (ตัวอย่าง: `Technical SEO`)
`g_k`	วลีร่วมเกี่ยวเนื่อง (Related Phrase)	คำหรือวลีที่ช่วยขยายความ และมักพบร่วมคู่กันในบทความคุณภาพสูง (ตัวอย่าง: `Schema Markup` หรือ `Internal Link Placement`)
`A(j,k)`	อัตราการเกิดคำร่วมจริง (Actual Co-occurrence Rate)	ค่าสถิติจริงที่ระบบตรวจเจอว่าคุณใช้คำหลัก `g_j` และคำเกี่ยวเนื่อง `g_k` ร่วมกันจริงๆ ในบทความเดียวกัน
`E(j,k)`	อัตราการเกิดคำร่วมตามธรรมชาติทั่วไป (Expected Co-occurrence Rate)	ค่าความน่าจะเป็นเฉลี่ยของเว็บทั่วไปที่จะสุ่มเจอคำทั้งสองนี้ร่วมกัน (หากบทความเป็นแค่การเขียนน้ำท่วมทุ่งทั่วไป จะไม่เจอคำทั้งคู่ในความหมายเกี่ยวเนื่องกัน)
`I`	ระดับความรู้เชิงลึก / พลังสารสนเทศเพิ่ม (Information Gain)	คะแนนชี้วัดว่าบทความของคุณมีเนื้อหาแน่นและเจาะลึกทางวิชาการจริงหรือไม่ คำนวณจากความแตกต่างระหว่างอัตราการปรากฏร่วมกันจริง `A(j,k)` และค่าเฉลี่ยปกติ `E(j,k)`

graph TD
A[“1. ตรวจสอบกลุ่มวลีที่สอดคล้องตามรายการ
(Identifying Phrases from the List)”] –> C[“3. คำนวณอัตราความสัมพันธ์เชิงทฤษฎีข้อมูลร่วม
(Information Gain ‘I’ Calculation)”] B[“2. ค้นหาวลีข้างเคียงที่มีความสัมพันธ์ร่วมตามพจนานุกรม
(Identifying a Related Phrase in Document)”] –> C
C –> D[“4. บันทึกดัชนีเชิงโครงข่ายส่งต่อคะแนนอำนาจความรู้
(Indexing Document in posting list of related phrases)”]

เฟสที่ 1: การจำแนกคำและวิเคราะห์วลีผู้สมัคร (Identifying Candidate Phrases)

เมื่อ Google Bot เข้ามาสแกนบทความ ระบบจะนำข้อความดิบไปเปรียบเทียบกับรายการ “วลีคุณภาพสูง” (Good Phrases) ในฐานข้อมูลสากล เพื่อสกัดเอากลุ่มคำที่มีความหมายเชิงระบบออกมา

เฟสที่ 2: การค้นหากลุ่มคำพจนานุกรมเกี่ยวเนื่อง (Identifying Related Phrases)

ระบบจะมองหากลุ่มวลีที่ปรากฏตัวร่วมกัน (Co-occurring Phrases) เช่น หากข้อความตรวจพบวลีหลัก g_j (ตัวอย่าง: Technical SEO) ระบบจะทำหน้าที่มองหาวลีเกี่ยวเนื่องตัวที่สอง g_k (ตัวอย่าง: Internal Link Placement หรือ Schema Markup) ที่ปรากฏร่วมอยู่ด้วยกันในย่อหน้าถัดไป

เฟสที่ 3: การคำนวณหาค่าคะแนนสารสนเทศเพิ่ม (Information Gain “I”)

ขั้นตอนคณิตศาสตร์สำคัญคือ การประเมินค่า Information Gain (I) หรือพลังสารสนเทศเพิ่มของวลีร่วม เพื่อยืนยันว่าวลีทั้งคู่มีความเกี่ยวโยงทางความรู้จริง โดยมีสูตรประเมินดังนี้:
* A(j,k) : อัตราการปรากฏตัวร่วมกันจริงของกลุ่มวลีหลัก g_j และวลีร่วม g_k (Actual Co-occurrence Rate)
* E(j,k) : ค่าคาดหวังปกติที่จะเจอคำทั้งคู่ร่วมกันตามสถิติภาษาศาสตร์ทั่วไป (Expected Co-occurrence Rate)

[!IMPORTANT] หลักการประเมินความลึกซึ้ง (Topical Authority Assessment):
หากอัตราการปรากฏตัวร่วมจริง A(j,k) สูงกว่าค่าเฉลี่ยปกติทั่วไปที่สถิติภาษาทั่วไปคาดการณ์ไว้ E(j,k) อย่างมีนัยสำคัญ ค่าพลังสารสนเทศเพิ่ม I จะสอบผ่านเกณฑ์ (Exceeds a predetermined threshold) ระบบจะตีความทันทีว่าผู้เขียนมีความรู้และเชี่ยวชาญเชิงลึกในสาขาวิชานั้นจริง ไม่ได้เป็นการปั่นคำขยะ และจะส่งมอบคะแนนอำนาจเนื้อหา (Topical Authority Score) ให้แก่หน้านั้นๆ ครับ

เฟสที่ 4: การลงทะเบียนดัชนีความรู้ (Topical Indexing)

ระบบจะทำการลงทะเบียนรหัสเอกสารนั้นพร้อมพิกัดความเชื่อมโยงของกลุ่มวลีที่ตรวจพบ ลงในสารบัญเครือข่ายดัชนี (Posting List of related phrases) เพื่อส่งมอบผลลัพธ์การค้นหาที่ครอบคลุม Search Intent ของผู้ใช้ระดับลึก

🔎 เครื่องมือส่องแบบผังวิศวกรรมสิทธิบัตรจริง (USPTO Patent Blueprints)

คลิกที่แต่ละแท็บเพื่อสำรวจแบบร่างทางเทคนิคดั้งเดิมจากคำขอจดสิทธิบัตรของ Google (US 7,536,408 B2)

Figure 1: Google Search System Patent Drawing

Figure 1 – สถาปัตยกรรมระบบการค้นหาและจัดเก็บดัชนี (Search Engine Environment):
แสดงโครงสร้างการติดต่อระหว่างผู้ใช้ (Client 102) และระบบค้นหาของ Google (Search System 104) ซึ่งแบ่งระบบจัดทำดัชนี (Indexing System 106) ออกมาเป็นส่วนแยก เพื่อทำหน้าที่สแกนเอกสารใน Document Database (108) และแปลงเป็นโครงสร้างแบบวลีร่วม ก่อนจัดส่งเข้าดัชนีค้นหาหลัก

Figure 2: Google Phrase Registry Patent Drawing

Figure 2 – โมดูลจำแนกและทะเบียนคลังวลีร่วม (Phrase Registry & Related Phrase Identifier):
แสดงส่วนประกอบการสแกนบทความเพื่อจำแนกวลีหลัก (Phrase Identifier 202) และการตรวจสอบความสัมพันธ์ผ่านคลังจดทะเบียนวลีกลาง (Phrase Registry 206) เพื่อหาค่าประเมินวลีเกี่ยวเนื่อง (Related Phrase Identifier 204) ที่จะถูกบันทึกร่วมกันเป็นข้อมูลความรู้

Figure 3: Google Information Gain Flowchart Patent Drawing

Figure 3 – แผนผังขั้นตอนการคำนวณและประเมินค่า Information Gain (I):
แผนผังอัลกอริทึมการประมวลผล เริ่มต้นจากการวิเคราะห์วลีผู้สมัคร (Candidate Phrases) -> มองหากลุ่มวลีที่ปรากฏตัวร่วมกัน -> นำมาคำนวณค่าปรากฏร่วมจริง A(j,k) และค่าคาดหวังทั่วไป E(j,k) -> ตรวจวัดค่า Information Gain (I) หากผ่านเกณฑ์ขั้นต่ำระบบจะบันทึกคีย์เวิร์ดร่วมนี้ในสารบัญดัชนีคุณภาพสูงทันที

Figure 4: Google Posting Lists Data Structure Patent Drawing

Figure 4 – โครงสร้างตารางสารบัญดัชนีคำเกี่ยวเนื่องแบบ Posting List:
แสดงโครงสร้างข้อมูลในคอมพิวเตอร์ที่เก็บพิกัดของคำหลัก (Phrase Identifier 402) ร่วมกับลิงก์ข้อมูลของคำเกี่ยวเนื่อง (Related Phrase 404) ในลักษณะ Linked-List ซึ่งช่วยให้บ็อทกูเกิลประมวลความเกี่ยวโยงของแต่ละหน้าเพจได้อย่างรวดเร็วในเสี้ยววินาทีเมื่อมีการค้นหาข้อมูล

3. สิทธิบัตรการจัดกลุ่มคำช่วยตรวจจับและลงทัณฑ์ Keyword Stuffing ได้อย่างไร?

การประยุกต์ใช้งานระบบ Phrase-Based Indexing ยังมีหน้าที่เป็นอาวุธร้ายของ Google ในการปราบปรามเว็บสแปม:

ตรวจจับความไม่เป็นธรรมชาติเชิงพจนานุกรม: หากเพจใดๆ มีการยัดเยียดคีย์เวิร์ดหลักคำเดิมซ้ำๆ (เช่น เขียนคำว่า รับทำ SEO 50 ครั้งในหนึ่งหน้า) โดยไม่มีคำศัพท์เกี่ยวเนื่องที่เป็นกลุ่มวลีธรรมชาติ (เช่น โครงสร้างเว็บไซต์, วิเคราะห์คีย์เวิร์ด, User Intent) ปรากฏร่วมด้วย ค่า E(j,k) และ I จะไม่สอดคล้องกับแบบจำลองภาษาจริง
การลงโทษเชิงเทคนิค: ระบบจะตัดสิทธิ์บทความดังกล่าวจากการคำนวณอันดับ หรือปรับลดน้ำหนักคะแนนและปัดตกไปเป็นกลุ่มเว็บไร้สาระ (Low-quality content) เนื่องจากมองว่าเป็นเนื้อหาที่จงใจเขียนให้บ็อทอ่านไม่ใช่เขียนให้มนุษย์

4. ข้อพิสูจน์ทางกฎหมายจากเอกสารสิทธิบัตร USPTO (Primary Source Verification)

นี่คือข้อถือสิทธิหลัก Claim 1 จากเอกสารสิทธิบัตรต้นฉบับ US 7,536,408 B2 ที่ระบุถึงทฤษฎีการประมวลผลและการจัดทำดัชนีโครงข่ายวลีร่วมอย่างสมบูรณ์:

“What is claimed is: 1. A method comprising:

providing a list of phrases;

identifying, by operation of a processor adapted to manipulate data within a computer system, for a given document, phrases from the list of phrases that are present in the document;

for each identified phrase in the document:

identifying, by operation of a processor adapted to manipulate data within a computer system, a related phrase also present in the document, wherein for each phrase g_j, g_k is a related phrase of phrase g_j where an information gain I of g_k with respect to g_j exceeds a predetermined threshold, the information gain I being a function of A(j,k) and E(j,k), where A(j,k) is a measure of an actual co-occurrence rate of g_j and g_k, and E(j,k) is an expected co-occurrence rate g_j and g_k; and

indexing, by operation of a processor adapted to manipulate data within a computer system, the document by storing the identifier of the document and an indication of each related phrase g_k also present in the document, in a posting list of the identified phrase g_j.”

อธิบายคีย์เวิร์ดเชิงลึก:

related phrase g_k is related to g_j: คำหรือวลีที่มีความสัมพันธ์เชิงความหมายระดับลึกที่มักปรากฏตัวคู่กันเสมอในหน้าเนื้อหาคุณภาพสูง
information gain I exceeds a predetermined threshold: ผลรวมของความสัมพันธ์ร่วมที่เหนือกว่าค่าเฉลี่ยสถิติภาษาศาสตร์ทั่วไปของอินเทอร์เน็ต เพื่อตัดสแปม

5. คู่มือปฏิบัติการการวางแผนสร้าง Topical Clusters ให้ผ่านเกณฑ์สิทธิบัตรอย่างมั่นคง

การนำระบบการวิเคราะห์นี้มาปรับใช้ในกระบวนการทำงานจริง นักการตลาดและที่ปรึกษาควรใช้โครงสร้าง Semantic Hub-and-Spoke ดังนี้:

วางแผนคำเกี่ยวเนื่องธรรมชาติระดับหัวข้อ (Topical Cluster Planning):
ก่อนจะทำการเขียนบทความ ให้ระบุลิสต์ของกลุ่มคำสัญญะ (LSI / Semantic Co-occurring Phrases) ที่มีความสัมพันธ์กันตามธรรมชาติในเรื่องนั้นๆ และจัดกระจายประโยคเขียนสอดแทรกลงในเนื้อความอย่างลื่นไหล
หลีกเลี่ยงการยัดคีย์เวิร์ดแบบโดดเดี่ยว (Keyword Stuffing is Dead):
ห้ามปั่นอันดับด้วยคำหลักคำเดิมซ้ำๆ ให้หันมาเน้นการใช้คำพ้องความหมาย (Synonyms) และวลีเกี่ยวเนื่องเชิงขอบเขตความรู้เพื่อแสดงถึงความเป็นผู้เชี่ยวชาญ (E-E-A-T)
การลิงก์เชื่อมโยงเชิงวลี (Phrase-Based Internal Link):
ใช้คำอธิบายลิงก์ภายใน (Anchor Text) ที่เป็นวลีความหมายสำคัญ (Good Phrases) เชื่อมต่อหน้า Spoke ไปยังหน้า Hub เพื่อให้ระบบดัชนีจดจำโครงข่ายความรู้ความเข้าอกเข้าใจระดับลึกได้อย่างมีประสิทธิภาพ

🔗 โครงข่ายความสัมพันธ์เชิงความหมาย (Semantic Links)

บทความเกี่ยวเนื่อง:
- ความสัมพันธ์ของแบรนด์และคุณภาพโดเมนในสิทธิบัตร Panda Quality Factor (US 8,682,892 B1)
- Second-Wave Validation และความสำคัญของ Schema ใน AI Search (US 9,009,192 B1)

บทความให้คำปรึกษาด้าน SEO & AI Search