วิธีการบล็อก AI Crawler Bots โดยใช้ Robots.txt

ไฟล์ robots.txt เป็นไฟล์ที่เจ้าของเว็บไซต์ใช้ในการจัดการและควบคุมพฤติกรรมของบอทต่าง ๆ ที่จะเข้ามายังเว็บของเรา ส่วนมากจะเอามาใช้กำหนดว่าให้ Search engine bot เข้ามาได้หรือไม่ เพื่อเป็นการเก็บ index ภายในเว็บของเรา เวลาคนค้นหาจะได้เจอเว็บเรา และเข้ามายังเว็บ เราก็จะได้ Traffic คนเข้าเว็บ

แต่ยุคสมัยนี้ AI สามารถวิ่งเข้ามาดูดเนื้อหาเว็บของเราแล้วนำไปวิเคราะห์เพื่อไปตอบคำถามผู้ใช้งานได้แล้ว และประเด็นคือ ผู้ใช้งาน AI นั้นไม่จำเป็นต้องเข้ามาอ่านบนเว็บเราเลย ทำให้เจ้าของเว็บนั้นเสีย Traffic คนเข้าเว็บไปเลย T.T

ด้วยปัญหาแบบนี้ เราสามารถป้องกัน AI บอทไม่ให้เข้ามาดึงข้อมูลเว็บเราไปใช้งาน ปกป้องข้อมูลที่ละเอียดอ่อน และรักษาแบนด์วิดท์ได้โดยใช้ robots.txt

ทำความเข้าใจ robots.txt

ไฟล์ robots.txt เป็นไฟล์ข้อความที่วางไว้ที่ www.example.com/robots.txt ไฟล์นี้ประกอบด้วยคำสั่งที่สั่งให้โปรแกรมค้นหาเว็บทราบว่าสามารถหรือไม่สามารถเข้าถึงหน้าใดได้ แม้ว่าบอทบางตัวอาจไม่ปฏิบัติตามกฎของ robots.txt แต่บอทที่มีชื่อเสียงส่วนใหญ่ รวมถึงบอทจากเครื่องมือค้นหาและบริษัท AI ชั้นนำ ต่างก็เคารพคำสั่งเหล่านี้

โครงสร้างพื้นฐานของ robots.txt

ไฟล์ robots.txt โดยทั่วไปจะมีส่วนประกอบดังต่อไปนี้:

  • User-agent: ระบุชื่อของบอท
  • Disallow: แจ้งให้บอททราบว่าไม่ควรเข้าถึงหน้าไหน
  • Allow: ยกเลิกคำสั่ง disallow สำหรับหน้าที่ระบุ

ตัวอย่างไฟล์ robots.txt

อันนี้คือตัวอย่างไฟล์ที่นำไปใช้บล็อก AI บอท

User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot-Extended
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: cohere-ai
User-agent: Diffbot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GoogleOther-Image
User-agent: GoogleOther-Video
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: img2dataset
User-agent: omgili
User-agent: omgilibot
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /

นำไปปรับแต่งใช้งานกันได้นะ

อ้างอิง: github.com/ai-robots-txt/ai.robots.txt