Cara Menyekat Crawler OpenAI Daripada Mengikis Laman Web Anda

Cara Menyekat Crawler OpenAI Daripada Mengikis Laman Web Anda
Pembaca seperti anda membantu menyokong MUO. Apabila anda membuat pembelian menggunakan pautan di tapak kami, kami mungkin mendapat komisen ahli gabungan. Baca Lagi.

Walaupun pengguna menyukai ChatGPT kerana jumlah maklumat yang dimilikinya pada masa ini, perkara yang sama tidak boleh dikatakan tentang pemilik tapak web.





Video MUO pada hari itu SCROLL UNTUK MENERUSKAN KANDUNGAN

ChatGPT OpenAI menggunakan perangkak untuk mengikis tapak web, tetapi jika anda pemilik tapak web, dan anda tidak mahu perangkak OpenAI mengakses tapak web anda, berikut ialah beberapa perkara yang boleh anda lakukan untuk menghalangnya.





Bagaimana OpenAI Crawling Berfungsi?

A perangkak web (juga dikenali sebagai labah-labah atau bot enjin carian) ialah program automatik yang mengimbas internet untuk mendapatkan maklumat. Ia kemudian menyusun maklumat tersebut dengan cara yang mudah untuk enjin carian anda mengaksesnya.





Perangkak web mengindeks setiap halaman setiap URL yang berkaitan, biasanya memfokuskan pada tapak web yang lebih berkaitan dengan pertanyaan carian anda. Sebagai contoh, mari kita anggap anda sedang mencari ralat Windows tertentu. Perangkak web dalam enjin carian anda akan mengimbas semua URL daripada tapak web yang dianggap lebih berwibawa pada topik ralat Windows.

Perangkak web OpenAI dipanggil GPTBot, dan menurut dokumentasi OpenAI , memberikan akses GPTBot ke tapak web anda boleh membantu melatih model AI menjadi lebih selamat dan lebih tepat, malah ia boleh membantu mengembangkan keupayaan model AI.



Cara Menghalang OpenAI Daripada Merangkak Laman Web Anda

Seperti kebanyakan perangkak web lain, GPTBot boleh disekat daripada mengakses tapak web anda dengan mengubah suai tapak web robots.txt protokol (juga dikenali sebagai protokol pengecualian robot). Fail .txt ini dihoskan pada pelayan tapak web dan ia mengawal cara perangkak web dan program automatik lain berkelakuan di tapak web anda.

Berikut ialah senarai pendek tentang apa yang robot.txt fail boleh lakukan:





  • Ia boleh menyekat sepenuhnya GPTBot daripada mengakses laman web.
  • Ia boleh menyekat hanya halaman tertentu daripada URL daripada diakses oleh GPTBot.
  • Ia boleh memberitahu GPTBot pautan yang boleh diikuti, dan yang tidak boleh.

Berikut ialah cara untuk mengawal perkara yang boleh dilakukan oleh GPTBot di tapak web anda:

Sekat sepenuhnya GPTBot Daripada Mengakses Laman Web Anda

  1. Sediakan fail robot.txt , dan kemudian editnya dengan sebarang alat penyuntingan teks.
  2. Tambahkan GPTBot pada tapak anda robots.txt seperti berikut:
 User-agent: GPTBot 
Disallow: /

Sekat Halaman Tertentu Sahaja Daripada Diakses oleh GPTBot

  1. Sediakan robot.txt fail, dan kemudian edit dengan alat penyunting teks pilihan anda.
  2. Tambahkan GPTBot pada tapak anda robots.txt seperti berikut:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Walau bagaimanapun, perlu diingat bahawa menukar robot.txt fail bukan penyelesaian retroaktif, dan sebarang maklumat yang mungkin telah dikumpulkan oleh GPTBot daripada tapak web anda tidak akan dapat dipulihkan.





OpenAI Membenarkan Pemilik Laman Web Menarik Diri Daripada Merangkak

Sejak perangkak digunakan untuk melatih model AI, pemilik tapak web telah mencari cara untuk memastikan data mereka peribadi.

bagaimana mencari motherboard apa yang saya ada

Sesetengah orang bimbang model AI pada dasarnya mencuri kerja mereka, malah mengaitkan lebih sedikit lawatan tapak web kepada fakta bahawa kini pengguna mendapat maklumat mereka tanpa perlu melawat tapak web mereka.

Secara keseluruhannya, sama ada anda mahu menyekat sepenuhnya chatbots AI daripada mengimbas tapak web anda adalah pilihan anda sepenuhnya.