Skip to main content

Apakah Penapisan Spam Bayesian?

LBRY Review | $LBC | Content Freedom! (April 2025)

LBRY Review | $LBC | Content Freedom! (April 2025)
Anonim

Penapis spam Bayesian mengira kebarangkalian mesej menjadi spam berdasarkan kandungannya. Tidak seperti penapis berasaskan kandungan yang mudah, penapisan spam Bayesian belajar dari spam dan dari mel yang baik, menghasilkan pendekatan anti-spam yang sangat mantap, menyesuaikan diri dan efisien yang, paling penting, tidak memberikan sebarang positif palsu.

Bagaimana Anda Mengenali E-mel Junk?

Fikirkan tentang bagaimana anda mengesan spam. Sekilas pandang sering cukup. Anda tahu apa jenis spam, dan anda tahu apa yang kelihatan seperti surat yang baik.

Kebarangkalian spam yang kelihatan seperti mel baik adalah sekitar … sifar.

Penapis Berdasarkan Kandungan Penapis Tidak Adaptasikan

Adakah ia tidak bagus jika penapis spam automatik berfungsi seperti itu juga?

Menapis penapis spam berasaskan kandungan cuba cuma itu. Mereka mencari kata-kata dan ciri-ciri lain yang tipikal spam. Setiap elemen ciri ditugaskan skor, dan skor spam untuk keseluruhan mesej dikira dari skor individu. Beberapa penapis pemarkahan juga mencari ciri-ciri mel yang sah, menurunkan skor terakhir mesej.

Pendekatan penapis markah tidak berfungsi, tetapi ia juga mempunyai beberapa kekurangan:

  • Senarai ciri-ciri dibina dari spam (dan mel baik) yang tersedia kepada jurutera penuras. Untuk mendapatkan pemahaman yang baik dari spam biasa yang mungkin diperoleh orang, surat mesti dikumpulkan di beratus-ratus alamat e-mel. Ini melemahkan kecekapan penapis, terutamanya kerana ciri-ciri mel baik akan berbeza bagi setiap orang , tetapi ini tidak diambil kira.
  • Ciri-ciri untuk mencari adalah lebih kurang ditetapkan dalam batu . Sekiranya spammer berusaha untuk menyesuaikan diri (dan menjadikan spam mereka kelihatan seperti surat yang baik kepada penapis), ciri penapisan perlu ditapis secara manual - usaha yang lebih besar.
  • Skor yang diberikan kepada setiap perkataan mungkin berdasarkan anggaran yang baik, tetapi masih sewenang-wenangnya. Dan seperti senarai ciri-ciri, ia tidak menyesuaikan diri dengan perubahan dunia spam secara umum atau kepada keperluan pengguna individu.

Penapis Spam Bayesian tweak Sendiri, Mendapatkan Lebih Baik dan Lebih Baik

Penapis spam Bayesian adalah sejenis penapis berdasarkan penapis kandungan. Pendekatan mereka tidak menimbulkan masalah penapis spam yang mudah, walau bagaimanapun, dan ia sangat radikal. Oleh kerana kelemahan pemarkahan skor adalah dalam senarai ciri-ciri dan markah yang dibuat secara manual, senarai ini dihapuskan.

Sebaliknya, penapis spam Bayesian membina senarai mereka sendiri. Idealnya, anda bermula dengan sekumpulan (besar) e-mel yang anda telah diklasifikasikan sebagai spam, dan sekumpulan surat yang lain. Penapis melihat kedua-duanya dan menganalisis mel yang sah serta spam untuk mengira kebarangkalian pelbagai ciri yang muncul dalam spam, dan dalam mel yang baik.

Bagaimana Penapis Spam Bayesian Memeriksa E-mel

Ciri-ciri penapis spam Bayesian boleh dilihat boleh:

  • kata-kata dalam tubuh mesej, sudah tentu, dan
  • pengetua (penghantar dan laluan mesej, sebagai contoh!), tetapi juga
  • aspek lain seperti kod HTML / CSS (seperti warna dan pemformatan lain), atau bahkan
  • pasangan kata, frasa dan
  • maklumat meta (di mana frasa tertentu muncul, sebagai contoh).

Sekiranya perkataan, "Cartesian" sebagai contoh, tidak muncul dalam spam tetapi sering dalam e-mel yang sah yang anda terima, kebarangkalian bahawa "Cartesian" menunjukkan spam adalah hampir sifar. "Toner", sebaliknya, muncul semata-mata, dan sering, dalam spam. "Toner" mempunyai kebarangkalian yang sangat tinggi dijumpai dalam spam, tidak lebih dari 1 (100%).

Apabila mesej baru tiba, ia dianalisis oleh penapis spam Bayesian, dan kebarangkalian mesej lengkap yang spam dikira menggunakan ciri-ciri individu.

Anggapkan mesej mengandungi kedua-dua "Cartesian" dan "toner". Daripada kata-kata ini sahaja, belum jelas sama ada kami mempunyai spam atau mel legit. Ciri-ciri lain akan (mudah-mudahan dan paling mungkin) menunjukkan kebarangkalian yang membolehkan penapis mengklasifikasikan mesej sebagai spam atau mel baik.

Penapis Spam Bayesian Dapat Belajar Secara Automatik

Sekarang kita mempunyai klasifikasi, mesej itu boleh digunakan untuk melatih penapis itu lebih jauh lagi. Dalam kes ini, kebarangkalian "Cartesian" menunjukkan mel baik diturunkan (jika mesej yang mengandungi kedua-dua "Cartesian" dan "toner" didapati spam), atau kebarangkalian "toner" yang menunjukkan spam mesti dipertimbangkan semula.

Menggunakan teknik auto-adaptif ini, penapis Bayesian boleh belajar dari kedua-dua mereka sendiri dan keputusan pengguna (jika dia secara manual membetulkan kesilapan oleh penapis). Kesesuaian penapisan Bayesian juga memastikan mereka paling berkesan untuk pengguna e-mel individu. Walaupun kebanyakan spam orang mungkin mempunyai ciri-ciri yang sama, mel yang sah secara tradisinya berbeza untuk semua orang.

Bagaimana Spammer Dapat Penapis Bayesian Terlalu?

Ciri-ciri mel yang sah sama pentingnya dengan proses penapisan spam Bayesian sebagai spam. Sekiranya penapis dilatih khusus untuk setiap pengguna, spammer akan mempunyai masa yang lebih keras untuk bekerja di sekitar penapis spam semua orang (atau kebanyakan orang), dan penapis boleh menyesuaikan diri dengan hampir semua spammer cuba.

Spammers hanya akan melewati penapis Bayesian terlatih jika mereka membuat mesej spam mereka kelihatan seperti biasa e-mel semua orang boleh mendapatkan.

Spammers biasanya tidak menghantar emel biasa seperti itu. Marilah kita menganggap ini kerana e-mel ini tidak berfungsi sebagai e-mel sampah.Oleh itu, kemungkinan mereka tidak akan melakukannya apabila e-mel biasa dan membosankan adalah satu-satunya cara untuk menjadikannya penapis spam yang lalu.

Sekiranya spammer bertukar kepada kebanyakan e-mel yang biasa, kami akan melihat lebih banyak spam di dalam Peti Masuk kami sekali lagi, dan e-mel mungkin menjadi mengecewakan kerana pada hari pra-Bayesian (atau lebih buruk lagi). Ia juga akan merosakkan pasaran untuk kebanyakan jenis spam, dan, oleh itu, tidak akan bertahan lama.

Penunjuk Kuat Boleh menjadi Heels Achilles Penapis Spam Bayesian

Satu pengecualian boleh dilihat untuk spammer untuk berfungsi melalui penapis Bayesian walaupun dengan kandungan biasa mereka. Ia adalah seperti dalam statistik Bayesian bahawa satu perkataan atau ciri yang sering muncul dalam mel baik boleh menjadi sangat penting untuk mengubah sebarang mesej daripada kelihatan seperti spam untuk dinilai sebagai ham oleh penapis.

Sekiranya spammer mencari jalan untuk menentukan kata-kata selamat dengan kata-kata api anda-dengan menggunakan resit pulangan HTML untuk melihat mesej mana yang anda buka, sebagai contoh-, mereka boleh memasukkan salah satu daripada mereka dalam surat sampah dan mencapai anda walaupun melalui e- penapis Bayesian yang terlatih.

John Graham-Cumming telah mencuba ini dengan membiarkan dua penapis Bayesian berfungsi antara satu sama lain, "yang buruk" yang menyesuaikan dengan mana mesej didapati untuk mendapatkan penapis "baik". Dia mengatakan ia berfungsi, walaupun prosesnya memakan masa dan kompleks. Kami tidak fikir kita akan melihat banyak kejadian ini, sekurang-kurangnya tidak secara besar-besaran, dan tidak disesuaikan dengan ciri-ciri emel individu. Spammers boleh (cuba) memikirkan beberapa kata kunci untuk organisasi (sesuatu seperti "Almaden" untuk sesetengah orang di IBM mungkin?) Sebaliknya.

Biasanya, spam akan sentiasa (ketara) berbeza dari mel biasa atau tidak akan menjadi spam, walaupun.

Garis Ketinggian: Kekuatan Penyaringan Bayesian Dapat Kelemahannya

Penapis spam Bayesian adalahpenapis berasaskan kandungan bahawa:

  • adalahkhusus dilatih untuk mengenali spam pengguna e-mel individu dan mel baik, menjadikannya sangat berkesan dan sukar untuk menyesuaikan diri dengan spammer.
  • boleh secara berterusan dan tanpa banyak usaha atau analisis manualmenyesuaikan kepada helah terbaru spammer.
  • ambil mail baik pengguna individu ke akaun dan mempunyai sangatkadar positif palsu yang rendah.
  • Malangnya, jika ini menyebabkan kepercayaan buta di penapis anti-spam Bayesian, ia menjadikannyakesilapan kadang-kadang lebih serius. Kesan sebaliknyanegatif palsu (spam yang kelihatan seperti mel biasa) mempunyai potensi untuk mengganggu dan menggagalkan pengguna.