Co je to spam a jak se s ním bojuje

7. 11. 2018 9:10

Spam nebo také nevyžádaná pošta je pojem, se kterým se téměř každý majitel emailové schránky setkal. Vždyť první spam byl poslán již v roce 1978 na zhruba 300 příjemců do sítě ARPANET, předchůdce dnešního internetu. Od té doby se samozřejmě vše obrovsky změnilo a dnes jsou pokusy o rozesílání spamu na denním pořádku.

Spam už není jen dopis od nigerijského prince slibující ohromné jmění za pomoc s přesunem peněz. Naopak se čím dál více přesouvá do roviny obchodních sdělení, kde bývá pro příjemce často obtížné rozeznat seriózní vyžádanou nabídku od té nevyžádané.

Jak to tedy se zaslaným e-mailem ve skutečnosti je? Jak poznáme co je a není spam? V první řadě je pošta je tzv. "na příchodu" klasifikována pomocí automatických mechanismů. Při počtu příchozích zpráv v řádu desítek milionů denně ani jiné než na automatické, strojové hodnocení nepřipadá v úvahu. Detaily strojových mechanismů klasifikace pošty nelze vzhledem k riziku zneužití poskytnutých informací zveřejnit.

Jedním ze základních mechanismů chránící uživatele před spamem představuje antivirus. V případě detekce škodlivé přílohy je zavirovaný email ve většině případů zahozen - tedy nedostane se ani do schránek uživatelů. Na nezavirované emaily jsou následně aplikovány hlavní mechanismy klasifikace.

Dalším ze vstupní brány antispamu je často tzw. Greylist. Ten pracuje na principu, kdy v případě, že dorazí-li mail z úplně nové adresy, mail server si zapamatuje IP adresu, adresu příjemce a odesílatele, zprávu zahodí a zpět odešle servisní zprávu 450, která znamená dočasnou nedostupnost schránky. Pro odesílatele to je signál, že se má pokusit doručit danou zprávu později. To celá řada spamu a botnetů zcela ignoruje neboť by to pro tyto systémy byla zbytečná zátěž. Greylisting tak představuje vrstvu antispamu na jednoduché technologické úrovni dodržování RFC standardů.

Vedle greylistu se často používají tzv. Blacklisty a Whitelisty. Blacklist je souhrn IP adres, domén či samostatných emailových adres. Pokud se cokoliv co je na blacklistu pokusí o doručení, jsou takové emaily rovnou zahazovány. Na blacklist je možné se dostat například soustavným porušováním pravidel. Whitelist je oproti tomu souhrn, na který se většina antispam kontrol nevztahuje a zprávy jsou tím pádem bez problémů doručovány. Zpravidla dávají poskytovatelé na whitelist pouze velmi důležité rozesílatele, například státní zprávu, nebo finanční ústavy apod. Řada poskytovatelů whitelist ze zásady nepoužívá vůbec, nebo pouze jako faktor v reputačním skoringu.

Ke každému emailu se při doručování vybuduje vektor obohacujících informací a clusterových labelů (které dávají zprávu do kontextu celkového emailového trafficu).Po vybudování vektoru probíhá samotná hlavní klasifikace. Některé druhy spamu jako např. zprávy z botnetů či různé druhy phishingů/scamů se po identifikaci opět rovnou zahazují. Statistické a strojově učené modely v sobě nesou inherentní bias vyjadřující zájmy uživatelů. Emaily od subjektů se špatnou reputací, která je definována negativní statistickou uživatelskou odezvou či porušováním právně-etických či technických aspektů, jsou umisťovány do složky spam a v případě velmi špatné reputace může dojít i k jejich zahození.

Pokud se zaměříme na zmíněnou právně-etickou a technicku oblast, vyplývá z ní řada pravidel, která se při porušení projevují na klasifikaci pošty.

Z právně-etické oblasti je nutné v první řadě zmínit zákonné náležitosti:

Přihlášení k odběru

Z pohledu příjemce vědomé a průkazné přihlášení k odběru newsletterů. V post GDPR době by přihlášení k newsletterům mělo probíhat skrze double opt-in, tak aby se nemohlo stát, že do databáze jednotlivých rozeíilatelů někdo vědomě či nevědomě zanese cizí emailovou adresu či přímo spamovou past (o pastech se dočtete více zde). Trefení spamové pasti je jasným signálem, že odesílatel nemá svou databázi v pořádku a dochází tedy k porušení této zákonné náležitosti. Spamová past může přitom být i jednoduchá překlepová doména, navozující podobnost s nějakým poskytovatelem. Výsledkem je pak nasměrování této pošty do složky spam, dokud se daný problém na straně odesílatele nevyřeší, resp. svou databázi rozesílatel od adres u kterých souhlas nemá neočistí.

Možnost odhlášení

Funkční a uživatelsky přívětivá možnost odhlášení (pro tyto účely Seznam dává volně k dispozici své nástroje List Unsubscribe a FBL - fbl.seznam.cz). Při nesplnění této prerekvizity mohou být newslettery daného subjektu umisťovány do složky spam, dokud se daný problém nevyřeší.

Dále se z této právně-etické oblasti hlídají průkazné pokusy o vědomé obcházení či zneužívání mechanismů/kritérií klasifikace pošty. Jedná se například o pokusy maskovat hromadnou poštu jako transakční tak, aby příjemci přišel místo do složky hromadné newsletter přímo do složky doručené. Toto chování je ze strany Seznamu penalizováno permanentní blokací daného subjektu a všech jeho budoucích mutací, u nichž se podaří prokázat vazba na původní subjekt.

Z technické oblasti se pak jedná zejména o tyto aspekty:

SPF

Správně nastavené SPF záznamy - tedy specifikovaný okruh IP adres ze kterých jsou odesílané zprávy - nevhodné nastavení SPF záznamů může vést k odmítání pošty na úrovni SMTP protokolu - tedy jejímu zahazování. Např. striktní SPF je problematické u přeposílek, proto je potřeba dávat si na správné využívání SPF záznamů pozor

DKIM

Validní digitální podpis domény - DKIM (ideálně u všech emailů). Seznam již několik let vynucuje DKIM podpis u hromadné pošty, nepodepsané newslettery se tzv. bouncují - tedy vrací.

DMARC

DMARC záznam(y) - nevhodně nastavené DMARC pravidlo může vést k umístění legitimní pošty do spamu či přímo k jejímu zahození.

Rate limity

Rate limity na úrovni SMTP protokolu - v rámci ochrany před DoS útoky SMTP servery Seznamu monitorují např. počty spojení a přenesených dat za specifikovaný časový interval z konkrétní IP adresy.

Při překročení některého z limitů dostane IP adresa 300 vteřinovou blokaci, po jejíž dobu jsou další požadavky z této IP odmítány s dočasnou (421) SMTP chybou.

Korektně nastavené odesílací servery jsou schopné si s dočasnými chybami poradit a po čase by měli zkusit takto odmítnuté emaily doručit znovu.