Forum
Beitragsaufrufe
1288339

MCP Sound & MediaMatrosen in Lederhosen

Open Panel

FORUM - REGISTRIERUNG Sehr geehrter Besucher, zurzeit funktioniert die Registrierung aus Sicherheitsgründen nur über dieses "Kontaktformular". Bitte gebt dazu bei "Nachricht" euren Wunsch-Usernamen ein. Nachdem das Konto erstellt wurde, bekommt ihr eine Bestätigungsmail mit euren Login-Daten. Wenn ihr Euch das erste mal mit euren Benutzerdaten angemeldet habt, gelangt ihr automatisch auf euer Registrierungsprofil. Hier müsst ihr nun einmalig ganz unten bei den Datenschutzbestimmungen den Haken setzen und bestätigen. Danach könnt ihr das Forum uneingeschränkt nutzen, Beiträge erstellen oder auf bestehende Themen antworten.

× Hier könnt ihr alles Posten, was in keines der anderen Themen passt.

Frage Böse Bots, Spider, Robots und Crawler aussperren!

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
2 Jahre 3 Monate her - 2 Jahre 3 Monate her #1 von Tele
Mit diesem Beitrag möchte ich auf eine Problematik aufmerksam machen, welche eventuell von vielen gescheut wird, weil sie in ihrer Komlexität im ersten Augenblick sehr verwirrend und aufwändig erscheint. Letztendlich ist es jedoch gar nicht so Problematisch, wie es im ersten Moment scheint.

Es gibt viele Bots, Spider, Robots oder Crawler, welche durch ihr sehr agressives Verhalten einen Server schon mal in die Knie zwingen können, wollen oder sollen, indem sie viele Anfragen an diesen senden. Das können schon mal dutzende Anfragen pro Minute sein. Diese jedoch sollte ein Server noch spielend verkraften können, wenn es nur um eine Webseite geht.
Betreibt man jedoch mehrere Webseiten innerhalb seines Webaccounts, w.z.b. ein zusätzlicher Shop, ein Forum mit jeweils einer eigenen Domain, dann können zu viele Zugriffe über die einzelnen Domains pro Minute ein echtes Problem darstellen.

Dann hilft nur die Serverlogs auszuwerten und die Übeltäter von der Webseite auszusperren. Hir giebt es nun zwei Möglichkeiten. Die erste wäre die „robots.txt“. Das kann in folgendem Beispiel so aussehen:

User-agent: AhrefsBot
User-agent: DotBot
User-agent: MJ12bot
User-agent: YandexBot
Disallow: /

Nun ist es so, dass sich richtig böse Bots einen Dreck um die „robots.txt“ scheren und einfach weiter Daten sammeln. Dann sollte man das Aussperren per „.htaccess“ in betracht ziehen, was dann wie folgt aussehen kann:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DotBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^YandexBot [NC]
RewriteRule ^.* - [F,L]

Das soll nur ein Beispiel sein. Selbstverständlich kann man diese Liste um jeden weiteren nervenden Bösewicht erweitern.

Beste Grüße und viel Spaß beim Testen
der Tele
Letzte Änderung: 2 Jahre 3 Monate her von Tele.
Folgende Benutzer bedankten sich: Heiner

Bitte Anmelden um der Konversation beizutreten.

Mehr
2 Jahre 2 Monate her - 2 Jahre 2 Monate her #2 von Heiner
Hallo Tele,

danke für die gute Erklärung. Für meine robots.txt scheint die Regel zu funktionieren. Nun ist es so wie Du sagst, nicht alle halten sich an die robots.txt. Ich habe es nun so wie bei dir beschrieben, in meine .htaccess eingetragen, aber irgendwie kommen sie noch durch.

Hab ich da was nicht bedacht?

Danke schon mal.
Letzte Änderung: 2 Jahre 2 Monate her von Heiner.

Bitte Anmelden um der Konversation beizutreten.

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
2 Jahre 2 Monate her #3 von Tele
Du könntest versuchen, das ^ Hochdachzeichen vor dem Botnamen wegzulassen. Das sollte z.b. dann so aussehen:

RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [NC,OR] ändern in RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]

Bitte Anmelden um der Konversation beizutreten.

Mehr
2 Jahre 2 Monate her #4 von Heiner
Hallo Tele,

ja super, es hat geklappt. Ich habe dieses Zeichen vor dem Namen rausgenommen und dann ging es.

Eine Frage habe ich noch. Ich habe n bisschen mit diesen Zeichen [NC,OR] rumexperimentiert. Danach war meine Seite kurz nicht mehr erreichbar. Danach habe ich es wieder zurückgestellt wie vorher. Worauf muss ich bei diesen achten?

Danke Heiner

Bitte Anmelden um der Konversation beizutreten.

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
2 Jahre 2 Monate her - 2 Jahre 2 Monate her #5 von Tele
Das [NC] bedeutet, dass Groß und Kleinschreibung egal sind.
Das [OR] musst Du benutzen wenn Du mehrere Bots sperren möchtest welche alle die gleiche "RewriteRule" haben sollen. Dabei ist dann nur darauf zu achten, dass beim letzten Befehl das [OR] wegbleiben muss.

Beispiel wie im ersten Beitrag nur ohne das ^ Zeichen:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} YandexBot [NC]
RewriteRule ^.* - [F,L]

Gruß Tele
Letzte Änderung: 2 Jahre 2 Monate her von Tele.
Folgende Benutzer bedankten sich: Heiner

Bitte Anmelden um der Konversation beizutreten.

Mehr
1 Jahr 2 Monate her #6 von Heiner
Hallo Tele,

erst einmal danke für die gute Erklärung. Nun sind einige Monate ins Land gegangen und ich konnte beobachten, bei welchen Bots die Regeln greifen und bei welchen nicht.

Irgendwie habe ich noch ein Problem mit folgenden unterschieden:

^YandexBot und YandexBot, also ohne dieses Hochdachzeichen. Wo ist da genau der Unterschied?


Heiner

Bitte Anmelden um der Konversation beizutreten.

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
1 Jahr 2 Monate her - 1 Jahr 2 Monate her #7 von Tele
Moin,

die Bot's genau zu erkennen ist nicht immer so einfach. Das ^ Zeichen setzt man davor, wenn der Bot sich genau mit diesem Namen und der genauen Schreibweise zu erkennen gibt.

Ich würde es mal ohne das ^ Zeichen versuchen. Dies bedeutet, dass lediglich der Name innerhalb der Logdatei vorkommen muss. Ich gehe mal davon aus, dass Du zur Erkennung um welchen Bot es sich handelt, die Zugriffe aus deinen Serverlogs auswertest?


Gruß Tele
Letzte Änderung: 1 Jahr 2 Monate her von Tele.

Bitte Anmelden um der Konversation beizutreten.

Mehr
2 Monate 3 Wochen her - 2 Monate 3 Wochen her #8 von Heiner
Ich habe zudem noch in Erfahrung bringen können, dass das Sperren einzelner IP-Adressen den Bösewicht nicht immer aussperrt. Dazu ist es notwendig, ganze IP-Blöcke zu sperren. Leider wird dann die .htaccess sehr groß und die Ladezeit der Webseite kann dadurch verlangsamt werden.

Besser ist in so einem Fall, ein ganzes Land komplett zu Sperren. Das könnte dann so aussehen:
order allow,deny
deny from .ru
deny from .ua
deny from .cn
deny from .in
allow from all

Falls es jemand gebrauchen kann. :)

Gruß Heiner
Letzte Änderung: 2 Monate 3 Wochen her von Tele.

Bitte Anmelden um der Konversation beizutreten.

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
2 Monate 3 Wochen her #9 von Tele
Hallo Heiner,

ja dein Tipp sollte so Funktionieren. Jedoch sollte man bedenken, dass wenn jemand einen Online-Shop betreibt, er dann aus diesem Land keine Bestellungen mehr zu erwarten hat. Es sei denn, aus den genannten Ländern sind generell keine Bestellungen gewünscht.

Was deine genannte .htaccess betrifft, diese ist einer robots.txt in jedem Fall vorzuziehen, da die meisten Robots und Crawler eine robots.txt eh ignorieren.

Gruß Tele

Bitte Anmelden um der Konversation beizutreten.

Wir nutzen Cookies auf unserer Website. Einige von ihnen sind essenziell für den Betrieb der Seite, während andere uns helfen, diese Website und die Nutzererfahrung zu verbessern (Tracking Cookies). Sie können selbst entscheiden, ob Sie die Cookies zulassen möchten. Bitte beachten Sie, dass bei einer Ablehnung womöglich nicht mehr alle Funktionalitäten der Seite zur Verfügung stehen.