Forum
Beitragsaufrufe
1214931

MCP Sound & MediaMatrosen in Lederhosen

Open Panel

FORUM - REGISTRIERUNG Sehr geehrter Besucher, zurzeit funktioniert die Registrierung aus Sicherheitsgründen nur über dieses "Kontaktformular". Bitte gebt dazu bei "Nachricht" euren Wunsch-Usernamen ein. Nachdem das Konto erstellt wurde, bekommt ihr eine Bestätigungsmail mit euren Login-Daten. Ihr könnt euch danach im Forum anmelden, Beiträge erstellen oder auf bestehende Themen antworten. "Registrieren".

× Hier könnt ihr alles Posten, was in keines der anderen Themen passt.

Frage Böse Bots, Spider, Robots und Crawler aussperren!

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
1 Jahr 4 Monate her - 1 Jahr 4 Monate her #1 von Tele
Mit diesem Beitrag möchte ich auf eine Problematik aufmerksam machen, welche eventuell von vielen gescheut wird, weil sie in ihrer Komlexität im ersten Augenblick sehr verwirrend und aufwändig erscheint. Letztendlich ist es jedoch gar nicht so Problematisch, wie es im ersten Moment scheint.

Es gibt viele Bots, Spider, Robots oder Crawler, welche durch ihr sehr agressives Verhalten einen Server schon mal in die Knie zwingen können, wollen oder sollen, indem sie viele Anfragen an diesen senden. Das können schon mal dutzende Anfragen pro Minute sein. Diese jedoch sollte ein Server noch spielend verkraften können, wenn es nur um eine Webseite geht.
Betreibt man jedoch mehrere Webseiten innerhalb seines Webaccounts, w.z.b. ein zusätzlicher Shop, ein Forum mit jeweils einer eigenen Domain, dann können zu viele Zugriffe über die einzelnen Domains pro Minute ein echtes Problem darstellen.

Dann hilft nur die Serverlogs auszuwerten und die Übeltäter von der Webseite auszusperren. Hir giebt es nun zwei Möglichkeiten. Die erste wäre die „robots.txt“. Das kann in folgendem Beispiel so aussehen:

User-agent: AhrefsBot
User-agent: DotBot
User-agent: MJ12bot
User-agent: YandexBot
Disallow: /

Nun ist es so, dass sich richtig böse Bots einen Dreck um die „robots.txt“ scheren und einfach weiter Daten sammeln. Dann sollte man das Aussperren per „.htaccess“ in betracht ziehen, was dann wie folgt aussehen kann:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DotBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^YandexBot [NC]
RewriteRule ^.* - [F,L]

Das soll nur ein Beispiel sein. Selbstverständlich kann man diese Liste um jeden weiteren nervenden Bösewicht erweitern.

Beste Grüße und viel Spaß beim Testen
der Tele
Letzte Änderung: 1 Jahr 4 Monate her von Tele.
Folgende Benutzer bedankten sich: Heiner

Bitte Anmelden um der Konversation beizutreten.

Mehr
1 Jahr 4 Monate her - 1 Jahr 4 Monate her #2 von Heiner
Hallo Tele,

danke für die gute Erklärung. Für meine robots.txt scheint die Regel zu funktionieren. Nun ist es so wie Du sagst, nicht alle halten sich an die robots.txt. Ich habe es nun so wie bei dir beschrieben, in meine .htaccess eingetragen, aber irgendwie kommen sie noch durch.

Hab ich da was nicht bedacht?

Danke schon mal.
Letzte Änderung: 1 Jahr 4 Monate her von Heiner.

Bitte Anmelden um der Konversation beizutreten.

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
1 Jahr 4 Monate her #3 von Tele
Du könntest versuchen, das ^ Hochdachzeichen vor dem Botnamen wegzulassen. Das sollte z.b. dann so aussehen:

RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [NC,OR] ändern in RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]

Bitte Anmelden um der Konversation beizutreten.

Mehr
1 Jahr 4 Monate her #4 von Heiner
Hallo Tele,

ja super, es hat geklappt. Ich habe dieses Zeichen vor dem Namen rausgenommen und dann ging es.

Eine Frage habe ich noch. Ich habe n bisschen mit diesen Zeichen [NC,OR] rumexperimentiert. Danach war meine Seite kurz nicht mehr erreichbar. Danach habe ich es wieder zurückgestellt wie vorher. Worauf muss ich bei diesen achten?

Danke Heiner

Bitte Anmelden um der Konversation beizutreten.

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
1 Jahr 4 Monate her - 1 Jahr 4 Monate her #5 von Tele
Das [NC] bedeutet, dass Groß und Kleinschreibung egal sind.
Das [OR] musst Du benutzen wenn Du mehrere Bots sperren möchtest welche alle die gleiche "RewriteRule" haben sollen. Dabei ist dann nur darauf zu achten, dass beim letzten Befehl das [OR] wegbleiben muss.

Beispiel wie im ersten Beitrag nur ohne das ^ Zeichen:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} YandexBot [NC]
RewriteRule ^.* - [F,L]

Gruß Tele
Letzte Änderung: 1 Jahr 4 Monate her von Tele.
Folgende Benutzer bedankten sich: Heiner

Bitte Anmelden um der Konversation beizutreten.

Mehr
3 Monate 4 Wochen her #6 von Heiner
Hallo Tele,

erst einmal danke für die gute Erklärung. Nun sind einige Monate ins Land gegangen und ich konnte beobachten, bei welchen Bots die Regeln greifen und bei welchen nicht.

Irgendwie habe ich noch ein Problem mit folgenden unterschieden:

^YandexBot und YandexBot, also ohne dieses Hochdachzeichen. Wo ist da genau der Unterschied?


Heiner

Bitte Anmelden um der Konversation beizutreten.

  • Tele
  • Teles Avatar Autor
  • Offline
  • Moderator
  • Moderator
  • Willkommen im Forum
Mehr
3 Monate 4 Wochen her - 3 Monate 4 Wochen her #7 von Tele
Moin,

die Bot's genau zu erkennen ist nicht immer so einfach. Das ^ Zeichen setzt man davor, wenn der Bot sich genau mit diesem Namen und der genauen Schreibweise zu erkennen gibt.

Ich würde es mal ohne das ^ Zeichen versuchen. Dies bedeutet, dass lediglich der Name innerhalb der Logdatei vorkommen muss. Ich gehe mal davon aus, dass Du zur Erkennung um welchen Bot es sich handelt, die Zugriffe aus deinen Serverlogs auswertest?


Gruß Tele
Letzte Änderung: 3 Monate 4 Wochen her von Tele.

Bitte Anmelden um der Konversation beizutreten.

Cookies erleichtern die Bereitstellung unserer Dienste. Mit der Nutzung unserer Dienste erklären Sie sich damit einverstanden, dass wir Cookies verwenden.
Weitere Informationen Ok Ablehnen