De Nederlandse Patriot

Robots

Deze pagina gaat over het beleid van – en omtrent zoekmachines en diens robots.

Bad Bots

Elke robot is slecht. Robots werken namelijk in het beste geval volgens het opt-out principe, in plaats van het opt-in principe.

Robots Exclusion Protocol

Het gebruik van de Robots Exclusion Protocol is ethisch verplicht voor elke robot en website.

Voordelen robots.txt

- Besparing dataverkeer, bandbreedte, servertijd, etc.
- Schone serverlogs (niet telkens een 404 als een robot het robots.txt opvraagt)
- Meer privacy voor u en uw gebruikers (door het blokkeren van bv. archive.org)

Het is mogelijk om robots te blokkeren, (mits deze robots zich aan de robots exclusion protocol houden.)
Het is ook mogelijk om alle robots te blokkeren, en om uitzonderingen toe te staan. Een voorbeeld daarvan is het robots.txt van hyves.nl

Alexa Internet Inc. & Webarchive.org

Het internet archief (archive.org) bewaart elke kopie van elke versie van alle pagina’s op het internet voor altijd. Verzoeken om verwijdering kan per e-mail. De crawler kan worden tegengehouden d.m.v. het robots.txt.
Het Alexa spyware & Webarchive.org boycot robots.txt ziet er dan zo uit:

User-agent: ia_archiver
Disallow: /

User-agent: archive.org_bot
Disallow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

# (Een witregel aan het einde.)

Als je 1 robots.txt hebt, worden sub-domeinen nog wel gecrawld en geïndexeerd.

Archive.org ondersteunt geen metatags. Sinds een aantal jaar wel (onofficieel) de noarchive-tag, maar verder niets. Noindex, none, nofollow, nocache, no-cache werken dus niet tegen archive.org. Met none, of noindex, nofollow, of no-cache wordt de pagina nog wel gearchiveerd door archive.org. De noarchive-tag beschermt alleen de html. Andere bestanden zoals foto’s worden nog wel gearchiveerd.

Het robots.txt blokkeert nieuwe crawls en maakt eerdere crawls onbereikbaar voor bezoekers zolang het robots.txt ia_archiver niet toe laat. De enige oplossing is dus om per e-mail archive.org te verzoeken om de archieven van jouw domein volledig te wissen en niet te indexeren.

Standaardbrief staat op mijnprivacy.nl, maar je kan er natuurlijk ook zelf een typen. (Een wat kortere.)

Meer informatie:
http://nl.wikipedia.org/wiki/Alexa_Internet
http://www.archive.org/about/exclude.php

Voor het verkrijgen van data gebruikt Alexa spyware. Deze spyware zit standaard op elke Windows PC. Ook vraagt Alexa Internet aan Mozilla Firefox gebruikers om hun add-on te installeren. Het adres van elke pagina die je bezoekt, wordt dan doorgegeven aan Alexa Internet, om de bekende Alexa statistieken samen te stellen, maar ook om die pagina’s te crawlen en op te nemen in de zoekmachine van Alexa en het internet archief. Het komt er dus om neer dat elke kopie van elke versie van elke pagina die Alexa op het internet kan vinden of die u bezoekt op het internet voor altijd wordt bewaard in het internet archief. Dat noem ik onethisch, vooral ook omdat weinig mensen zich hiervan bewust zijn. Des te meer reden om Alexa Internet en het internet archief te boycotten, d.m.v. e-mails naar archive.org, noarchive meta-tags en de robots.txt.

Not in Archive. The page you requested has not been archived. If the page is still available on the Internet, we will begin archiving it during our next crawl.

Robots.txt validator

Robots.txt validator:
http://tool.motoricerca.info/robots-checker.phtml

Google Robot
https://www.google.com/webmasters/tools/siteoverview

Meta tags

Geen meta tag betekent: all, all betekent index,follow (incl. archive/cache en snippet) Deze metatags zijn dus overbodig.
Wel nuttig: noarchive, noindex, none, nofollow, nocache, nosnippet, noodp, noydir.

Robots User-agent

Technorati Inc. TechnoratiBot (doesnot obey robots.txt)
Google Inc. GoogleBot
Microsoft Corporation MSNBot
Microsoft psbot (Picture Search)
Nutch
ia_archiver
en eindeloos veel anderen…

Nieuwe robots.txt features

Crawl-delay

Weblog zoekmachines

Houden zich niet aan robots exclusion protocol
Hebben geen user-agent…
Bewaren alles, voor eeuwig…
Zouden eigenlijk verboden moeten zijn…
Bijvoorbeeld: startlog.nl

Voorstellen

Hier zomaar een paar ideeën:
Privacy op internet m.b.t. zoekmachines.
- Zoekmachines mogen alleen indexeren, snippets maken, en bestanden archiveren als zowel de robots.txt als het bestand zelf dit expliciet aangeven.
- Geïndexeerde bestanden, gearchiveerde bestanden en snippets mogen slechts een beperkte tijd bewaard blijven. Uitzondering: Archive.org.
- Zoekresultaten mogen niet worden geïndexeerd.
- Weblogzoekmachines mogen entries slechts een beperkte tijd bewaren.
- Weblogzoekmachines moeten zich ook aan robots.txt houden.
- Weblogtools mogen niet automatisch Weblogs.com pingen.
(De optie bieden mag uiteraard wel!)
- Elk domein moet een robots.txt hebben.
- Websites die gegevens van anderen beheren, mogen die gegevens beslist niet laten archiveren.

Deze pagina is in aanbouw. Commenten kan in het Off-topic gedeelte.
.

TrackBack URI

Blog op Wordpress.com.