don't detect IE as a bot
[php-utility-classes.git] / include / classes / useragent.php-class
index 8250bc8c0e7695b7eacfb07390e1fd5f63e3187e..1185c502ddbf62c69f87f458248308f092e02cba 100755 (executable)
@@ -3,8 +3,8 @@ class userAgent {
   // userAgent PHP class
   // get user agent and tell us what Browser is accessing
   //
-  // function userAgent()
-  //   CONSTRUCTOR; reads UA string and gets info from that into our variables.
+  // function userAgent([$ua_string])
+  //   CONSTRUCTOR; reads UA string (or takes the optional given UA string) and gets info from that into our variables.
   //
   // var $uastring
   //   the plain User Agent string
@@ -12,7 +12,16 @@ class userAgent {
   //   returns the User Agent brand name
   // var $version
   //   the User Agent version
+  // var $bot
+  //   bool: true if this agent is a bot
   //
+  // function getBrand()
+  //   returns the User Agent Brand Name
+  // function getVersion()
+  //   returns the User Agent version
+  //
+  // function isbot()
+  //   returns true if User Agent seems to be a bot
   // function isns()
   //   returns true if User Agent seems to be Netscape brand, false if not
   // function isns4()
@@ -23,54 +32,303 @@ class userAgent {
   //   returns true if User Agent seems to be a Gecko-based browser, false if not
   // function geckodate()
   //   returns the Gecko date when it's a Gecko-based browser, 0 if not
+  // function khtmlbased()
+  //   returns true if User Agent seems to be a KHTML-based browser, false if not
+
+  // collection of some known User Agent Strings:
+  // Mozilla/5.0 (compatible; Konqueror/3; Linux 2.4.18; X11; i686)
+  // Mozilla/5.0 (X11; U; Linux i686; de-AT; rv:1.3b) Gecko/20030114
+  // Mozilla/4.0 (compatible; MSIE 5.0; Windows 95; DigExt)
+  // Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90)
+  // Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
+  // Mozilla/4.75 [de] (Win98; U)
+  // Opera/5.12 (Windows 2000; U)  [de]
+  // Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; m18) Gecko/20010131 Netscape6/6.01
+  // Mozilla/5.0 (Windows; U; Windows NT 5.1; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0
+  // Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/51 (like Gecko) Safari/51
+  // Lynx/2.8.4rel.1 libwww-FM/2.14 SSL-MM/1.4.1 OpenSSL/0.9.6g
+  // Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US; rv:1.0.1) Gecko/20021109 Chimera/0.6+
+  // Mozilla/5.0 (Windows; U; Win 9x 4.90; en-US; rv:1.3a) Gecko/20021207 Phoenix/0.5
+  // Mozilla/5.0 Galeon/1.2.7 (X11; Linux i686; U;) Gecko/20021204
+  // Mozilla/4.0 (compatible; MSIE 5.0; Windows XP) Opera 6.05 [ja]
+  // Mozilla/4.0 (compatible; MSIE 5.12; Mac_PowerPC) OmniWeb/4.1.1-v424.6
+  // Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.4b) Gecko/20030516 Mozilla Firebird/0.6
+  // Mozilla/5.0 (Windows; U; WinNT4.0; en-US; rv:1.5a) Gecko/20030728 Mozilla Firebird/0.6.1
+  // Python-urllib/1.15
+  // *** search bots: ***
+  // Scooter/3.3
+  // Spinne/2.0 med_AH
+  // Vagabondo/2.0 MT (webagent at wise-guys dot nl)
+  // TurnitinBot/1.5 ( ">http://www.turnitin.com/robot/crawlerinfo.html)
+  // FAST-WebCrawler/3.x Multimedia (mm dash crawler at fast dot no)
+  // Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)
+  // Googlebot/2.1 (+ ">http://www.googlebot.com/bot.html)
+  // Scrubby/2.2 ( ">http://www.scrubtheweb.com/)
+  // psbot/0.1 (+ ">http://www.picsearch.com/bot.html)
+  // NG/1.0
+  // URL_Spider_Pro/3.0 ( ">http://www.innerprise.net/usp-spider.asp)"
+  // Pompos/1.3 ">http://dir.com/pompos.html
+  // Szukacz/1.5 (robot; www.szukacz.pl/jakdzialarobot.html; info@szukacz.pl)
+  // ASPseek/1.2.10
+  // NPBot-1/2.0
+  // NetResearchServer/2.7(loopimprovements.com/robot.html)
+  // dloader(NaverRobot)/1.0
+  // Mozilla/4.0 compatible ZyBorg/1.0 Daily Refresh Beta-d03 (wn.zyborg@looksmart.net;
+  // Mozilla/2.0 (compatible; Ask Jeeves/Teoma)
+  // Mozilla/5.0 (Slurp/si; slurp@inktomi.com; ">http://www.inktomi.com/slurp.html)
+  // Mozilla/5.0 [en] (compatible; Gulper Web Bot 0.2.4 www.ecsl.cs.sunysb.edu/~maxim/cgi-bin/Link/GulperBot)
+  // Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; Girafabot; girafabot at girafa dot com;
+  // Mozilla/4.0 (efp@gmx.net)
+  // Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
+  // PingALink Monitoring Services 1.0 (http://www.pingalink.com)
+  // IlTrovatore-Setaccio (+ ">http://www.iltrovatore.it)
+  // Mercator-2.0
+  // appie 1.1 (www.walhello.com)
+  // larbin_2.6.2 (larbin2.6.2@unspecified.mail)
+  // OWR_Crawler 0.1
+  // search.ch V1.4.2 (spiderman@search.ch;
+  // WebFilter Robot 1.0
+  // Openfind data gatherer, Openbot/3.0+(robot-response@openfind.com.tw;+
+  // LinkWalker
+  // Internet Explorer 5.5
+  // BaiDuSpider
+  // Mozilla/4.0 (compatible; B-l-i-t-z-B-O-T)
+  // B l i t z B O T @ t r i c u s . n e t (Mozilla compatible)
+  // sitecheck.internetseer.com (For more info see: ">http://sitecheck.internetseer.com)
+  // http://www.almaden.ibm.com/cs/crawler   [c01]
+  // ia_archiver
+  // Nutch
+  // Mozilla
+  // HeinrichderMiragoRobot
+  // dumbBot
 
-  // debug: var $uastring = "Mozilla/5.0 (compatible; Konqueror/3; Linux 2.4.18; X11; i686)";
   var $uastring;
   var $brand;
   var $version;
+  var $bot = false;
 
-  function userAgent() {
+  function userAgent($ua_string = "") {
     // *** constructor ***
-    // get raw UA string
-    $this->uastring = $_SERVER["HTTP_USER_AGENT"];
+    if (strlen($ua_string)) {
+      $this->uastring = $ua_string;
+    }
+    else {
+      // read raw UA string
+      $this->uastring = $_SERVER["HTTP_USER_AGENT"];
+    }
 
     // get UA brand and version
     $this->brand = "Unknown"; $this->version = 0;
-    if (ereg("([0-9a-zA-Z\.]+)/([0-9a-zA-Z\.]+)", $this->uastring, $regs)) {
-      $this->uabrand = $regs[1]; // this is a reasonable default :)
+    if (ereg("([0-9a-zA-Z\.()-]+)/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = $regs[1]; // this is a reasonable default :)
       $this->version = $regs[2]; // this is a reasonable default :)
     }
-    if (ereg("Mozilla/([0-9a-zA-Z\.]+)", $this->uastring, $regs) && !strstr($this->uastring, "compatible;") && !strstr($this->uastring, "Gecko/")) {
+    if (ereg("Netscape6/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
       $this->brand = "Netscape";
       $this->version = $regs[1];
-      if (intval($this->version) == 4) { $this->brand .= " Communicator"; }
     }
-    elseif (ereg("Netscape6/([0-9a-zA-Z\.]+)", $this->uastring, $regs)) {
+    elseif (ereg("Netscape/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
       $this->brand = "Netscape";
       $this->version = $regs[1];
     }
-    elseif (ereg("Netscape/([0-9a-zA-Z\.]+)", $this->uastring, $regs)) {
-      $this->brand = "Netscape";
+    elseif (ereg("Chimera/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Chimera";
+      $this->version = $regs[1];
+    }
+    elseif (ereg("Phoenix/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Phoenix";
+      $this->version = $regs[1];
+    }
+    elseif (ereg("Mozilla Firebird/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Mozilla Firebird";
+      $this->version = $regs[1];
+    }
+    elseif (ereg("Galeon/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Galeon";
       $this->version = $regs[1];
     }
-    elseif (ereg("rv:([0-9a-zA-Z\.]+)", $this->uastring, $regs) && strstr($this->uastring, "Mozilla/") && strstr($this->uastring, "Gecko/")) {
+    elseif (ereg("rv:([0-9a-zA-Z\.+]+)", $this->uastring, $regs) && strstr($this->uastring, "Mozilla/") && strstr($this->uastring, "Gecko/")) {
       $this->brand = "Mozilla";
       $this->version = $regs[1];
     }
-    elseif (ereg("Opera[ /]([0-9a-zA-Z\.]+)", $this->uastring, $regs)) {
+    elseif (ereg("Opera[ /]([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
       $this->brand = "Opera";
       $this->version = $regs[1];
     }
-    elseif (ereg("Konqueror/([0-9a-zA-Z\.]+)", $this->uastring, $regs)) {
+    elseif (ereg("OmniWeb/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "OmniWeb";
+      $this->version = $regs[1];
+    }
+    elseif (ereg("Konqueror/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
       $this->brand = "Konqueror";
       $this->version = $regs[1];
     }
-    elseif (ereg("MSIE ([0-9a-zA-Z\.]+)", $this->uastring, $regs)) {
+    elseif (ereg("Safari/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Safari";
+      $this->version = $regs[1];
+    }
+    elseif (ereg("AppleWebKit/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "AppleWebKit";
+      $this->version = $regs[1];
+    }
+    elseif (ereg("ZyBorg/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "ZyBorg";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("Ask Jeeves/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Ask Jeeves";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("Slurp/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Slurp";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("Openbot/([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Openbot";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("Mercator-([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Mercator";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("appie ([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "appie";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("larbin_([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "larbin";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("Gulper Web Bot ([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "Gulper Web Bot";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("HTTrack ([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "HTTrack";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("OWR_Crawler ([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "OWR_Crawler";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("search.ch ([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "search.ch";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("WebFilter Robot ([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
+      $this->brand = "WebFilter Robot";
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
+    elseif (ereg("^LinkWalker", $this->uastring)) {
+      $this->brand = "LinkWalker";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("^Internet Explorer 5.5", $this->uastring)) {
+      $this->brand = "Unknown bot (IE5.5)";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("^Mozilla[\s ]*$", $this->uastring)) {
+      $this->brand = "Unknown bot (Mozilla)";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("^BaiDuSpider", $this->uastring)) {
+      $this->brand = "BaiDuSpider";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("^ia_archiver", $this->uastring)) {
+      $this->brand = "ia_archiver";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("^PingALink", $this->uastring)) {
+      $this->brand = "PingALink";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("^IlTrovatore-Setaccio", $this->uastring)) {
+      $this->brand = "IlTrovatore-Setaccio";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("^Nutch", $this->uastring)) {
+      $this->brand = "Nutch";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("^dumbBot", $this->uastring)) {
+      $this->brand = "dumbBot";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("http://www.almaden.ibm.com/cs/crawler", $this->uastring)) {
+      $this->brand = "almaden crawler";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("B-l-i-t-z-B-O-T", $this->uastring) || ereg("B l i t z B O T @ t r i c u s . n e t", $this->uastring)) {
+      $this->brand = "BlitzBOT";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("sitecheck.internetseer.com", $this->uastring)) {
+      $this->brand = "internetseer";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("Girafabot", $this->uastring)) {
+      $this->brand = "Girafabot";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("efp@gmx.net", $this->uastring)) {
+      $this->brand = "efp";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("HeinrichderMiragoRobot", $this->uastring)) {
+      $this->brand = "HeinrichderMiragoRobot";
+      $this->version = "";
+      $this->bot = true;
+    }
+    elseif (ereg("MSIE ([0-9a-zA-Z\.+]+)", $this->uastring, $regs)) {
       $this->brand = "Microsoft Internet Explorer";
       $this->version = $regs[1];
     }
+    elseif (ereg("Mozilla/([0-9a-zA-Z\.+]+)", $this->uastring, $regs) && !strstr($this->uastring, "compatible;") && !strstr($this->uastring, "Gecko/")) {
+      $this->brand = "Netscape";
+      $this->version = $regs[1];
+      if (intval($this->version) == 4) { $this->brand .= " Communicator"; }
+    }
+
+    $botArray = array("Scooter","Spinne","Vagabondo","TurnitinBot","FAST-WebCrawler","Firefly","Googlebot",
+                      "Scrubby","psbot","NG","URL_Spider_Pro","Pompos","Szukacz","ASPseek","NPBot-1",
+                      "dloader(NaverRobot)","NetResearchServer","","","","","","","");
+
+    if (in_array($this->brand, $botArray)) {
+      $this->bot = true;
+    }
   }
 
+  function getBrand() { return $this->brand; }
+  function getVersion() { return $this->version; }
+  function isbot() { return $this->bot; }
+
   function isns() {
     // set it static so that we don't have to call it that often
     static $is_ns;
@@ -130,5 +388,17 @@ class userAgent {
     }
   return $gdate;
   }
+
+  function khtmlbased() {
+    // set it static so that we don't have to call it that often
+    static $is_khtml;
+    if (!isset($is_khtml)) {
+      $is_khtml = false;
+      if (strstr($this->brand, "Konqueror") || strstr($this->brand, "Safari") || strstr($this->brand, "AppleWebKit")) {
+        $is_khtml = true;
+      }
+    }
+  return $is_khtml;
+  }
 }
-?>
\ No newline at end of file
+?>