add knowledge about the Heritrix bot
[php-utility-classes.git] / include / classes / useragent.php-class
index f2fa3d602ca39fd7bc39dd352c743c14151eb560..840a3987bf29af50b9b0dc8dd6c254eac3b36493 100755 (executable)
@@ -68,7 +68,7 @@ class userAgent {
   //
   // public function getEngine()
   //   returns a string telling the detected rendering engine, null if we can't detect
-  //     one of gecko|khtml|trident|tasman|nscp|presto|gzilla|gtkhtml|links|unknown
+  //     one of gecko|khtml|trident|tasman|nscp|presto|gzilla|gtkhtml|links|icestorm|unknown
   //
   // public function hasEngine($rnd_engine)
   //   returns true if the given rendering engine was detected
@@ -182,6 +182,11 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|Flock/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Flock';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
     elseif (preg_match('|Firefox/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
       $this->brand = 'Firefox';
       $this->version = $regs[1];
@@ -192,6 +197,16 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|Iceape/([0-9a-zA-Z\.+]+)|i', $this->uastring, $regs)) {
+      $this->brand = 'IceApe';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|Iceweasel/([0-9a-zA-Z\.+]+)|i', $this->uastring, $regs)) {
+      $this->brand = 'IceWeasel';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
     elseif (preg_match('|Galeon/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
       $this->brand = 'Galeon';
       $this->version = $regs[1];
@@ -222,12 +237,22 @@ class userAgent {
       $this->version = 'M'.$regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|Opera\/([^\(]+) \(.*; Opera Mini; |', $this->uastring, $regs)) {
+      $this->brand = 'Opera Mini';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('/Opera\/[^\(]+ \(.*; Opera Mini\/([^;]+); /i', $this->uastring, $regs)) {
+      $this->brand = 'Opera Mini';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
     elseif (preg_match('|Opera[ /]([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
       $this->brand = 'Opera';
       $this->version = $regs[1];
       $this->bot = false;
     }
-    elseif (preg_match('|OmniWeb/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+    elseif (preg_match('|OmniWeb/([0-9a-zA-Z\.+-]+)|', $this->uastring, $regs)) {
       $this->brand = 'OmniWeb';
       $this->version = $regs[1];
       $this->bot = false;
@@ -237,6 +262,11 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|Shiira/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Shiira';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
     elseif (preg_match('|Safari/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
       $this->brand = 'Safari';
       $this->version = $regs[1];
@@ -262,8 +292,38 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = false;
     }
-    elseif (preg_match('|Configuration/CLDC-([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
-      $this->brand = 'CLDC';
+    elseif (preg_match('|ICEbrowser/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'ICEbrowser';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|ICE Browser/v([0-9a-zA-Z\._+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'ICEbrowser';
+      $this->version = str_replace('_', '.', $regs[1]);
+      $this->bot = false;
+    }
+    elseif (preg_match('|NetPositive/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'NetPositive';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|WebPro/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'WebPro (Novarra)';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|; OffByOne;|', $this->uastring, $regs)) {
+      $this->brand = 'Off By One';
+      $this->version = null;
+      $this->bot = false;
+    }
+    elseif (preg_match('|PSP \(PlayStation Portable\); ([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'PlayStation Portable';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|NetFront/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'NetFront';
       $this->version = $regs[1];
       $this->bot = false;
     }
@@ -272,6 +332,41 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|UP.Link/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'UP.Link';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|AU-MIC-([0-9A-Z]+/[0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Obigo';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|Nokia([0-9a-zA-Z]+/[0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Nokia';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|SonyEricsson([0-9a-zA-Z]+/[0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'SonyEricsson';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|SIE-([0-9a-zA-Z]+/[0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Siemens';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|MOT-([0-9a-zA-Z]+/[0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Motorola';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
+    elseif (preg_match('|IBM-WebExplorer-DLL/v([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'WebExplorer';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
     elseif (preg_match('|ELinks \(([0-9a-zA-Z\.+]+);|', $this->uastring, $regs)) {
       $this->brand = 'ELinks';
       $this->version = $regs[1];
@@ -287,6 +382,11 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|; arexx\)|i', $this->uastring, $regs)) {
+      $this->brand = 'ARexx';
+      $this->version = null;
+      $this->bot = false;
+    }
     elseif (preg_match('|ZyBorg/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
       $this->brand = 'ZyBorg';
       $this->version = $regs[1];
@@ -302,6 +402,11 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = true;
     }
+    elseif (preg_match('|heritrix/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Heritrix';
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
     elseif (preg_match('|Slurp|', $this->uastring, $regs)) {
       $this->brand = 'Slurp';
       $this->version = null;
@@ -317,6 +422,11 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = true;
     }
+    elseif (preg_match('|Microsoft URL Control - ([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Microsoft URL Control';
+      $this->version = $regs[1];
+      $this->bot = true;
+    }
     elseif (preg_match('|([0-9a-zA-Z\.+]+)_AC-Plug|', $this->uastring, $regs)) {
       $this->brand = 'AC-Plug';
       $this->version = $regs[1];
@@ -385,6 +495,11 @@ class userAgent {
       $this->version = null;
       $this->bot = false;
     }
+    elseif (preg_match('|Browser[^/]+(http://www.avantbrowser.com)|', $this->uastring)) {
+      $this->brand = 'Avant Browser';
+      $this->version = null;
+      $this->bot = false;
+    }
     elseif (preg_match('|Maxthon|', $this->uastring)) {
       $this->brand = 'Maxthon';
       $this->version = null;
@@ -410,16 +525,31 @@ class userAgent {
       $this->version = $regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|America Online Browser [0-9a-zA-Z\.+]+; rev([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'AOL Browser';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
     elseif (preg_match('|MS FrontPage ([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
       $this->brand = 'Microsoft FrontPage';
       $this->version = $regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|Microsoft Internet Explorer/4.0b1|', $this->uastring, $regs)) {
+      $this->brand = 'Microsoft Internet Explorer';
+      $this->version = '1.0';
+      $this->bot = false;
+    }
     elseif (preg_match('|MSIE ([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
       $this->brand = 'Microsoft Internet Explorer';
       $this->version = $regs[1];
       $this->bot = false;
     }
+    elseif (preg_match('|MSPIE ([0-9a-zA-Z\.+]+)|', $this->uastring, $regs)) {
+      $this->brand = 'Microsoft Pocket Internet Explorer';
+      $this->version = $regs[1];
+      $this->bot = false;
+    }
     elseif (preg_match('|Mozilla/([0-9a-zA-Z\.+]+)|', $this->uastring, $regs) && (strpos($this->uastring, 'compatible;') === false) && (strpos($this->uastring, 'Gecko/') === false)) {
       $this->brand = 'Netscape';
       $this->version = $regs[1];
@@ -436,7 +566,7 @@ class userAgent {
                       'NetResearchServer','LinkWalker','Zeus','W3C_Validator','ZyBorg','Ask Jeeves','ia_archiver',
                       'PingALink Monitoring Services','IlTrovatore-Setaccio','Nutch','Mercator','search.ch',
                       'appie','larbin','NutchCVS','ObjectsSearch','Webchat','Mediapartners-Google','Schmozilla',
-                      'FavOrg','findlinks','DataCha0s','','','','','','','','','');
+                      'FavOrg','findlinks','DataCha0s','ichiro','Francis','','','','','','','');
 
     if (in_array($this->brand, $botArray)) {
       $this->bot = true;
@@ -465,7 +595,7 @@ class userAgent {
   public function getUAString() { return $this->uastring; }
 
   public function getEngine() {
-    // return gecko|khtml|trident|tasman|nscp|presto|gzilla|gtkhtml|links|unknown
+    // return gecko|khtml|trident|tasman|nscp|presto|gzilla|gtkhtml|links|icestorm|unknown
     if (!isset($this->uadata['engine'])) {
       $this->uadata['engine'] = 'unknown';
       $this->uadata['geckodate'] = null;
@@ -481,7 +611,9 @@ class userAgent {
           $this->uadata['engine'] = 'trident';
         }
       }
-      elseif ((strpos($this->brand, 'Konqueror') !== false) || (strpos($this->brand, 'Safari') !== false) || (strpos($this->brand, 'AppleWebKit') !== false) || (strpos($this->brand, 'OmniWeb') !== false)) {
+      elseif ((strpos($this->brand, 'Konqueror') !== false) || (strpos($this->brand, 'Safari') !== false) ||
+              (strpos($this->brand, 'Shiira') !== false) ||
+              (strpos($this->brand, 'AppleWebKit') !== false) || (strpos($this->brand, 'OmniWeb') !== false)) {
         $this->uadata['engine'] = 'khtml';
       }
       elseif (strpos($this->brand, 'Netscape') !== false) {
@@ -502,6 +634,9 @@ class userAgent {
       elseif ((strpos($this->brand, 'ELinks') !== false) || (strpos($this->brand, 'Links') !== false)) {
         $this->uadata['engine'] = 'links';
       }
+      elseif ((strpos($this->brand, 'ICEbrowser') !== false) || (strpos($this->brand, 'ICE Browser') !== false)) {
+        $this->uadata['engine'] = 'icestorm';
+      }
       elseif ((strpos($this->brand, 'Avant') !== false) || (strpos($this->brand, 'Crazy Browser') !== false) ||
               (strpos($this->brand, 'AOL') !== false) || (strpos($this->brand, 'MSN') !== false) ||
               (strpos($this->brand, 'MyIE2') !== false) || (strpos($this->brand, 'Maxthon') !== false)) {
@@ -510,6 +645,9 @@ class userAgent {
       elseif (strpos($this->brand, 'Galeon') !== false) {
         $this->uadata['engine'] = 'gecko';
       }
+      elseif (strpos($this->brand, 'WebPro') !== false) {
+        $this->uadata['engine'] = 'nscp';
+      }
     }
   return $this->uadata['engine'];
   }
@@ -576,8 +714,8 @@ class userAgent {
         }
       }
       elseif ($this->hasEngine('trident') || $this->hasEngine('tasman')) {
-        if (preg_match('/Mozilla\/[^\(]+ \(compatible *; MSIE ([^;]+)[^\)]*; ?((?:Mac|Win)[^;]+)[^\)]*\)/i', $this->uastring, $regs)) {
-          $this->uadata['eng_version'] = $regs[1];
+        if (preg_match('/Mozilla\/[^\(]+ \(compatible *; MSP?IE ([^;]+)[^\)]*; ?((?:Mac|Win)[^;]+)[^\)]*\)/i', $this->uastring, $regs)) {
+          $this->uadata['eng_version'] = (strpos($this->uastring,'MSPIE')!==false)?null:$regs[1];
           $this->uadata['os'] = $regs[2];
           $this->uadata['lang'] = null;
         }
@@ -586,6 +724,16 @@ class userAgent {
           $this->uadata['os'] = null;
           $this->uadata['lang'] = null;
         }
+        elseif (preg_match('/Microsoft Internet Explorer\/[^\s]+ \(((?:Mac|Win)[^;\)]+)\)/i', $this->uastring, $regs)) {
+          $this->uadata['eng_version'] = $this->getVersion();
+          $this->uadata['os'] = $regs[1];
+          $this->uadata['lang'] = null;
+        }
+        elseif (preg_match('/Microsoft Pocket Internet Explorer\/[^\s]+/i', $this->uastring, $regs)) {
+          $this->uadata['eng_version'] = null;
+          $this->uadata['os'] = 'Windows CE';
+          $this->uadata['lang'] = null;
+        }
       }
       elseif ($this->hasEngine('khtml')) {
         if (preg_match('/Mozilla\/[^\(]+ \(compatible; Konqueror\/([^;]+); ([^;]+); ([^;]+); ([^;]+); ([^\);]+)\)(?: KHTML\/([0-9a-zA-Z\.+]+))?/i', $this->uastring, $regs)) {
@@ -603,6 +751,11 @@ class userAgent {
           $this->uadata['lang'] = $regs[3];
           $this->uadata['eng_version'] = null;
         }
+        elseif (preg_match('|Mozilla/5.0 \(([^;]+); U; ([^\);]+)\)|', $this->uastring, $regs)) {
+          $this->uadata['os'] = $regs[1];
+          $this->uadata['lang'] = $regs[2];
+          $this->uadata['eng_version'] = null;
+        }
         elseif (preg_match('/Mozilla\/[^\(]+ \(compatible; [^;]+; ([^\);]+)\)/i', $this->uastring, $regs)) {
           $this->uadata['os'] = $regs[1];
           $this->uadata['lang'] = null;
@@ -610,6 +763,7 @@ class userAgent {
         }
       }
       elseif ($this->hasEngine('presto')) {
+        // Opera < 8
         if (preg_match('/Opera\/[^\(]+ \((?:X11; )?([^;]+)[^\)]+\) +\[([a-z_-]+)\]/i', $this->uastring, $regs)) {
           $this->uadata['eng_version'] = $this->getVersion();
           $this->uadata['os'] = $regs[1];
@@ -625,7 +779,18 @@ class userAgent {
           $this->uadata['os'] = $regs[1];
           $this->uadata['lang'] = $regs[2];
         }
-        // Opera 8
+        // Opera mini
+        elseif (preg_match('/Opera\/([^\(]+) \((?:X11; )?([^;]+); Opera Mini; ([a-z_-]+); /i', $this->uastring, $regs)) {
+          $this->uadata['eng_version'] = null;
+          $this->uadata['os'] = $regs[2];
+          $this->uadata['lang'] = $regs[3];
+        }
+        elseif (preg_match('/Opera\/([^\(]+) \((?:X11; )?([^;]+); Opera Mini\/[^;]+; ([a-z_-]+); /i', $this->uastring, $regs)) {
+          $this->uadata['eng_version'] = $regs[1];
+          $this->uadata['os'] = $regs[2];
+          $this->uadata['lang'] = $regs[3];
+        }
+        // Opera >= 8
         elseif (preg_match('/Opera\/[^\(]+ \((?:X11; )?([^;]+); [^\)]+; ([a-z_-]+)\)/i', $this->uastring, $regs)) {
           $this->uadata['eng_version'] = $this->getVersion();
           $this->uadata['os'] = $regs[1];
@@ -653,6 +818,11 @@ class userAgent {
           $this->uadata['os'] = $regs[3];
           $this->uadata['lang'] = $regs[2];
         }
+        elseif (preg_match('/Mozilla\/([0-9a-zA-Z\.+]+)[^\(]+\(([^;]+);[^\)]+\)/i', $this->uastring, $regs)) {
+          $this->uadata['eng_version'] = $regs[1];
+          $this->uadata['os'] = $regs[2];
+          $this->uadata['lang'] = null;
+        }
       }
       elseif ($this->hasEngine('gzilla')) {
         $this->uadata['eng_version'] = $this->getVersion();
@@ -666,6 +836,18 @@ class userAgent {
           $this->uadata['lang'] = null;
         }
       }
+      elseif ($this->hasEngine('icestorm')) {
+        if (preg_match('/ICE Browser\/v?([0-9a-zA-Z\._+]+) \(Java [^;]+; ([^\)]+)\)/i', $this->uastring, $regs)) {
+          $this->uadata['eng_version'] = str_replace('_', '.', $regs[1]);
+          $this->uadata['os'] = $regs[2];
+          $this->uadata['lang'] = null;
+        }
+        elseif (preg_match('/Mozilla\/[^\(]+ \((?:X11; )?([^;]+);.+; ([a-z_-]+)\).* ICEbrowser\/([0-9a-zA-Z\._+]+)/i', $this->uastring, $regs)) {
+          $this->uadata['eng_version'] = $regs[3];
+          $this->uadata['os'] = $regs[1];
+          $this->uadata['lang'] = $regs[2];
+        }
+      }
       else {
         $this->uadata['eng_version'] = null;
         $this->uadata['lang'] = null;