A webes kaparás (más néven webes betakarítás) weboldalak adatainak kivonása. A webes betakarító szoftver HTTP vagy web böngésző segítségével közvetlenül elérheti a webről. Miközben a folyamatot a szoftverhasználó kézi úton valósíthatja meg, a technika általában egy automatizált folyamatot tartalmaz, amelyet egy webrobot vagy bot segítségével valósítanak meg - best mysql visual query builder.
A webes kaparás folyamat, amikor strukturált adatokat másolnak a webről a helyi adatbázisba a visszajelzések és visszakeresések céljából. Ez magában foglalja a weboldal lekérését és a tartalom kibontását. Az oldal tartalma elemezhető, kereshető, átalakítható és adatok másolhatók a helyi tárolóeszközre.
A weboldalak általában szöveg-alapú jelölőnyelvekből, például XHTML-ből és HTML-ből származnak, amelyek mindegyike hasznos információkat tartalmaz szöveg formájában. Azonban ezeknek a weboldalaknak a nagy részét emberi végfelhasználóknak tervezték, és nem automatizált használatra. Ez az oka annak, hogy kaparás szoftver jött létre.
Számos technika alkalmazható a hatékony webes kaparáshoz. Ezek közül néhányat az alábbiakban dolgoztunk ki:
1. Human Copy-and-paste
Időről időre még a legjobb az ember kézi másolatának és pontosságának pontossága és hatékonysága..Ez leginkább olyan helyzetekben alkalmazható, amikor a weboldalak felállították a gépautomatizálás megakadályozását.
2. Szövegmintázat illesztése
Ez egy meglehetősen egyszerű, de erőteljes megközelítés, amelyet a weboldalakból származó adatok kivonására használnak. Lehet, hogy a UNIX grep parancs, vagy csak egy adott programozási nyelv, például a Python vagy a Perl rendszeres expressziós eszköze.
3. HTTP programozás
A HTTP programozás statikus és dinamikus weboldalakhoz is használható. Az adatokat a HTTP kérések küldésével távolítják el egy távoli webszerverre, miközben a socket programozást használják.
4. HTML-elemzés
Sok weboldal általában kiterjedt gyűjteményt tartalmaz olyan oldalakról, amelyek dinamikusan vannak létrehozva az alapul szolgáló struktúraforrásokból, például adatbázisból. A hasonló kategóriába tartozó adatok hasonló oldalakra vannak kódolva. A HTML-elemzés során a program általában egy ilyen sablonot észlel egy adott információforrásban, visszanyeri annak tartalmát, majd lefordítja azt egy affiliate formába, amelyet wrappernek neveznek.
5. DOM elemzés
Ebben a technikában a program beépül egy teljes körű web böngészőbe, például a Mozilla Firefox-ba vagy az Internet Explorer-be a kliensoldali parancsfájl által generált dinamikus tartalom letöltésére. Ezek a böngészők a weboldalakat DOM-fában is elemezhetik, attól függően, hogy mely programok képesek az oldalrészek kivonására.
6. Szemantikus feliratkozás felismerése
A megcélozni kívánt oldalak tartalmazhatnak szemantikai jelöléseket és megjegyzéseket vagy metaadatokat, amelyeket konkrét adatrészletek keresésére használhatnak. Ha ezek a megjegyzések be vannak ágyazva az oldalakba, akkor ezt a technikát a DOM elemzés speciális eseteként tekinthetjük meg. Ezeket a megjegyzéseket szintaktikai rétegbe is szervezhetjük, majd külön is elmenthetjük és kezelhetjük a weboldalakon. Lehetővé teszi a kaparészek számára, hogy lekérjék az adat sémát, valamint parancsokat ebből a rétegből, mielőtt eltörölné az oldalakat.