Back to Question Center
0

Web Scraping a Semalt szakértővel

1 answers:

A webes kaparás (más néven webes betakarítás) weboldalak adatainak kivonása. A webes betakarító szoftver HTTP vagy web böngésző segítségével közvetlenül elérheti a webről. Miközben a folyamatot a szoftverhasználó kézi úton valósíthatja meg, a technika általában egy automatizált folyamatot tartalmaz, amelyet egy webrobot vagy bot segítségével valósítanak meg - мебель для улицы.

A webes kaparás folyamat, amikor strukturált adatokat másolnak a webről a helyi adatbázisba a visszajelzések és visszakeresések céljából. Ez magában foglalja a weboldal lekérését és a tartalom kibontását. Az oldal tartalma elemezhető, kereshető, átalakítható és adatok másolhatók a helyi tárolóeszközre.

A weboldalak általában szöveg-alapú jelölőnyelvekből, például XHTML-ből és HTML-ből származnak, amelyek mindegyike hasznos információkat tartalmaz szöveg formájában. Azonban ezeknek a weboldalaknak a nagy részét emberi végfelhasználóknak tervezték, és nem automatizált használatra. Ez az oka annak, hogy kaparás szoftver jött létre.

Számos technika alkalmazható a hatékony webes kaparáshoz. Ezek közül néhányat az alábbiakban dolgoztunk ki:

1. Human Copy-and-paste

Időről időre még a legjobb az ember kézi másolatának és pontosságának pontossága és hatékonysága..Ez leginkább olyan helyzetekben alkalmazható, amikor a weboldalak felállították a gépautomatizálás megakadályozását.

2. Szövegmintázat illesztése

Ez egy meglehetősen egyszerű, de erőteljes megközelítés, amelyet a weboldalakból származó adatok kivonására használnak. Lehet, hogy a UNIX grep parancs, vagy csak egy adott programozási nyelv, például a Python vagy a Perl rendszeres expressziós eszköze.

3. HTTP programozás

A HTTP programozás statikus és dinamikus weboldalakhoz is használható. Az adatokat a HTTP kérések küldésével távolítják el egy távoli webszerverre, miközben a socket programozást használják.

4. HTML-elemzés

Sok weboldal általában kiterjedt gyűjteményt tartalmaz olyan oldalakról, amelyek dinamikusan vannak létrehozva az alapul szolgáló struktúraforrásokból, például adatbázisból. A hasonló kategóriába tartozó adatok hasonló oldalakra vannak kódolva. A HTML-elemzés során a program általában egy ilyen sablonot észlel egy adott információforrásban, visszanyeri annak tartalmát, majd lefordítja azt egy affiliate formába, amelyet wrappernek neveznek.

5. DOM elemzés

Ebben a technikában a program beépül egy teljes körű web böngészőbe, például a Mozilla Firefox-ba vagy az Internet Explorer-be a kliensoldali parancsfájl által generált dinamikus tartalom letöltésére. Ezek a böngészők a weboldalakat DOM-fában is elemezhetik, attól függően, hogy mely programok képesek az oldalrészek kivonására.

6. Szemantikus feliratkozás felismerése

A megcélozni kívánt oldalak tartalmazhatnak szemantikai jelöléseket és megjegyzéseket vagy metaadatokat, amelyeket konkrét adatrészletek keresésére használhatnak. Ha ezek a megjegyzések be vannak ágyazva az oldalakba, akkor ezt a technikát a DOM elemzés speciális eseteként tekinthetjük meg. Ezeket a megjegyzéseket szintaktikai rétegbe is szervezhetjük, majd külön is elmenthetjük és kezelhetjük a weboldalakon. Lehetővé teszi a kaparészek számára, hogy lekérjék az adat sémát, valamint parancsokat ebből a rétegből, mielőtt eltörölné az oldalakat.

December 6, 2017