Семалт-ов експерт објашњава како избрисати веб локацију АЈАКС помоћу Питхона

Веб сцрапинг је метода која користи употребу софтвера за вађење података са веб странице. Постоји пуно алата који се користе за стругање веба питхон-ом, од којих су неки; Небо, терапија, захтеви и лепа супа. Међутим, већина ових алата је ограничена чињеницом да дохваћају само статички ХТМЛ који долази са сервера, а не динамички део који пружа ЈаваСцрипт.

Међутим, постоје неке технике помоћу којих се овај проблем може превазићи:

1. Аутоматизовани прегледачи

Можете да користите аутоматизоване прегледаче као што су Селениум или Спласх који су пуни прегледачи који раде без главе. Међутим, њихово постављање може бити прилично сложено, па ћемо се фокусирати на другу опцију у наставку.

2. Прекидајте АЈАКС позиве

Ово укључује покушај пресретања АЈАКС позива са странице и покушај поновне репродукције или репродукције.

У овом ћемо се чланку фокусирати на то како ухватити АЈАКС позиве и репродуцирати их користећи књижницу захтјева и прегледач Гоогле Цхроме. Иако вам оквири попут Сцрап-а могу пружити ефикасније решење када је у питању стругање, то није потребно за све случајеве. АЈАКС позиви се углавном обављају преко АПИ-ја који ће вратити ЈСОН објект с којим библиотека Захтјева може лако руковати.

Прво што треба да знате је да је покушај поновне репродукције АЈАКС позива попут употребе недокументираног АПИ-ја. Стога морате погледати све позиве које странице упућују. Можете отићи на веб локацију, играти се с њом неко време и видети како се приказују неке информације. Након што завршите са игром, вратите се и почните стругати.

Пре него што пређемо у детаље, прво разумемо како страница функционише. Ако посетите страницу продавница по држави, изаберите било коју државу и страница ће приказати информације о продавници. Сваки пут када одаберете државу, веб локација приказује нове продавнице како би заменила старе. То се постиже коришћењем АЈАКС позива на сервер да тражи информације. Наша намера је да сада ухватимо тај позив и поновимо га.

Да бисте то учинили, све што требате је да отворите Цхроме прегледач ДевТоолс утјешан и идите на КСХР пододјељак. КСХР је интерфејс који врши ХТТП и ХТТПС захтеве. Тако ће овде бити приказани захтеви АЈАКС. Када двоструко кликнете АЈАКС позив, пронаћи ћете пуно информација у продавницама. Такође можете да прегледате захтеве.

Приметићете да се пуно података шаље серверу. Међутим, не брините, јер није све потребно. Да бисте видели који су вам подаци потребни, можете отворити конзолу и извршити разне поштанске захтеве на веб локацији. Сада када знате како страница функционише и дешифровали сте АЈАКС позив, можете да напишете свој стругач.

Можда се питате: 'зашто не бисте користили аутоматизовани прегледач?' Решење је једноставно; увек покушајте да репродукујете АЈАКС позиве пре него што се упустите у нешто много теже и компликованије, попут аутоматизованог прегледача. Једноставније је и лакше.

пнг

mass gmail