Semalt Ishma Mod Faċli Ta 'Estrazzjoni ta' Informazzjoni minn Websajts

Scraping Web huwa metodu popolari biex jinkiseb kontenut minn websajts. Algoritmu programmat apposta jasal għall-paġna ewlenija tas-sit u jibda jsegwi r-rabtiet interni kollha, billi jiġbor l-interjuri tad-divs speċifikati. Bħala riżultat - fajl CSV lest li jkun fih l-informazzjoni kollha meħtieġa li tinsab f'ordni stretta. Is-CSV li jirriżulta jista 'jintuża għall-futur billi joħloq kontenut kważi uniku. U ġeneralment, bħala tabella, dejta bħal din hija ta 'valur kbir. Immaġina li l-lista sħiħa tal-prodotti ta 'ħanut tal-kostruzzjoni hija ppreżentata fit-tabella. Barra minn hekk, għal kull prodott, għal kull tip u marka ta 'prodott, l-oqsma u l-karatteristiċi kollha huma mimlija. Kull copywriter li jaħdem għal ħanut online ikun kuntent li jkollu tali fajl CSV.

Hemm ħafna għodda għall-estrazzjoni ta 'dejta minn websajts jew brix tal-web u tinkwetax jekk m'intix familjari ma' xi lingwi ta 'programmazzjoni, f'dan l-artikolu se nuri wieħed mill-eħfef modi - billi tuża Scrapinghub.

L-ewwelnett, mur scrapinghub.com, irreġistra, u illoggja.

Il-pass li jmiss dwar l-organizzazzjoni tiegħek jista 'jinqabeż ftit.

Imbagħad ikollok għall-profil tiegħek. Għandek bżonn toħloq proġett.

Hawnhekk għandek bżonn tagħżel algoritmu (aħna nużaw l-algoritmu "Portia") u tagħti isem lill-proġett. Ejja nsejħulha b'xi mod mhux tas-soltu. Pereżempju, "111".

Issa aħna nidħlu fl-ispazju tax-xogħol tal-algoritmu fejn għandek bżonn tittajpja l-URL tal-websajt li tixtieq tiġbed data minnha. Imbagħad ikklikkja fuq "Spider Ġdid".

Aħna mmorru għall-paġna li se sservi bħala eżempju. L-indirizz huwa aġġornat fl-intestatura. Ikklikkja "Jannota din il-Paġna".

Mexxi l-cursor tal-maws fuq il-lemin li jagħmel il-menu jidher. Hawn aħna ninsabu interessati fit-tab "Oġġett Estratt", fejn għandek bżonn tikklikkja "Editja Oġġetti".

Madankollu l-lista l-vojta ta 'l-oqsma tagħna hija murija. Ikklikkja "+ Qasam".

Kollox hawn sempliċi: għandek toħloq lista ta 'oqsma. Għal kull oġġett, trid tidħol isem (f'dan il-każ, titolu u kontenut), speċifika jekk dan il-qasam huwiex meħtieġ ("Meħtieġ") u jekk jistax ivarja ("Varja"). Jekk tispeċifika li oġġett huwa "meħtieġ", l-algoritmu sempliċement jaqbeż il-paġni fejn ma jkunx jista 'jimla dan il-qasam. Jekk mhux indikat, il-proċess jista 'jdum għal dejjem.

Issa sempliċement ikklikkja fuq il-qasam li għandna bżonn u indika x'inhu:

Magħmul? Imbagħad fl-intestatura tal-websajt ikklikkja "Save Sample". Wara dan, tista 'tirritorna fl-ispazju tax-xogħol. Issa l-algoritmu jaf kif jikseb xi ħaġa, aħna rridu nwaqqfu kompitu għalih. Biex tagħmel dan, ikklikkja "Ippubblika Tibdil".

Mur fit-task board, ikklikkja "Run Spider". Agħżel websajt, prijorità u kklikkja "Ħaddem".

Ukoll, il-brix issa jinsab fil-proċess. Il-veloċità tagħha tintwera billi tipponta l-kerser tiegħek fuq in-numru ta 'talbiet mibgħuta:

Il-ħeffa ta 'lesta kordi fis-CSV - billi tipponta lejn numru ieħor.

Biex tara lista ta 'oġġetti li diġà saru kklikkja fuq dan in-numru. Se tara xi ħaġa simili:

Meta jkun lest, ir-riżultat jista 'jiġi ffrankat billi tikklikkja din il-buttuna:

Dak hu! Issa tista 'tiġbed informazzjoni minn websajts mingħajr esperjenza fl-ipprogrammar.

mass gmail