Semalt deler en enkel måte å hente ut informasjon fra nettsteder

Nettskraping er en populær metode for å skaffe innhold fra nettsteder. En spesiell programmert algoritme kommer til hovedsiden på nettstedet og begynner å følge alle interne lenker, og samle interiørene til divene du spesifiserte. Som et resultat - klar CSV-fil som inneholder all nødvendig informasjon som ligger i en streng rekkefølge. Den resulterende CSV-en kan brukes for fremtiden og skape nesten unikt innhold. Og generelt er slike data som en tabell av stor verdi. Se for deg at hele produktlisten til en byggebutikk blir presentert i et bord. For hvert produkt, for hver type og merke av produktet, fylles dessuten alle felt og egenskaper. Enhver tekstforfatter som jobber for en nettbutikk vil gjerne ha en slik CSV-fil.

Det er mange verktøy for å trekke ut data fra nettsteder eller skraping av nett, og ikke bekymre deg hvis du ikke er kjent med programmeringsspråk. I denne artikkelen vil jeg vise en av de enkleste måtene - å bruke Scrapinghub.

Først av alt, gå til scrapinghub.com, registrer deg og logg inn.

Det neste trinnet om organisasjonen din kan bare hoppes over.

Så kommer du til profilen din. Du må lage et prosjekt.

Her må du velge en algoritme (vi vil bruke algoritmen "Portia") og gi et navn til prosjektet. La oss kalle det på en eller annen måte uvanlig. For eksempel "111".

Nå kommer vi inn i arbeidsområdet til algoritmen der du trenger å skrive inn URL til nettstedet du ønsker å hente ut data fra. Klikk deretter på "Ny edderkopp".

Vi går til siden som skal tjene som eksempel. Adressen oppdateres i overskriften. Klikk på "Annotate this Page".

Flytt musemarkøren til høyre som får menyen til å vises. Her er vi interessert i fanen "Utpakket element", der du må klikke på "Rediger elementer".

Likevel vises den tomme listen over feltene våre. Klikk "+ felt".

Alt er enkelt her: du må lage en liste over felt. For hvert element må du oppgi et navn (i dette tilfellet en tittel og innhold), spesifisere om dette feltet er påkrevd ("Påkrevd") og om det kan variere ("Varierende"). Hvis du spesifiserer at et element er "påkrevd", vil algoritmen ganske enkelt hoppe over sider der den ikke vil kunne fylle dette feltet. Hvis ikke flagget, kan prosessen vare evig.

Nå er det bare å klikke på feltet vi trenger og indikere hva det er:

Ferdig? Klikk deretter på "Lagre prøve" i overskriften på nettstedet. Etter det kan du gå tilbake til arbeidsområdet. Nå vet algoritmen hvordan vi får tak i noe, vi må sette en oppgave for det. For å gjøre dette, klikk på "Publiser endringer".

Gå til oppgavetavlen, klikk "Kjør edderkopp". Velg nettsted, prioriter og klikk "Kjør".

Vel, skraping er nå i gang. Hastigheten vises ved å peke markøren på antall sendte forespørsler:

Hastigheten til å få klare strenger i CSV - ved å peke på et annet nummer.

Klikk på dette nummeret for å se en liste over allerede laget elementer. Du vil se noe lignende:

Når det er ferdig, kan resultatet lagres ved å klikke på denne knappen:

Det er det! Nå kan du hente ut informasjon fra nettsteder uten erfaring med programmering.

mass gmail