Lös kapitlen Web scraping with XPATHs och CSS Web Scraping and Final Case Study på DataCamp.
OBS: Att en webb-site saknar ett öppet API kan ses som ett tecken på att de inte vill dela med sig av sina data. Respektera detta genom att inte återpublicera utan att fråga och inte belasta i onödan. Se vidare katalogskyddet.
Läs vignette("selectorgadget")
.
Skrapa fram titel, författare, betyg, pris, … på böckerna i pockettoppen (några tas fram med html_text
, andra med html_attr
).
Givet en spelar-url (t.ex. http://www.shl.se/lag/087a-087aTQv9u__frolunda-hc/qQ9-a5b4QRqdS__ryan-lasch), plocka fram födelsedatum, ålder, nationalitet…
Givet en spelares statistiksida (t.ex. http://www.shl.se/lag/087a-087aTQv9u__frolunda-hc/qQ9-a5b4QRqdS__ryan-lasch/statistics), plocka fram säsongsstatistiken med html_table
.
Givet en lagsida (t.ex. http://www.shl.se/lag/2459-2459QTs1f__djurgarden-hockey/roster), plocka fram en lista på spelar-url:s för lagets spelare.
Skrapa TV-tablån för given dag och kanal på t.ex. https://www.tv.nu/kanal/svt1/2018-02-12.
Skrapa nyhetsrubrikerna på https://www.svt.se/.