R Select(), Filter(), Arrange(), Pipeline with Example

Knihovna s nรกzvem dplyr obsahuje cennรก slovesa pro navigaci uvnitล™ datovรฉ sady. Prostล™ednictvรญm tohoto kurzu budete pouลพรญvat datovou sadu Travel times. Datovรฝ soubor shromaลพฤuje informace o cestฤ› ล™idiฤe mezi jeho domovem a jeho pracoviลกtฤ›m. V datovรฉ sadฤ› je ฤtrnรกct promฤ›nnรฝch, vฤetnฤ›:

  • DayOfWeek: Urฤete den v tรฝdnu, kdy ล™idiฤ pouลพรญvรก svรฉ auto
  • Vzdรกlenost: Celkovรก vzdรกlenost cesty
  • MaxSpeed: Maximรกlnรญ rychlost jรญzdy
  • TotalTime: Dรฉlka cesty v minutรกch

Datovรก sada obsahuje pล™ibliลพnฤ› 200 pozorovรกnรญ v datovรฉ sadฤ› a mezi nimi probฤ›hly jรญzdy Monday do pรกtku.

Nejprve musรญte:

  • naฤรญst datovou sadu
  • zkontrolujte strukturu dat.

Jednou z uลพiteฤnรฝch funkcรญ dplyr je funkce glimpse(). Toto je vylepลกenรญ oproti str(). Mลฏลพeme pouลพรญt glimpse() k zobrazenรญ struktury datovรฉ sady a rozhodnutรญ, jakรก manipulace je nutnรก.

library(dplyr) 
PATH <- "https://raw.githubusercontent.com/guru99-edu/R-Programming/master/travel_times.csv"
df <- read.csv(PATH)
glimpse(df)

Vรฝstup:

## Observations: 205
## Variables: 14
## $ X              <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, ...
## $ Date           <fctr> 1/6/2012, 1/6/2012, 1/4/2012, 1/4/2012, 1/3/20...
## $ StartTime      <fctr> 16:37, 08:20, 16:17, 07:53, 18:57, 07:57, 17:3...
## $ DayOfWeek      <fctr> Friday, Friday, Wednesday, Wednesday, Tuesday,...
## $ GoingTo        <fctr> Home, GSK, Home, GSK, Home, GSK, Home, GSK, GS...
## $ Distance       <dbl> 51.29, 51.63, 51.27, 49.17, 51.15, 51.80, 51.37...
## $ MaxSpeed       <dbl> 127.4, 130.3, 127.4, 132.3, 136.2, 135.8, 123.2...
## $ AvgSpeed       <dbl> 78.3, 81.8, 82.0, 74.2, 83.4, 84.5, 82.9, 77.5,...
## $ AvgMovingSpeed <dbl> 84.8, 88.9, 85.8, 82.9, 88.1, 88.8, 87.3, 85.9,...
## $ FuelEconomy    <fctr> , , , , , , -, -, 8.89, 8.89, 8.89, 8.89, 8.89...
## $ TotalTime      <dbl> 39.3, 37.9, 37.5, 39.8, 36.8, 36.8, 37.2, 37.9,...
## $ MovingTime     <dbl> 36.3, 34.9, 35.9, 35.6, 34.8, 35.0, 35.3, 34.3,...
## $ Take407All     <fctr> No, No, No, No, No, No, No, No, No, No, No, No...
## $ Comments       <fctr> , , , , , , , , , , , , , , , Put snow tires o...	

Je zล™ejmรฉ, ลพe promฤ›nnรก Komentรกล™ potล™ebuje dalลกรญ diagnostiku. Prvnรญ pozorovรกnรญ promฤ›nnรฉ Komentรกล™e jsou pouze chybฤ›jรญcรญ hodnoty.

sum(df$Comments =="")

Code Vysvฤ›tlenรญ

  • sum(df$Comments ==โ€โ€): Seฤte pozorovรกnรญ rovnajรญcรญ se โ€œโ€ ve sloupci komentรกล™e z df

Vรฝstup:

## [1] 181

vybrat()

Zaฤneme slovesem select(). Nepotล™ebujeme nutnฤ› vลกechny promฤ›nnรฉ a osvฤ›dฤenรฝm postupem je vybrat pouze ty promฤ›nnรฉ, kterรฉ povaลพujete za relevantnรญ.

Mรกme 181 chybฤ›jรญcรญch pozorovรกnรญ, tรฉmฤ›ล™ 90 procent datovรฉho souboru. Pokud se je rozhodnete vylouฤit, nebudete moci v analรฝze pokraฤovat.

Dalลกรญ moลพnostรญ je vypustit promฤ›nnou Komentรกล™ se slovesem select().

Pomocรญ select() mลฏลพeme vybรญrat promฤ›nnรฉ rลฏznรฝmi zpลฏsoby. Vลกimnฤ›te si, ลพe prvnรญm argumentem je datovรก sada.

- `select(df, A, B ,C)`: Select the variables A, B and C from df dataset.
- `select(df, A:C)`: Select all variables from A to C from df dataset.
- `select(df, -C)`: Exclude C from the dataset from df dataset.	

K vylouฤenรญ promฤ›nnรฉ Komentรกล™e mลฏลพete pouลพรญt tล™etรญ zpลฏsob.

step_1_df <- select(df, -Comments)
dim(df)

Vรฝstup:

## [1] 205  14
dim(step_1_df)

Vรฝstup:

## [1] 205  13

Pลฏvodnรญ datovรก sada mรก 14 funkcรญ, zatรญmco step_1_df mรก 13.

Filtr()

Sloveso filter() pomรกhรก udrลพovat pozorovรกnรญ podle kritรฉriรญ. Filter() funguje pล™esnฤ› jako select(), nejprve pล™edรกte datovรฝ rรกmec a potรฉ podmรญnku oddฤ›lenou ฤรกrkou:

filter(df, condition)
arguments:
- df: dataset used to filter the data
- condition:  Condition used to filter the data	

Jedno kritรฉrium

Nejprve mลฏลพete spoฤรญtat poฤet pozorovรกnรญ v rรกmci kaลพdรฉ รบrovnฤ› faktorovรฉ promฤ›nnรฉ.

table(step_1_df$GoingTo)

Code Vysvฤ›tlenรญ

  • table(): Spoฤรญtรก poฤet pozorovรกnรญ podle รบrovnฤ›. Upozorลˆujeme, ลพe jsou akceptovรกny pouze promฤ›nnรฉ na รบrovni faktoru
  • table(step_1_df$GoingTo): Spoฤรญtejte poฤet cest do koneฤnรฉho cรญle.

Vรฝstup:

## 
##  GSK Home 
##  105  100	

Funkฤnรญ tabulka() udรกvรก, ลพe 105 jรญzd smฤ›ล™uje do GSK a 100 do Home.

Data mลฏลพeme filtrovat, abychom vrรกtili jednu datovou sadu se 105 pozorovรกnรญmi a druhou se 100 pozorovรกnรญmi.

# Select observations
if GoingTo == Home
select_home <- filter(df, GoingTo == "Home")
dim(select_home)

Vรฝstup:

## [1] 100  14
# Select observations
if GoingTo == Work
select_work <- filter(df, GoingTo == "GSK")
dim(select_work)

Vรฝstup:

## [1] 105  14

Vรญce kritรฉriรญ

Datovou sadu mลฏลพeme filtrovat podle vรญce neลพ jednoho kritรฉria. Mลฏลพete napล™รญklad extracpozorovรกnรญ, kde cรญlem je Domov a probฤ›hla ve stล™edu.

select_home_wed <- filter(df, GoingTo == "Home" & DayOfWeek == "Wednesday")
dim(select_home_wed)

Vรฝstup:

## [1] 23 14

Tomuto kritรฉriu odpovรญdalo 23 pozorovรกnรญ.

Potrubรญ

Vytvoล™enรญ datovรฉ sady vyลพaduje mnoho operacรญ, jako napล™รญklad:

  • importu
  • sluฤovรกnรญ
  • vรฝbฤ›r
  • filtrovรกnรญ
  • a tak dรกle

Knihovna dplyr pล™ichรกzรญ s praktickรฝm operรกtorem %>%, zvanรฝm potrubรญ. Dรญky funkci potrubรญ je manipulace ฤistรก, rychlรก a mรฉnฤ› nรกchylnรก k chybรกm.

Tento operรกtor je kรณd, kterรฝ provรกdรญ kroky bez uklรกdรกnรญ mezikrokลฏ na pevnรฝ disk. Pokud se vrรกtรญte k naลกemu pล™รญkladu vรฝลกe, mลฏลพete vybrat promฤ›nnรฉ, kterรฉ vรกs zajรญmajรญ, a filtrovat je. Mรกme tล™i kroky:

  • Krok 1: Import dat: Importujte data gps
  • Krok 2: Vyberte data: Vyberte GoingTo a DayOfWeek
  • Krok 3: Filtrovรกnรญ dat: Nรกvrat pouze Domลฏ a Stล™eda

Mลฏลพeme k tomu pouลพรญt obtรญลพnรฝ zpลฏsob:

# Step 1
step_1 <- read.csv(PATH)

# Step 2 
step_2 <- select(step_1, GoingTo, DayOfWeek)

# Step 3 
step_3 <- filter(step_2, GoingTo == "Home", DayOfWeek == "Wednesday")

head(step_3)

Vรฝstup:

##   GoingTo DayOfWeek
## 1    Home Wednesday
## 2    Home Wednesday
## 3    Home Wednesday
## 4    Home Wednesday
## 5    Home Wednesday
## 6    Home Wednesday	

To nenรญ pohodlnรฝ zpลฏsob provรกdฤ›nรญ mnoha operacรญ, zvlรกลกtฤ› v situaci s mnoha kroky. Prostล™edรญ konฤรญ spoustou uloลพenรฝch pล™edmฤ›tลฏ.

Pouลพijme mรญsto toho operรกtor potrubรญ %>%. Staฤรญ na zaฤรกtku definovat pouลพitรฝ datovรฝ rรกmec a od nฤ›j se bude odvรญjet celรฝ proces.

Zรกkladnรญ syntaxe potrubรญ

New_df <- df %>%
step 1 %>%
step 2 %>%
...
arguments
- New_df: Name of the new data frame 
- df: Data frame used to compute the step
- step: Instruction for each step
- Note: The last instruction does not need the pipe operator `%`, you don't have instructions to pipe anymore
Note: Create a new variable is optional. If not included, the output will be displayed in the console.

Svou prvnรญ rouru mลฏลพete vytvoล™it podle vรฝลกe uvedenรฝch krokลฏ.

# Create the data frame filter_home_wed.It will be the object return at the end of the pipeline
filter_home_wed <- 

#Step 1
read.csv(PATH) % > % 

#Step 2
select(GoingTo, DayOfWeek) % > % 

#Step 3
filter(GoingTo == "Home",DayOfWeek == "Wednesday")
identical(step_3, filter_home_wed)

Vรฝstup:

## [1] TRUE

Jsme pล™ipraveni vytvoล™it ohromujรญcรญ datovou sadu s operรกtorem potrubรญ.

uspoล™รกdat()

v pล™edchozรญ tutoriรกl, nauฤรญte se tล™รญdit hodnoty pomocรญ funkce sort(). Knihovna dplyr mรก svou tล™รญdicรญ funkci. S potrubรญm to funguje jako kouzlo. Sloveso uspoล™รกdat() mลฏลพe zmฤ›nit poล™adรญ jednoho nebo mnoha ล™รกdkลฏ, buฤ vzestupnฤ› (vรฝchozรญ) nebo sestupnฤ›.

- `arrange(A)`: Ascending sort of variable A
- `arrange(A, B)`: Ascending sort of variable A and B
- `arrange(desc(A), B)`: Descending sort of variable A and ascending sort of B

Vzdรกlenost mลฏลพeme seล™adit podle mรญsta urฤenรญ.

# Sort by destination and distance
step_2_df <-step_1_df %>%
	arrange(GoingTo, Distance)
head<step_2_df)

Vรฝstup:

##     X       Date StartTime DayOfWeek GoingTo Distance MaxSpeed AvgSpeed
## 1 193  7/25/2011     08:06    Monday     GSK    48.32    121.2     63.4
## 2 196  7/21/2011     07:59  Thursday     GSK    48.35    129.3     81.5
## 3 198  7/20/2011     08:24 Wednesday     GSK    48.50    125.8     75.7
## 4 189  7/27/2011     08:15 Wednesday     GSK    48.82    124.5     70.4
## 5  95 10/11/2011     08:25   Tuesday     GSK    48.94    130.8     85.7
## 6 171  8/10/2011     08:13 Wednesday     GSK    48.98    124.8     72.8
##   AvgMovingSpeed FuelEconomy TotalTime MovingTime Take407All
## 1           78.4        8.45      45.7       37.0         No
## 2           89.0        8.28      35.6       32.6        Yes
## 3           87.3        7.89      38.5       33.3        Yes
## 4           77.8        8.45      41.6       37.6         No
## 5           93.2        7.81      34.3       31.5        Yes
## 6           78.8        8.54      40.4       37.3         No

Shrnutรญ

V nรญลพe uvedenรฉ tabulce shrnujete vลกechny operace, kterรฉ jste se nauฤili bฤ›hem kurzu.

Sloveso Objektivnรญ Code Vysvฤ›tlenรญ
zรกblesk zkontrolujte strukturu df
glimpse(df)
Identickรฝ jako str()
vybrat() Vybrat/vylouฤit promฤ›nnรฉ
select(df, A, B ,C)
Vyberte promฤ›nnรฉ A, B a C
select(df, A:C)
Vyberte vลกechny promฤ›nnรฉ od A do C
select(df, -C)
Vylouฤit C
filtr() Filtrujte df na zรกkladฤ› jednรฉ nebo vรญce podmรญnek
filter(df, condition1)
Jedna podmรญnka
filter(df, condition1
podmรญnka2)
uspoล™รกdat() Seล™aฤte datovou sadu podle jednรฉ nebo vรญce promฤ›nnรฝch
arrange(A)
Vzestupnรฝ druh promฤ›nnรฉ A
arrange(A, B)
Vzestupnรฝ druh promฤ›nnรฉ A a B
arrange(desc(A), B)
Sestupnรฝ druh promฤ›nnรฉ A a vzestupnรฝ druh B
%>% Mezi jednotlivรฝmi kroky vytvoล™te potrubรญ
step 1 %>% step 2 %>% step 3

Shrลˆte tento pล™รญspฤ›vek takto: