Introduction to DataFrames¶

Bogumił Kamiński, Apr 21, 2018

출처¶

https://github.com/JuliaComputing/JuliaBoxTutorials/tree/master/introductory-tutorials/broader-topics-and-ecosystem/intro-to-julia-DataFrames

함께보기¶

https://deepstat.tistory.com/69 (01. constructors)(in English)
https://deepstat.tistory.com/70 (01. constructors)(한글)
https://deepstat.tistory.com/71 (02. basicinfo)(in English)
https://deepstat.tistory.com/72 (02. basicinfo)(한글)
https://deepstat.tistory.com/73 (03. missingvalues)(in English)
https://deepstat.tistory.com/74 (03. missingvalues)(한글)
https://deepstat.tistory.com/75 (04. loadsave)(in English)
https://deepstat.tistory.com/76 (04. loadsave)(한글)
https://deepstat.tistory.com/77 (05. columns)(in English)
https://deepstat.tistory.com/78 (05. columns)(한글)
https://deepstat.tistory.com/79 (06. rows)(in English)
https://deepstat.tistory.com/80 (06. rows)(한글)

using DataFrames, Random # load package
Random.seed!(1); #srand(1);

데이터프레임의 행 다루기 (Manipulating rows of DataFrame)¶

행 재배치하기 (Reordering rows)¶

x = DataFrame(id=1:10, x = rand(10), y = [zeros(5); ones(5)]) # x[:x]가 크기 순이 아니길 바란다. ^^;

issorted(x), issorted(x, :x) # 데이터프레임이나 데이터프레임의 한 행이 크기순으로 정렬돼있는지를 확인한다.

(true, false)

sort!(x, :x) # in place로 x를 :x를 기준으로 정렬한다.

y = sort(x, :id) # :id 기준으로 정렬한 후 새로운 데이터프레임을 만든다.

sort(x, (:y, :x), rev=(true, false)) # 행 2개를 기준으로 정렬하는데, 첫번째는 내림차순, 두 번째는 오름차순 이다.

sort(x, (order(:y, rev=true), :x)) # 위와 같은 작업을 하는 코드이다.

sort(x, (order(:y, rev=true), order(:x, by=v->-v))) # 더 있어보이는 정렬방법이다.

x[shuffle(1:10), :] # index를 이용해서 정렬하는 방법이다. (여기서는 무작위로 섞었다.)

sort!(x, :id)
x[[1,10],:] = x[[10,1],:] # 행을 바꿨다.
x

x[1,:], x[10,:] = x[10,:], x[1,:] # 행을 또 다시 바꿨다.
x

행 합치기 또는 추가하기 (Merging/adding rows)¶

x = DataFrame(rand(3, 5))

[x; x] # 행 합치기다. 반드시 열의 수가 같아야한다. (vcat과 같다.)

y = x[reverse(names(x))] # 행의 순서를 바꿔서 y로 저장했다.

vcat(x, y) # vcat을 이용하면 이름을 매칭시켜서 합친다.

vcat(x, y[1:3]) # 그러나 열 이름이 여전히 매치되어야한다.

ArgumentError: column(s) x1 and x2 are missing from argument(s) 2

Stacktrace:
 [1] _vcat(::Array{DataFrame,1}) at /home/yt/.julia/packages/DataFrames/1PqZ3/src/abstractdataframe/abstractdataframe.jl:926
 [2] vcat(::DataFrame, ::DataFrame) at /home/yt/.julia/packages/DataFrames/1PqZ3/src/abstractdataframe/abstractdataframe.jl:906
 [3] top-level scope at In[16]:1

append!(x, x) # 깉은 결과를 내지만 x 자체를 수정한다.

append!(x, y) # 여기서는 열 이름이 반드시 정확하게 같이야한다.

Column names do not match

Stacktrace:
 [1] error(::String) at ./error.jl:33
 [2] append!(::DataFrame, ::DataFrame) at /home/yt/.julia/packages/DataFrames/1PqZ3/src/dataframe/dataframe.jl:990
 [3] top-level scope at In[18]:1

push!(x, 1:5) # 행 하나를 추가하는 방법이다. 반드시 열의 숫자와 같아야하고 type도 맞아야한다.
x

push!(x, Dict(:x1=> 11, :x2=> 12, :x3=> 13, :x4=> 14, :x5=> 15)) # 딕셔너리(dictionary)를 이용해서도 할 수 있다.
x

일부 행 가져오기 또는 행 지우기 (Subsetting/removing rows)¶

x = DataFrame(id=1:10, val='a':'j')

x[1:2, :] # 인덱스(index)로 가져오기.

view(x, 1:2) # 같은 방법이지만 view를 이용했다.

x[repeat([true, false], 5), :] # 논리값(Bool)을 이용하기. 길이가 정확하게 일치해야 한다.
#x[repmat([true, false], 5), :]

view(x, repeat([true, false], 5), :) # 다시 view를 이용해서 보기.
#view(x, repmat([true, false], 5), :)

deleterows!(x, 7) # 행 하나 지우기

deleterows!(x, 6:7) # 여러 행 지우기

x = DataFrame([1:4, 2:5, 3:6])

filter(r -> r[:x1] > 2.5, x) # filter를 이용해서 조건에 맞는 행 골라오기

# do-block 구문을 이용해서 in place로 x 수정하는 예시.
filter!(x) do r
    if r[:x1] > 2.5
        return r[:x2] < 4.5
    end
    r[:x3] < 3.5
end

중복삭제 (Deduplicating)¶

x = DataFrame(A=[1,2], B=["x","y"])
append!(x, x)
x[:C] = 1:4
x

unique(x, [1,2]) # 주어진 index에서 유일한 첫번째 열 가져오기

unique(x) # 지금은 모든 열을 가져온다.

nonunique(x, :A) # 유일하지 않은 열의 지시자(indeicator)를 알 수 있다.

4-element Array{Bool,1}:
 false
 false
  true
  true

unique!(x, :B) # in place로 x를 수정한다.

`데이터프레임`의 한 열을 벡터로 불러오기 (Extracting one row from `DataFrame` into a vector)¶

x = DataFrame(x=[1,missing,2], y=["a", "b", missing], z=[true,false,true])

cols = [:x, :y]
[x[1, col] for col in cols] # 행의 일부

2-element Array{Any,1}:
 1   
  "a"

[[x[i, col] for col in names(x)] for i in 1:nrow(x)] # 벡터의 벡터. 각 원소는 x의 한 행 전체이다.

3-element Array{Array{Any,1},1}:
 [1, "a", true]       
 [missing, "b", false]
 [2, missing, true]

Tuple(x[1, col] for col in cols) # 비슷하게 튜플(Tuple)로 가져올 수도 있다.

(1, "a")

	id	x	y
	Int64	Float64	Float64
1	4	0.00790928	0.0
2	6	0.210968	1.0
3	1	0.236033	0.0
4	9	0.251662	1.0
5	3	0.312707	0.0
6	2	0.346517	0.0
7	5	0.488613	0.0
8	7	0.951916	1.0
9	10	0.986666	1.0
10	8	0.999905	1.0

	id	x	y
	Int64	Float64	Float64
1	1	0.236033	0.0
2	2	0.346517	0.0
3	3	0.312707	0.0
4	4	0.00790928	0.0
5	5	0.488613	0.0
6	6	0.210968	1.0
7	7	0.951916	1.0
8	8	0.999905	1.0
9	9	0.251662	1.0
10	10	0.986666	1.0

	id	x	y
	Int64	Float64	Float64
1	6	0.210968	1.0
2	9	0.251662	1.0
3	7	0.951916	1.0
4	10	0.986666	1.0
5	8	0.999905	1.0
6	4	0.00790928	0.0
7	1	0.236033	0.0
8	3	0.312707	0.0
9	2	0.346517	0.0
10	5	0.488613	0.0

	id	x	y
	Int64	Float64	Float64
1	6	0.210968	1.0
2	9	0.251662	1.0
3	7	0.951916	1.0
4	10	0.986666	1.0
5	8	0.999905	1.0
6	4	0.00790928	0.0
7	1	0.236033	0.0
8	3	0.312707	0.0
9	2	0.346517	0.0
10	5	0.488613	0.0

	id	x	y
	Int64	Float64	Float64
1	8	0.999905	1.0
2	10	0.986666	1.0
3	7	0.951916	1.0
4	9	0.251662	1.0
5	6	0.210968	1.0
6	5	0.488613	0.0
7	2	0.346517	0.0
8	3	0.312707	0.0
9	1	0.236033	0.0
10	4	0.00790928	0.0

DeepStat

티스토리 뷰

06. rows (한글)

Introduction to DataFrames¶

출처¶

함께보기¶

데이터프레임의 행 다루기 (Manipulating rows of DataFrame)¶

행 재배치하기 (Reordering rows)¶

행 합치기 또는 추가하기 (Merging/adding rows)¶

일부 행 가져오기 또는 행 지우기 (Subsetting/removing rows)¶

중복삭제 (Deduplicating)¶

`데이터프레임`의 한 열을 벡터로 불러오기 (Extracting one row from `DataFrame` into a vector)¶

'Flux in Julia > Learning Julia (Intro_to_Julia_DFs)' 카테고리의 다른 글

티스토리툴바

	id	val
	Int64	Char
1	1	'a'
2	2	'b'
3	3	'c'
4	4	'd'
5	5	'e'
6	6	'f'
7	7	'g'
8	8	'h'
9	9	'i'
10	10	'j'

07. factors (한글) (0)	2018.10.13
07. factors (0)	2018.10.13
06. rows (0)	2018.10.12
05. columns (한글) (0)	2018.10.11
05. columns (0)	2018.10.11

	x1	x2	x3	x4	x5
	Float64	Float64	Float64	Float64	Float64
1	0.0856352	0.185821	0.0516146	0.279395	0.370971
2	0.553206	0.111981	0.53803	0.178246	0.894166
3	0.46335	0.976312	0.455692	0.548983	0.648054

	x1	x2	x3	x4	x5
	Float64	Float64	Float64	Float64	Float64
1	0.0856352	0.185821	0.0516146	0.279395	0.370971
2	0.553206	0.111981	0.53803	0.178246	0.894166
3	0.46335	0.976312	0.455692	0.548983	0.648054
4	0.0856352	0.185821	0.0516146	0.279395	0.370971
5	0.553206	0.111981	0.53803	0.178246	0.894166
6	0.46335	0.976312	0.455692	0.548983	0.648054

	x5	x4	x3	x2	x1
	Float64	Float64	Float64	Float64	Float64
1	0.370971	0.279395	0.0516146	0.185821	0.0856352
2	0.894166	0.178246	0.53803	0.111981	0.553206
3	0.648054	0.548983	0.455692	0.976312	0.46335

	x1	x2	x3	x4	x5
	Float64	Float64	Float64	Float64	Float64
1	0.0856352	0.185821	0.0516146	0.279395	0.370971
2	0.553206	0.111981	0.53803	0.178246	0.894166
3	0.46335	0.976312	0.455692	0.548983	0.648054
4	0.0856352	0.185821	0.0516146	0.279395	0.370971
5	0.553206	0.111981	0.53803	0.178246	0.894166
6	0.46335	0.976312	0.455692	0.548983	0.648054

티스토리 뷰

06. rows (한글)

Introduction to DataFrames¶

출처¶

함께보기¶

데이터프레임의 행 다루기 (Manipulating rows of DataFrame)¶

행 재배치하기 (Reordering rows)¶

행 합치기 또는 추가하기 (Merging/adding rows)¶

일부 행 가져오기 또는 행 지우기 (Subsetting/removing rows)¶

중복삭제 (Deduplicating)¶

데이터프레임의 한 열을 벡터로 불러오기 (Extracting one row from DataFrame into a vector)¶

'Flux in Julia > Learning Julia (Intro_to_Julia_DFs)' 카테고리의 다른 글

티스토리툴바

`데이터프레임`의 한 열을 벡터로 불러오기 (Extracting one row from `DataFrame` into a vector)¶