시리즈는 데이터프레임의 하위 자료형으로, 1개의 열이 시리즈이고 이 시리즈가 다수 모여 데이터프레임을 형성한다고 이해하면 쉽다.

import pandas as pd
index = ['eggs', 'apples', 'milk', 'bread']
data = [30, 6, 'Yes', 'No']
groceries = pd.Series(data = data, index = index)
groceries
eggs       30
apples      6
milk      Yes
bread      No
dtype: object

시리즈 변수에 []기호 안에 숫자 인덱스나, 정해놓은 인덱스를 넣으면 되고, 두개이상 쓸때는 배열로 넣는다.

groceries[0]
groceries[['eggs','bread']]
30

eggs     30
bread    No
dtype: object

다음은 데이터프레임을 생성해보겠다.

import pandas as pd

# We create a dictionary of Pandas Series 
items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
         'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])}
df = pd.DataFrame(data = items)
df

DataFrame

마찬가지로 데이터 억세스는 []로 한다.

column

두번째는 행과 열의 정보로, 데이터를 가져오는 방법 사람용인, 인덱스와 컬럼명으로 데이터를 억세스(가져오는) 방법이다. loc[인덱스, 컬럼명]

loc

세번째는 컴퓨터가 자동으로 매기는 인덱스로, 행과 열을 가져오는 방법이다.

Accessing Elements in Pandas DataFrames

loc,iloc

pandas에서 Series, DataFrame, Panel 등의 자료구조를 만든 후, 다양한 방법을 통해 데이터를 엑세스할 수 있다.
가장 간단한 방식으로 pandas 자료구조에 대해 인덱싱 혹은 속성(Attribute)을 사용하는 것인데,

예를 들어 위에서 생성한 DataFrame인 df 에 대해 bikes 행을 가져오기 위해 df["bikes"] 를 사용할 수 있다. 

 

loc는 location의 약어로, df.loc[행 인덱싱 값, 열 인덱싱 값] 로 사용한다

​iloc의 integer location의 약어로, df.iloc[행 인덱스, 열 인덱스] 로 사용한다

+ Recent posts