[Python] Pandas 기초 공부 내용 정리 (1)

개발

Yujin Chang 2024. 10. 6. 21:28

import numpy as np
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

리스트로 Series를 생성

dates = pd.date_range("20130101", periods=6)
dates

2013년 1월 1일부터 시작하여 6개의 날짜 생성

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

6x4 크기의 난수 배열 생성, 인덱스명은 이전 코드의 dates 이용, 컬럼명은 ['A', 'B', 'C', 'D']

[실행 결과]

df.head()

괄호 안에 아무것도 없으면 데이터프레임의 맨 앞에 있는 5개 행 반환. 만약 괄호 안에 정수가 있다면 해당 개수만큼 반환

df.tail(3)

데이터프레임의 맨 끝에 있는 행 3개 반환

df.index

데이터프레임의 인덱스 반환

df.columns

데이터프레임의 컬럼명 반환

df.to_numpy()

Pandas의 데이터프레임을 NumPy의 배열로 형 변환

df.describe()

데이터프레임 요약 통계 보고서 출력 (평균, 표준편차, 중앙값 등)

df.T

데이터프레임의 행과 열을 서로 바꿈 (Transpose - 전치)

df.sort_index(axis=1, ascending=False)

sort_index(): 데이터프레임의 인덱스나 열을 기준으로 정렬

axis=0은 행을 기준으로, axis=1은 열을 기준으로 정렬

ascending=True는 오름차순, False는 내림차순

-> 데이터프레임의 컬럼명을 내림차순으로 정렬한 데이터프레임 반환

[실행 결과]

df.sort_values(by="B")

ascending의 디폴트값은 True이므로, 여기선 B열의 값을 기준으로 데이터프레임을 오름차순 정렬한 데이터프레임 반환

df["A"]

데이터프레임의 A열에 해당하는 값들만 (인덱스와 함께) 반환