🌈 판다스(Pandas)의 개념과 특징
판다스(Pandas)는 파이썬의 데이터 처리 라이브러리 중 가장 유명하고 인기 있는 라이브러리이다.
판다스의 네이밍 유래는 계량 경제학의 용어인 'PANel DAta'의 앞 글자를 따서 지어졌다고 한다.
1️⃣ 판다스의 특징
일반적으로 데이터 처리 시 필요한 데이터 세트는 2차원 데이터로 구성되며,
데이터 정리 분석ㆍ모델링ㆍ분석 결과 플로팅 또는 표 형식으로 표시하기에 적합한 형식으로 구성된다.
2차원 데이터는 행렬로 이루어져 있기 때문에 이해하기 쉬운 구조이며, 효과적으로 데이터를 담을 수 있기 때문이다.
또한, 판다스는 R에서 사용되던 data.frame 구조를 본뜬 DataFrame이라는 구조를 사용하기 때문에 데이터 분석을 파이썬으로 입문하는 사람들이 필수적으로 사용하는 라이브러리가 되었다고 한다.
◾ Pandas의 특징
▫ 데이터 분석과 표 형태의 데이터를 다루는데 특화된 파이썬 라이브러리
▫ 데이터 셋을 이용한 다양한 통계 처리 기능 제공
▫ 웹 크롤링, 데이터 시각화 등의 기능 제공
▫ 자체적인 데이터 구조를 사용(Series와 Data Frame)
▫ 판다스 시리즈(pandas Series)를 통한 일차원 데이터 관리에 유용
▫ 판다스 데이터 프레임(pandas DataFrame)을 통한 이차원 데이터 관리에 유용
◾ Pandas의 분석에 적합한 데이터 유형
▫ SQL 테이블 또는 Excel 스프레드 시트와 같은 테이블 형식 데이터
▫ 정렬되지 않은 시계열 데이터
▫ 행 및 열 레이블이 포함된 임의의 행렬 데이터
2️⃣ 판다스의 데이터 구조
Pandas의 데이터 구조는 시리즈(Series, 1차원)와 데이터 프레임 (DataFrame, 2차원)으로 나누어져 있다.
차원 | 이름 | 설명 |
1차원 | Series | 같은 유형의 배열로 표시된 1차원 데이터 |
2차원 | DataFrame | 유형이 지정되어있으며, 크기가 가변적인 테이블 형식의 2차원 데이터(=행렬) |
판다스의 핵심 객체는 DataFrame이며, 판다스가 다루는 대부분의 영역은 DataFrame과 관련된 부분이다.
DataFrame을 이해하기 전에 Index와 Series를 이해하는 것도 중요하다.
Index는 RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key값이며, Series는 칼럼이 하나뿐인 데이터 구조체이다.
Series와 DataFrame의 가장 큰 차이는 Series는 칼럼이 한 개, DataFrame은 칼럼이 여러 개인 데이터 구조체라는 점이다.
또한, 판다스의 모든 데이터 구조는 값을 변경할 수 있지만 불변성을 선호한다.
아래 이미지처럼 판다스의 높은 차원의 데이터는 한 단계 낮은 차원의 컨테이너로 볼 수도 있다.
📘 판다스 치트 시트(cheat sheet)
치트 시트는 자주 사용되는 내용을 빠르게 사용할 수 있도록 요약한 문서이다.
📌 참고사이트
'DataScience' 카테고리의 다른 글
[Pandas] 판다스 자주 사용하는 통계 함수 (0) | 2022.06.30 |
---|
최근댓글