반응형
Pandas는 파이썬에서 데이터 분석을 위해 가장 널리 사용되는 라이브러리 중 하나입니다. Pandas는 데이터프레임(DataFrame)이라는 효율적인 데이터 구조를 제공하며, 이를 이용해 데이터를 쉽고 효율적으로 처리할 수 있습니다. 이번에는 Pandas를 활용한 데이터 처리 사례와 그에 대한 실제 코드를 살펴보겠습니다.
CSV 파일 읽기와 쓰기: Pandas는 CSV 파일을 읽고 쓰는 기능을 제공합니다. 이를 통해 데이터를 쉽게 저장하고 불러올 수 있습니다.
import pandas as pd
# CSV 파일 읽기
df = pd.read_csv('data.csv')
# CSV 파일 쓰기
df.to_csv('new_data.csv', index=False)
데이터 정제: Pandas는 누락된 데이터를 처리하거나 중복된 데이터를 제거하는 등의 데이터 정제 작업을 쉽게 수행할 수 있습니다.
# 누락된 데이터 제거
df = df.dropna()
# 중복된 데이터 제거
df = df.drop_duplicates()
데이터 필터링: Pandas는 조건에 맞는 데이터만 선택하여 필터링하는 기능을 제공합니다.
# 'Age' 열이 30 이상인 행만 선택
df_over_30 = df[df['Age'] >= 30]
데이터 그룹화: Pandas는 데이터를 그룹화하여 요약 통계를 계산하는 기능을 제공합니다.
# 'Job' 열을 기준으로 그룹화하고, 각 그룹의 평균 'Salary' 계산
average_salary = df.groupby('Job')['Salary'].mean()
데이터 병합: Pandas는 두 개의 데이터프레임을 병합하는 기능을 제공합니다.
# 'id' 열을 기준으로 df1과 df2 병합
merged_df = pd.merge(df1, df2, on='id')
Pandas를 이용하면 이렇게 복잡한 데이터 처리 작업을 간결하고 직관적인 코드로 수행할 수 있습니다. 데이터 분석을 위해 Pandas의 다양한 기능을 적극 활용해보세요.
반응형
'[지식 쌓기] > Python' 카테고리의 다른 글
파이썬으로 파일 읽기와 쓰기: 사용 가능한 방법과 코드 (0) | 2023.07.23 |
---|---|
Matplotlib를 활용한 데이터 시각화 사례와 실제 코드 (0) | 2023.07.23 |
가장 많이 사용하는 파이썬 라이브러리 소개 (0) | 2023.07.23 |
파이썬 자료형의 활용과 실제 코드 예시 (0) | 2023.07.23 |
파이썬의 주요 자료형과 그 활용법 (0) | 2023.07.23 |