본문 바로가기

판다스

(7)
머신러닝에 앞선 판다스의 이해 판다스? 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리 일반적으로 대부분 데이터 세트는 2차원데이터입니다. 즉 행(row)과 열(column)로 구성돼있습니다. 판다스는 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능을 제공합니다. 2차원 데이터 핸들링을 위해서는 판다스를 사용하는 것이 좋습니다. 판다스의 주요 구성 요소 -DataFrame, Series, Index DataFrame - Column * Row 2차원 데이터 셋 Series - 1개의 Column값으로만 구성된 1차원 데이터 셋 DataFrame 데이터 삭제 -DataFrame의 drop() -axis : DataFrame의 row를 삭제할 때에는 axis = 0, column을..
Part 5 - Grouping # 특정 컬럼의 값 세기 train.Parch.value_counts() # 특정 컬럼의 유일값 세고 top 3 뽑기 top3 = train.Parch.value_counts().nlargest(3) # 특정 기준보다 작은 것 찾기 threshold = 0.015 small_categories = frequencies[frequencies < threshold].index small_categories #원하는 그룹만 추출하기 a = data.groupby('Pclass').get_group(1) a # count : 그룹 내 non-NA 개수 train.groupby(['Pclass','Parch'])['Pclass'].count() # sum : 그룹 내 non-NA 합 train.groupby(['..
Part 4 - Creating #새로운 빈 데이터프레임 생성 sample = pd.DataFrame() #기존 데이터프레임 카피 temp = train.copy() # 맨 끝에 새로운 컬럼 추가하기 temp['New'] = 0 # 특정 위치(첫번째)에 새로운 컬럼 추가하기 temp.insert(0, 'New2', 0) #기존 행을 복사해서 추가하기 temp['New'] = temp['Age'] #특정 값만 있는 새로운 데이터프레임 만들기 y_train = train['Survived'] sample1 = train[0:3] sample2 = train[['Pclass', 'Name', 'Sex']] sample3 = train[['Pclass', 'Name', 'Sex']] [1:3] sample4 = train.loc[train.S..
Part 3 - Sorting #fare열값 기준 내림차순 정리 train.sort_values('Fare', ascending=False) # fare 열값 기준 오름차순 정리 train.sort_values('Fare', ascending=True) #fare 열값 기준 오름차순해서 102부터 105번까지 보기 train.sort_values('Fare', ascending=True)[101:105] #fare, survived, pclass를 각 오름차순, 내림차순, 내림차순해서 정렬 train.sort_values(['Fare', 'Survived', 'Pclass'], ascending=[True, False, False]) #특정 조건을 만족하는 특정열값 모두 보기 train[train['Fare'] > 80] #열값을 알..
Part 2 - Indexing *pwd 파일 위치 알려주는 기호 #특정 위치 행값 보기 train.columns[3] #어디서부터 어디까지 행값 보기 train.columns[3:5] #특정 값 모두 보기 train['Name'] #빈값 여부 찾아보기(empty or NaN (Not a Number)) train.isnull().any() #빈값 개수 찾아보기 train.isnull().sum() #특정 열값(수치) 보기 +> iloc는 행이나 열의 순서로 찾는방식 loc는 이름이나 조건으로 직접 찾는 방식 train.loc[3] #특정 행값이 0인 열 모아서 보기 train.loc[train['SibSp']==0] #특정 행값이 1인 열들을, 오름차순해서 보기 train.loc[train['Pclass']==1].reset_inde..
# Part 1 - Exploring Data # No. 1 - To read a CSV and turn them into a dataframe. import numpy as np import pandas as pd #데이터로드 test = pd.read_csv('data_titanic/test.csv') train = pd.read_csv('data_titanic/train.csv') #행, 열 수 보기 #맨 위 5개, 맨 아래 5개 값 보기 print(train.shape) train.head() train.tail() #타입보기 train.dtypes #값 전부 보기 train #101번부터 110번까지 값 보기 train[101:111] #describe() - counts, means, min 등 구체적인 값 train.describe() ..
#6 미쳐버리겠네, 데이터분석 입문_day6😬 🧑‍💻 12/20 슬기로운 코딩생활 조나 어렵네.. 판다스 50번까지 복습(인데도 모르겠음) & 타이타닉 실제 데이터를 가지고 재복습 🖊️ 공부기록 *pwd : 내가 지금 어디에서 작업하고 있는지 알려주는 것 # Part 1 - Exploring Data import pandas as pd #데이터테이블 import numpy as np #수치계산 시각화 관련 라이브러리 import matplotlib.pyplot as plt # 시각화 plt.style.use('seaborn-whitegrid') # 스타일 적용 import seaborn as sns # 시각화 import missingno # null값 시각화 #데이터로드 test = pd.read_csv('data_titanic/test.csv')..