분류 전체보기
- images 2019.07.17
- SMA 2019.07.17
- Undersampleing & Oversampling 2019.07.08
- 0. Python 이란?: 언어형태, 특징, 메모리관리 2019.06.16
- python 시각화 : Seaborn 2019.06.10
- Python 시각화: 기본 2019.05.30
images
SMA
Undersampleing & Oversampling
SMOTE
'Data science' 카테고리의 다른 글
데이터사이언티스트 면접 (0) | 2020.01.15 |
---|---|
Network analysis (0) | 2019.11.20 |
Regular expression (0) | 2019.03.12 |
머신러닝 모델 분류 (0) | 2019.03.12 |
Reshape and Pivot table (0) | 2019.03.08 |
0. Python 이란?: 언어형태, 특징, 메모리관리
파이썬은 컴파일 언어인가? 인터프리터 언어인가?
컴퍼일 언어는 원시코드를 컴파일이라는 과정을 통해 기계여로 번역한 파일을 만들고, 만든 파일만을 가지고 파일을 통해 실행시킨다. 즉실행파일만 미리 만들어두는 것이다. 그러나, 컴파일 과정이 오래걸리고, 실행시키는 컴퓨팅 환경에 많이 영향을 받지만, 컴파일 파일(실행파일)만 있으면 되니까, 매우 빠른 속도로 실행될 수 있다.
예) C, C++
인터프리터 언어
- 인터프리터(해석기)에 의해서 원시 소스코드(진짜 코드)를 한 줄씩 읽어 실행하는 언어이다. 즉 Line by Line으로 읽을 수 있다.
- 컴파일 언어보다 더 느리게 실행된다. 이는 미리 컴파일 시켜놓아, 바로 실행되는 형태가 아니기 때문이다.
- 장점으로는, 코드를 빠르게 실행시켜볼 수 있고, 대화식(내가 입력하면서, 컴퓨터가 바로 출력하는 형태)로 코드를 개발 할 수 있기에, 교육용으로 사용되는 경우가 많다.
- 예, Python, JavaScript, PHP
파이썬 개요 및 특징
파이썬은 1989년 귀도 반 로섬에 의해 개발되었다.
특징으로는 다음과 같다
- 플랫폼 독립적: 이는 어느 운영체제 관계없이, 또는 PC, 모바일등과 같이 다른 환경에서 사용 가능하다는 의미이다.
- 인터프리터식: Line by line + 대화식으로 사용가능
- 객체지향적: 자료형을 숫자, 문자, 자료구조들을 파이썬 객체라고하는 어떤 상자안에 저장된 형태로 만들어 사용
- 동적 타이핑 대화형언어(dynamically typed): 예를 들어, 변수 A를 문자형으로 지정했다고 하고, 이를 숫자형으로 마음대로 바꿀 수 있다. 다른 언어들은 미리 메모리 공간을 잡아 놓기 때문에, 변수의 형태를 마음대로 변경하는것을 지원하지 않는다. (=This implies that dynamic typed languages do not require the explicit declaration of the variables before they’re used) [1]
- 기본 제공하는 함수(기능)은 거의 없고, 대부분 많은 기능이 라이브러리로 구성됨
요약하자면, 가독성(문법 간결), 확장성(라이브러리), 접착성(C로 구현된것도 쉽게 만들어 붙일 수 있음, 반대도 가능), 유니코드, 동적타이핑(동적언어 + 인터프리터 언어)
파이썬의 메모리관리: 저수준컴퓨팅 ~ 가비지 컬렉션 & 레퍼런스 카운팅
파이썬의 뒷단에는 내가 지정한 변수들을 어떻게 관리하고, 메모리를 어떻게 할당/관리하는지에 대하 설명이다. [2]저수준(Low-level computing) 컴퓨팅과, 파이썬에서의 저수준 컴퓨팅, 내부 메모리 관리 알고리즘에 대해 추가적인 이해를 하고 싶다면, 본 섹션을 참고하길 바란다.
우선, 우리가 A4용지내에 수학문제를 풀고자한다면, 변수와 공식들을 써내려가면서 문제를 풀고자 할것이다. 이처럼 메모리 자체를 어떤 공책이라고 생각하면 편하다. 메모리(A4노트, 또는 책)에 변수를 지우개로 지워서 다시쓸수도있고, 더 추가적으로 쓸수도 있고, 내가 갖고있는 공책(메모리)가 부족할 수도있다. 그러나, 우리는 노트 장 수가 한정적이기 때문에 메모리 관리에 대해 배울 필요도 있다. 또한, 여백의 A4공간을 어떻게 공식을 써내려갈지도 고민해야한다. 다행히 히는 파이썬에서 알아서 해준다.
CPython?
우선, 파이썬 기본 실행(Default Python Implementation)는 CPython이라는 C로 써진 것인데, pyc파일 이나 pycache 폴더를 본적 이 있다면, 이는 bytoecode로 가상환경에서 인터프리팅된것이다. CPython도 있고, IronPython(MS에서 다운)도 있고, Jypthon도 있고.. 여러가지가 있다. 우선 여기서는 CPython에서도만 이야기하자면, Cpython은 위에서 언급했듯이 C로 쓰여진것이고, 파이썬 bytecode을 인터프리팅 하는 실행계획 같은거다. 이 CPython에 메모리 관리에 필요한 구조와 알고리즘 코드가 들어있다. 따라서, 파이썬의 메모리 관리를 알고자한다면, 우리는 CPython에 대해 좀더 이해를 한다.
CPython도 역시 객체로 구성되어있는데, (예를 들어, 파이썬에 string type)같은 것이다. PyObject라고 불린다. 이 PyObejct는 모든 파이썬 객체의 조부모에 해당하는 객체인데 Ob_refcnt, ob_type을 포함하는데 이에 해당하는 설명은 다음과 같다.
- ob_refcnt: 레퍼런스 수(Reference count)
- ob_type: 포인터(다른 타입을 지정하는 포인터)
1 2 3 4 5 6 7 | ref = [5,6,7] # ref 객체가 5,6,7을 가르키고 있기 때문에, 레퍼런스 카운트가 1이다 my_ref = ref # 또한, my_ref가 ref의 주소를 가리키지만, 이는 사실 [5,6,7]을 가르키기 때문에 레퍼런스 카운트가 2이다. my_sum = sum(my_ref) # 이렇게 원래 주소값이 있던 것을 계속 참조하게되면, 레퍼런스 카운트가 올라간다. | cs |
객체 ref가 [5,6,7]을 직접 저장하고 있는것이 아니라, 주소값만 가지고 [5,6,7]을 가르키고 있는 것이다. 그렇기 때문에 이에 대한 레퍼런스카운드가 1이다. 3번라인은 my_ref객체가 ref객체를 가르키는 것처럼보이지만, 사실은 ref가 가지고있는 [5,6,7]에 대한 주소를 가르키기 때문에 my_ref 도 [5,6,7]을 가르키는 주소값만 가지고 있다. 즉 1번과 3번라인의 주소값이 동일하게 가르키고 있기 때문에 레퍼런스 카운트가 2이다. 이는 id(ref) 와 id(my_ref)을 출력해보면 동일한 주소값을 가지고 있음을 알 수 있다. 또한 6번라인처럼, 이전에 주소값에다가 연산을 또 하면 레퍼런스 카운트가 증가한다. 이처럼 레퍼런스 카운트가 증가하는 반면, 필요가 없는 경우 삭제되는데, 레퍼런스 카운트가 0이 되는 경우 변수를 삭제한다.
CPython의 메모리 관리
'Data science > Python' 카테고리의 다른 글
Hashable 이란? 쉬운 설명: python (0) | 2020.10.10 |
---|---|
numpy debugging (0) | 2020.02.08 |
python 시각화 : Seaborn (0) | 2019.06.10 |
Python 시각화: 기본 (0) | 2019.05.30 |
3. Numpy 한 페이지 요약 (0) | 2019.05.13 |
python 시각화 : Seaborn
seaborn이란 ?
Seaborn(발음: 시본)은 파이썬 데이터시각화 라이브러리이며, matplotlib라는 파이썬 시각화툴을 기반으로하고있다. Seaborn은 고수준(high-level) 인터페이스로, 통계적인 그레픽이나 디자인측면에서 손쉽게 구현이 가능하다(여기서 "고수준"은 사용자가 디테일한 수준까지 설정할필요없이, 몇가지 설정으로만 사용할 수 있다는 것이다. 반대어는 저수준으로 디테일한 수준까지 고려할 수 있음을 의미한다). 쉽게얘기하면, 그레프를 조금 더 쉽게 그려주는 페키지이다. 그레프를 통상 관계형, 범주형, 분포, 회귀, 행렬로 나누어서 설명을 한다. Seaborn은 스스로 그래프를 그리는 기능이 있어서 간편하게 사용해볼 수 있다.
그레프 크기 설정
matplotlib.pyplot.subplots()을 이용하여 서브플롯을 그릴 때, 너무 작은 서브플롯이 그려져서 보이지 않을 수 있다. 이 때는 matplotlib.pyplot.subplots()함수 내에, figsize라는 인자를 전달하면 된다. figsize은 tuple도 가능하고, list도 가능하다. 순서만 맞춰서 전달하면 된다. 가로가 12, 세로가 8인 크기로 만드록 싶으면, [12, 8], 또는 (12, 8) 둘 다 상관없다. 단위는 인치이다.
1
2
3
4
5
6
7
|
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use('ggplot')
fig, ax = plt.subplots(figsize=(5,6))
plt.show()
|
cs |
(참고:https://matplotlib.org/stable/api/figure_api.html?highlight=figsize)
스타일 지정(seaborn.set_style, seaborn.set, seaborn.set_theme)
seaborn에서는 set_style, set, set_theme이라는 함수를 제공한다. 각각의 기능은 다음과 같다.
1. set(context, style, palette, font, font_scale, color_code, rc): set_theme과 동일한 함수이다. 스타일, 팔레트, 글꼴, 글꼴 크기 등을 설정. 이는 앞으로 그리게 되는 모든 플롯의 그림에 영향을 준다. 즉, 환경변수 설정이다. (추후 버전에서 삭제될 얘정이다)
2. set_theme(context, style, palette, font, font_scale, color_code, rc): 이 함수를 사용하면 앞으로 그려지는 plot들의 테마들이 일괄적으로 세팅된다. 이 함수를 사용하면 python.matploblib 내의 rcParams system을 변경하게되는데, 이렇게되면 전체적인 플롯들의 테마(글꼴, 팔레트 등)이 일률적으로 변경된다. 파라미터는 다음과 같다.
Parameter
- context: string. or dict. 배율조정. 그림 사이즈의 크기가 아니라 그레프의 배율이 커진다.
- style: string. or dict. {None, 'darkgrid', 'white grid', 'dark', 'white', 'ticks'} 중 하나 가 들어간다.
- set(style='darkgrid')라고 해도되지만, 다음에 소개할 set_style('whitegrid')함수를 사용해도 된다. set하나 가지고, 축을 변경할 수도 있지만, set_axis을 이용해도 된다.
3. set_style(style, rc): 은 set_theme과 동일하나 일부 특성만 조작을 할 수 있는 함수이다. "배경색", "배경 내 격자무늬(=그리드)"의 사용여부를 기본으로 사용할 것인지 말것인지에 대한 설정을 할 수 있다.
- 예제, TimesNewRoman으로 폰트 변경
1
|
sns.set_style({'font.family':'serif', 'font.serif':['Times New Roman']})
|
cs |
- 예제, background을 흰색으로 변경
1
|
sns.set_style('whitegrid')
|
cs |
- 예제, background을 흰색 + ticks(눈금자)를 없애는 스타일
1
|
sns.set_style('ticks')
|
cs |
seaborn.axes_Style(style, rc)
플롯의 미적 스타일에 대한 매개변수를 반환한다. 예를 들어, 내가 사용하고 싶은 스타일이 어떤 파라미터에, 어떤 인자값이 들어있는지 확인하는 용도이다.
1
2
3
4
5
6
7
8
|
sns.axes_style(style='darkgrid')
#{'figure.facecolor': 'white',
# 'axes.labelcolor': '.15',
# 'xtick.direction': 'out',
# 'ytick.direction': 'out',
# 'xtick.color': '.15',
# 'ytick.color': '.15',
# 'axes.axisbelow': True,....
|
cs |
seaborn.set_context(ocntext=None, font_scale, rc=None):
플롯팅 컨텍스트 파라미트. 레이블의 크기, 선에만 영향을주고, 그레프의 전반적인 스타일에 영향을 미치지 않는다. 모든 그림들의 크기를 크리거나
- context: dict. None {paper, notebook, talk, poster}
- font_scale: 폰트 사이즈. 기본값 1.5
컬러 팔레트
데이터에 따라, 알아서 그레프의 색상을 알아서 지정해주고 싶을 때 사용한다.
seaboard.set_pallete(palette, n_colors= None)
seaboard.set_pallete('dark',3): 다크 그리드의 색상 3개를 뽑아온다. 보통 색상의 순서는 Blue, green, red, cyan, magenta.. 순서대로 간다.
1
2
|
sns.set_palette('deep', 5)
sns.scatterplot('petal_length', 'petal_width', data = iris
|
cs |
Cubehelix : 프린터기가 흑백인 경우, 일반 컬러를 출력하면, 색상구별이 안되는 경우가 있다. 이를 해결하기 위해서, 색상별로 greyscale을 점점 더 높혀가거나 낮혀가서 할 수 있는 함수이다.
그레프 그리기
seaborn 함수의 그래프가 그려지는 Axes(marplotlib의 axesSubplot) 객체를 반환하기 떄문에, 서브플롯으로 나눈 축 영역에 그레프를 그릴 수 있다.
Scatterplot
1
2
|
import seaborn as sns
sns.scatterplot(x='Sepal.Length', y='Sepal.Width', data=df)
|
cs |
- hue: strata을 정할 수 있음.
1
2
|
import seaborn as sns
sns.scatterplot(x='Sepal.Length', y='Sepal.Width', data=df, hue='Species', style='Species')
|
cs |
Lineplot
회귀선은 아니고, 데이터들의 평균으로 하는 것 같고, 데이터들의 표준편차
- markers = True : 점을 다르게 표시할 것인지에 대한 파라미터
- dashes = Fasle : 선을 다르게 표시할 것인지에 대한 파라미터
1
2
|
import seaborn as sns
sns.lineplot(x='Sepal.Length', y='Sepal.Width', data=df)s')
|
cs |
Subplots을 이용해서 여러 그레프 그리기
1
2
3
4
5
6
7
|
x= 'Sepal.Length'
y= 'Sepal.Width'
fig, axes = plt.subplots(ncols=2)
plt.subplots_adjust(wspace=0.3)
sns.scatterplot(x=x, y=y, data=df, ax=axes[0])
sns.lineplot(x=x, y=y, data=df, ax=axes[1])
plt.show()
|
cs |
- plt.subplots_adjust(wspace = 0.3) : 컬럼끼리이 그레프를 얼마나 떨어지
범주형 그레프
stripplot은 변수 하나가 범주형인 산점도, boxplot처럼 x 가 범주형 변수일 때 사용한다.
1
|
sns.stripplot(x='Species', y=y, data=df)
|
cs |
seaborn.swarmplot: swarmplot도 stripplot과 비슷한데, 어느정도 퍼져있는지를 잘 알아볼 수 있게 가로로 퍼짐형태를 나타내준다.
1
|
sns.swarmplot(x='Species', y=y, data=df)
|
cs |
seaborn.barplot: x는 마찬가지로 범주형이고, strata을 지정할 수 있다. 가는 선은 포인트 추정치인데, 신뢰구간과 유사하다.
1
2
|
df = sns.load_dataset("titanic")
sns.barplot(x='sex', y='survived', hue='class', data= df)
|
cs |
seaborn.countplot: 각 범주 구간의 갯수만 파악
1
|
sns.countplot(x='deck', data=df)
|
cs |
seaborn.pointplot 점 추정치 및 신뢰구간을 표시한다.
seaborn.boxplot: pointplot의 점추정치가아니라 y가 연속형변수일 때 사용할 수 있는 그레프다. Quantile에 대한 정보 outlier, tail 등에
대한 정보를 담고 있어 유용하다.
1
|
sns.boxplot(x='class', y='age', hue='sex', data=df)
|
cs |
seaborn.violineplot: boxplot과 커널밀도추정치(KDE, kernel Density Estimation).
히스토그램은 몇개의 구간으로 나누냐에 따라 분포가 달라질 수 있는데, KDE를 이용하여 이를 완만하게 그릴 수 있다.
1
|
sns.violinplot(x='class', y='age', hue='sex', data=df)
|
cs |
분포형 그레프
pairplot: 쌍관계 그래프를 그림. 데이터를 처음 볼 때, 변수들끼리 어느정도 관련성이 있는지를 산점도로 나타내고 싶을 때 사용한다.
변수가 너무 많아서 그레프가 너무 크면, 사이즈를 무척 크게 그려서, 저장한 다음에 나중에 이미지 뷰어로 보는 것도 추천한다.
1
2
|
df = sns.load_dataset('iris')
sns.pairplot(df, hue='species', palette='husl')
|
cs |
jointplot: 이변량 그래프와 단변량 그레프를 동시에 볼 수 있는 그레프이다. subplots 영역 안에 그릴 수는 없다. 덧붙여서 그리고 싶으면 jointplot을 객체로 받고, 그 그레프에 다시 그려야한다. 이하 예시를 보자.
1
|
sns.jointplot(df.sepal_length, df.sepal_width, kind='kde')
|
cs |
distplot: 단변량분포를 그린다. 커널밀도함수도 같이표현할 수 있다.
1
|
sns.distplot(df.sepal_length,)
|
cs |
Regression graph
lmplot: Linear model plot의 약어라고 생각되는 플롯이다. 회귀곡선도 그리고, 신뢰구간도 그려준다. 단점은 실제 회귀식은 알수는 없다.
1
|
sns.lmplot(x='sepal_length', y='sepal_width', hue= 'species', data=df)
|
cs |
regplot: 두 변수를 이용하여 선형 회귀 모형을 만들고, 그레프로 표현.
1
|
sns.regplot(x='sepal_length', y='sepal_width', data=df)
|
cs |
Matrix plot
cluster map: 데이터를 이용해서 계측적으로 군집된 히트맵으로 그림. 몇개의 군집할 것인가를 쉽게 결정할 수 있다. y 축의 계층을 이용해서 군집할 수 있다. 색깔은 근접도를 의미한다.
1
2
|
df = df.drop('species', axis=1)
sns.clustermap(df)
|
cs |
heatmap(data, vmin=None, vmax=None, cmap=None, annot=None):
vmin, vmax는 최대 최소값을 지정할수 있는 값 인자이다. cmap은 컬러맵을 의미하며, 아래의 예시와 같이 컬러맵에 대한 내용을 string 또는 리스트로 지정해주면된다. 변수들간의 상관계수를 색으로 인코딩하여 행렬로 표시한다. vmin, vmax=은 최대 최소를 의미한다. 상관계수는 1 annot =True이면 값 안에 숫자를 입력함
1
|
sns.heatmap(df.corr(), vmin=-1, vmax=1, annot=True, cmap='YlGnBu')
|
cs |
Seaborn Grid
Seaborn에서 Multi-plot grid로 조건부 관계를 여러가지를 동시에 플롯팅 할 수 있는 것을 의미한다.
FacetGrid, PairGrid, JointGrid 이렇게 세 가지 정도로 나눌 수 있다.
FacetGrid(data, row, col, hue) : 다중 플롯 그리드를 만들어서 여러가지 쌍 관계를 표현하기 위한 그리드 Class이다. 도화지에 축을 나누는것과 같다.
1
2
3
4
5
6
7
|
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
g = sns.FacetGrid(iris, col='species', hue='species')
g.map(plt.hist, 'sepal_length')
g.set_axis_labels('sepal_length', 'Count')
|
cs |
-
5라인: col, hue가 있는데 이는 데이터를 어떤 서브셋으로 나눌건지를 정하는 것이 된다. 즉 컬럼은 붓꽃의 종류로 나누고, 이에 대한 hue(starta)도 붓꽃의 종류로 나누겠다는 것이다.
-
6라인: 마든 Facetgrid 객체(g)에 'map' 함수를 이용해서 어떤 그레프를 그릴것인지 명시하고, 변수명을 적는다.
-
7라인: set_axis_labels(x_var=None, y_var=None). 축에 대한 라벨을 적을 수 있는데, x축을 sepal_length라고 명명하고, y축을 count라고 명명한다는 것이다.
PairGrid(data, hue=None, hue_order=None,....) : 쌍(pair) 관계 그레프를 그리기 위한 서브 플롯그리드를 생성
1
2
|
grid_obj = sns.PairGrid(iris)
grid_obj.map(sns.scatterplot)
|
cs |
- Line 1: PairGird(data, hue=None..). Grid객체를 만드는데 iris 데이터를 이용해서 사용할 것임을 명명
- Line 2: 만들어진 그리드 객체(grid_obj)에 어떤 그레프를 그릴것인지 map함수를 이용해서 그림.
JointGird(x, y): 이변량그래프와 단변량 그래프를 함께 나타내기위한 그리드를 생성
1
2
|
grid_obj = sns.JointGrid(iris.sepal_length, iris.sepal_width)
grid_obj.plot(sns.regplot, sns.distplot)
|
cs |
- Line 1: JointGrid 객체를 만들 것인데, 이에 필요한 데이터를 인자로 넣어 생성, x에 sepal_length , y에 sepal_width을 대입할 것임
- Line 2: plot(joint_function, marginal_function) 을 할 때, 이변량 그레프는 어떤 것을 그리고, 일변량 그레프는 어떤 것을 그릴것인지 정함. joint_function은 이변량 그레프를 어떤것을 그릴것인지 의미. marginal function은 이변량 그레프 외의 가장자리에 어떤 그레프를 그릴 것인지를 의미
map_lower(): 대각선의 아랫쪽에 그레프를 그림
map_upper(): 대각선의 윗쪽 그레프를 그림
'Data science > Python' 카테고리의 다른 글
numpy debugging (0) | 2020.02.08 |
---|---|
0. Python 이란?: 언어형태, 특징, 메모리관리 (0) | 2019.06.16 |
Python 시각화: 기본 (0) | 2019.05.30 |
3. Numpy 한 페이지 요약 (0) | 2019.05.13 |
2. Python: function (0) | 2019.03.19 |
Python 시각화: 기본
파이썬에서 시각화 할 수 있는 여러 패키지들이 있다. 여러가지가 있지만 대표적으로 사용되는 것들은 다음과 같다.
- Plotnine: ggplot2에 기반한 라이브러리를 이용하여, 표현이 가능하다.
- Plotly: 대화식 그레프를 그려주는 라이브러리. 시각화를 위해 D3.js을 사용. 이는 자바스크립트를 기반으로한다. D3는 data driven document 을 의미한다.
- Folium: 지도데이터의 플롯팅. 지도 API이다. 지도를 화면에 그레프를 그릴 수 있다. 지도 이외에 오버레이를 할 수 있어서, 추가정보를 입힐 수 있다.
- Pyecharts: 바이두에서 데이터 시각화를 위해 만든 Echarts.js의 파이선 버전이다.
- Matplotlib: python 2D 플로팅 라이브러리. 플렛폼(운영체제)에 독립적인 대화형 환경을 제공하고, python 스크립트, python 쉘, 노트북, 웹 응용프로그램 서버에서 사용 가능.
이외 웹에서 시각화 할 수 있는 사이트들이 있는데, highcharts.com 에 소스코드를 뿌려줄 수 있다. 위의 종류중 Matplotlib와 Seaborn만 알아도 훌륭하다.
Matplotlib
matplotlib은 파이썬 2D 플로팅 라이브러리로, 플랫폼에 독립적인 대화형 환경을 제공하며, 고품질의 그림을 생성할 수 있게 해준다. 플랫폼에 독립적이지만, 다양한 환경에서 사용할 수 있어, 파이썬 스크립트, 파이썬 및 아이파이썬(IPython) 쉘, 주피터 노트북, 응용웹프로그램 서버에서도 사용이 가능하다.
시각화를 위한 시작은 아래와같다.
1 2 3 4 5 6 7 8 | import matplotlib import matplotlib.pyplot as plt %matplotlib inline %config inLineBackend.figure_format = 'retina' 고해상도를 그리기 위한 코드 %lsmagic # 매직키워드의 리스트를 보여준다. | cs |
[2] pyplot: 플롯을 그려주는 함수들을 가지고있는 서브페키지.
[4] %matplotlib inline: 객체의 주소값만 출력되는 것을, 한번에 그레프가 그려진다.
[5] %config inLineBackend.figure_format = 'retina' 고해상도를 그리기 위한 코드 . png, gif, jpeg, retina 속성들이 있다.
[6] %lsmagic: 매직키워드의 리스트를 보여준다.
%은 매직키워드라고 불리는데, 아래와 같이 두 종류가 있다.
- %: line magic 이 라인에 대한 실행 시간을 보여준다.
- %%time 10+20: cell magic. 셀에 대한 실행시간을 보여준다.
1 2 3 4 5 6 7 8 | import numpy as np import matplotlib import matplotlib.pyplot as plt plt.subplot(2, 1, 1); plt.plot(x, np.sin(x)) plt.subplot(2, 2, 3); plt.plot(x, np.cos(x)) plt.subplot(2, 2, 4); plt.plot(x, np.tan(x)) | cs |
1 2 3 4 5 6 7 8 9 10 11 12 | import numpy as np fig, axes = plt.subplots(2, 2) axes[0, 0].plot(x, np.sin(x)) axes[0, 1].plot(x, np.cos(x)) plt.show() # 그려주기 # 행이나 열이 하나면 차원이 하나만 드f어가야한다. fig, axes = plt.subplots(1, 2) axes[0].plot(x, np.sin(x)) # 축이 한차원 axes[1].plot(x, np.cos(x)) # 축이 한차원 plt.show() # 그려주기 | cs |
plot(x, y, data=none, [format])
선 그레프를 그려주는 함수. x, y: data가 따로 분리되어있는 경우, x와 y을 따로 따로 지정해주어야 한다. data가 데이터프레임 형식으로 있다면, x, y에 열 이름을 지정해줘도 된다. format에는 색, 점 라인을 지정할 수 있다.
'ro-': red - 실선을 의미한다.
'cv-.':
'b^:' 파란색, ^삼각형,
같은 축에 플롯을 그리면, 그레프가 덮어써진다.
'kx--': dash 선을 그릴 수 있다.
점만 표현하고 싶으면 , plot+ 'ro'포맷을 쓰거나, scatterplot을 사용할 수 있다.
참고로 ~~plot의 다른 종류의 함수는 다양하게 표현될 수 있다.
Scatterplot(x, y, s=None, c=None, alpha=None)
matplotlib의 scatter함수는 산점도를 그려준다. s는 scale을 의미하며 각 산점도의 크기를 지정할 수 있고, c는 색상을 의미하고, alpha는 산점도의 투명도를 결정한다.
1 2 3 4 5 6 7 8 9 10 11 | import matplotlib import matplotlib.pyplot as plt import numpy as np N = 50 x = np.random.rand(N) y = np.random.rand(N) colors = np.random.rand(N) area = (30* np.random.rand(N))**2 plt.scatter(x, y, s=area, c=colors, alpha=0.5) plt.show() | cs |
s: 산점도의 크기
c, color: 팔레트에서 인덱스를 적용하여 색깔을 입힘. c을 써도되고, color라고 써도된다.
marker = plot은 format 과 유사하게, {'o', '*' 등}을 사용할 수 있음
예제로, 화면을 분할에서 위의 scatter()을 이용하여, 여러가지(기본, s포함, c까지 포함, alpha까지 포함)를 그리고자 한다면 subplots, subplot을 이용하면 된다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | import matplotlib import matplotlib.pyplot as plt import numpy as np N = 50 x = np.random.rand(N) y = np.random.rand(N) colors = np.random.rand(N) area = (30* np.random.rand(N))**2 fig, axes = plt.subplots(2, 2) axes[0,0].scatter(x, y) axes[0,1].scatter(x, y, s=area) axes[1,0].scatter(x, y, s=area, c= colors) axes[1,1].scatter(x, y, s=area, c= colors, alpha=0.5) plt.show() | cs |
hist()
boxplot()
violinplot()
히스토그램이 bin의 개수에 따라서, 표현이 많이 달라지는데, 커널밀도함수(kernel density funciton)를 표현해서, 데이터의 분포를 분포를 이용하여 완만하게 그려줄 수 있다. 유사하게 바이올린플롯도 kernel density function으로 이용해서, 각 자료의 구간을 완만하게 표현해주는 그레프이다.
text: 텍스트의 왼쪽 하단의 기준점이 2,0에 해당한다는 것이다.
annotate 글씨와 화살표를 같이 표기해준다.
xy= 화살표의 끝점, xytext = 텍스트가 표기될 왼쪽하단의 기준점. xycoords, textcoords= 데이터를 가지고, 축/길이를 생성, connectionstyle= 화살표의 스타일,
이 정도 매개변수랑 함수를 사용할정도면, 그만알아보고, 포토샵으로 하자.
축과 눈금 다루기
Ticker 클레스
Artist 클레스: 미적 속성. 이를 Axis(축)와 tick(눈금)이 상속받는데, Axis는 XAxis, YAxis가 상속받고, Tick은 XTick, YTick을 상속받는다.
set()은 그레프의 제목과 축의 제목, 눈금, 눈금 레이블 등을 한거번에 설정할 수 있다. 그러나 코드의 가독성이 떨어져서, set_xlim 등 따로 따로 함수를 이용해서 구분하여 그림을 그리는게 더 효과적이다.
set_xlim(), set_ylim(),
set_xticks() 눈금 위치를 리스트 형식으로 지정. 반드시 표현하고 싶은 눈금을 []리스트 내에 지정해준다. '|'의 위치를 의미한다.
set_xticklabel, set_ytickslabels: 눈금이 지정된 곳에, 레이블을 적는다.
spines: 박스의 경역
grid(True): 그레프 영역내 눈금을 설정할 경우.
bar(): barplot을 그리는 경우
barh(): barplot을 가로로 그린 경우
xvline(): vertical하게 수직선을 그리는 경우
fill(): 폐곡선을 그려서 시작점과
fill(): 0값을 기준으로 가운데를 채워주는 그레프
축의 공유
하나의 그래프를 영역에 두 개 이상의 그래프를 그리면서, 다른 축을 지정하고 싶은 경우 twinx(), twiny()) 함수를 이용해서 새로운 축 객체를 생성하여 그레프를 그리고 추긍ㄹ다르게 지정할 수 있다.
- twinx() 함수는 x축을 공유하고, y축을 오른쪽에 표시해주는 새로운 축객체를 반환
- twiny() 함수는 y축을 공유하고, x축을 위아래오 표시해주는 새로운 축객체를 반환
1 2 3 4 5 6 7 8 | fig, axes = plt.subplots() x= df['Sepal.Length'] y= df['Sepal.Width'] z= df['Petal.Width'] axes.plot(x, y, 'g^:') ax2 = axes.twinx() ax2.plot(x, z, 'bv--') | cs |
1번 라인처럼 fig객체와 axes 객체를 생성해놓고 일단 axes 객체에 그림을 그린다. 그런데 이 axes 객체에 x, y 축이 있을 텐데, 그 축 중 겹치고 싶은 축을 twin해서 사용하는 것이다(7라인)
Legend
Style
plt.style.available 스타일 찾기
plt.style.use('ggplot') ggplot으로 그리기.
Font
windows/fonts으로 들어가서 글꼴이름으로 한글을 지원하는 글꼴이름복하하면 된다.
그 이후, matplotibrc 파일 내에, font.family : 글꼴 이름을 저장한다음
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | # print(matplotlib.matplotlib_fname()) # rc 폴더내에 설정파일 # 또는 아래와 같아 폰트를 직접 지정 import matplotlib.font_manager as fm font_path = 'path' font_prop = fm.FontProperties(fname=font_path) plt.style.use('seaborn-paper') fig, ax1 = plt.subplots() ax1.plot(x, y1, 'g^:') ax1.set_xlabel('X data') ax1.set_ylabel('Y data', fontproperties = font_prop) ax1.tick_params(color='white') ax2 = ax1.twinx() ax2.plot(x, y2, 'r^:') ax2.set_ylabel('Y2 data') plt.savefig('foo.png') | cs |
Graph save
savefig(fname, dpi) 함수을 이용. fname: 파일명, dpi: dot per inch
1 | plt.savefig('foo.png') | cs |
PandasDataframe.plot(x=None, y=None)
x, y, kwwds:
kdwds: line, box, bar, bar 그레프에 따라 열
1 2 3 4 5 6 7 8 9 | import numpy as np import pandas as pd import seaborn as sns import satsmodels.api as sm # iris = sns.load_dataset('iris'). [7]번 라인과 같다. iris = sm.datasets.get_rdataset('iris') iris_df = iris.data plt.show() | cs |
[8] data라는 속성을 통해서 데이터 형태를 가지고 온다.
플롯에 x에는 꽃잎의 길이, y에는 꽃잎의 넓이를 표시하여, 산점도, 히스토그램, 라인, 그리고 디폴트로 박스플롯을 그리고자하면, plot에 arguments 해당하는 부분을 입력해주면 된다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | # scatter plot iris_df.plot(x='petal_Length', y='Petal.Width', kind='scatter') # histogram iris_df.plot(x='petal_Length', y='Petal.Width', kind='hist') # linegraph iris_df.plot(x='petal_Length', y='Petal.Width', kind='line') # Boxplot iris_df.plot(kind='box') # figsize 변경 iris_df.plot(kind='box', figsize=(3,2)) | cs |
'Data science > Python' 카테고리의 다른 글
0. Python 이란?: 언어형태, 특징, 메모리관리 (0) | 2019.06.16 |
---|---|
python 시각화 : Seaborn (0) | 2019.06.10 |
3. Numpy 한 페이지 요약 (0) | 2019.05.13 |
2. Python: function (0) | 2019.03.19 |
1. 기본자료형, Python Built-in Code (0) | 2019.03.05 |