5 장 – 서포트 벡터 머신


. 선형 SVM 분류

. 비선형 SVM 분류

. SVM 회귀

5.0 설정

In [1]:
# 공통
import numpy as np
import os
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
from matplotlib import font_manager, rc
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_moons
from sklearn.preprocessing import PolynomialFeatures

from sklearn.svm import LinearSVC # hinge 손실 함수 이용
from sklearn.svm import LinearSVR
from sklearn.svm import SVC
from sklearn.svm import SVR

# 일관된 출력을 위해 유사난수 초기화

# 맷플롯립 설정
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)
rc('font', family=font_name)

plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
plt.rcParams['axes.unicode_minus'] = False

# 그림을 저장할 폴드
PROJECT_ROOT_DIR = "C:/Users/Admin/Desktop/ML/"
# PROJECT_ROOT_DIR = "C:/Users/sally/Desktop/ML/"
# PROJECT_ROOT_DIR = "C:/Users/User/Desktop/ML/"
# PROJECT_ROOT_DIR = "C:/Users/sally/Dropbox/2019-Fall-Semester/ML"

CHAPTER_ID = "svm"

IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)

def save_fig(fig_id, tight_layout=True):
    path = os.path.join(IMAGES_PATH, fig_id + ".png")
    if tight_layout:
    plt.savefig(path, format='png', dpi=300)

5.1 선형 SVM 분류

5.1.0 라지 마진 분류

. 왼쪽 모델 : 훈련 세트는 좋지만 결정 경계(decision boundary)가 샘플에 가까워 새로운 샘플은 안 좋음

. 오른쪽 모델 : 실선이 두 개의 클래스를 나누고 제일 가까운 훈련 샘플로부터 떨어져 있음 $\Rightarrow$ SVM 분류기는 두 클래스 사이에 가장 넓은 도로 폭을 찾는 것. 라지 마진 분류기(large margin classifier)라 부름

.. 서포트 벡터(support vector) : 도로 경계(on the edge of the street)에 위치한 샘플. 도로 경계 바깥쪽(off the street)에 훈련 샘플이 추가되더라도 서포트 벡터는 바뀌지 않음

. 하드 마진 분류(hard margin classification) : 모든 샘플이 도로 경계 바깥 쪽에 올바르게 분류되어 있는 것 :

.. 샘플이 선형적으로 구분될 수 있을 때 가능

In [2]:
iris = datasets.load_iris()
X = iris["data"][:, (2, 3)]  # 꽃잎 길이, 꽃잎 너비
y = iris["target"]

setosa_or_versicolor = (y == 0) | (y == 1)
X = X[setosa_or_versicolor]
y = y[setosa_or_versicolor]
In [3]:
# SVM 분류 모델
svm_clf = SVC(kernel="linear", C=float("inf"))
svm_clf.fit(X, y)
In [4]:
# 나쁜 모델
x0 = np.linspace(0, 5.5, 200)
pred_1 = 5*x0 - 20
pred_2 = x0 - 1.8
pred_3 = 0.1 * x0 + 0.5


plt.plot(x0, pred_1, "g-", linewidth=2)
plt.plot(x0, pred_2, "m-", linewidth=2)
plt.plot(x0, pred_3, "r-", linewidth=2)
plt.plot(X[:, 0][y==1], X[:, 1][y==1], "bs", label="Iris-Versicolor")
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "yo", label="Iris-Setosa")
plt.xlabel("꽃잎의 길이", fontsize=14)
plt.ylabel("꽃잎의 너비", fontsize=14)
plt.legend(loc="upper left", fontsize=14)
plt.axis([0, 5.5, 0, 2])

# 좋은 모델
def plot_svc_decision_boundary(svm_clf, xmin, xmax):
    w = svm_clf.coef_[0]
    b = svm_clf.intercept_[0]

    # 결정 경계에서 w0*x0 + w1*x1 + b = 0 이므로
    # x1 = -w0/w1 * x0 - b/w1
    x0 = np.linspace(xmin, xmax, 200)
    decision_boundary = -w[0]/w[1] * x0 - b/w[1]

    margin = 1/w[1]
    gutter_up = decision_boundary + margin
    gutter_down = decision_boundary - margin

    svs = svm_clf.support_vectors_
    plt.scatter(svs[:, 0], svs[:, 1], s=180, facecolors='#FFAAAA')
    plt.plot(x0, decision_boundary, "k-", linewidth=2)
    plt.plot(x0, gutter_up, "r--", linewidth=2)
    plt.plot(x0, gutter_down, "g--", linewidth=2)

plot_svc_decision_boundary(svm_clf, 0, 5.5)
plt.plot(X[:, 0][y==1], X[:, 1][y==1], "bs")
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "yo")
plt.ylabel("꽃잎의 너비", fontsize=14)
plt.xlabel("꽃잎의 길이", fontsize=14)
plt.axis([0, 5.5, 0, 2])


. 특성의 스케일에 민감 : 표준화 필요

In [5]:
Xs = np.array([[1, 50], [5, 20], [3, 80], [5, 60]]).astype(np.float64)
ys = np.array([0, 0, 1, 1])
In [6]:
svm_clf = SVC(kernel="linear", C=100)
svm_clf.fit(Xs, ys)
In [7]:
plt.plot(Xs[:, 0][ys==1], Xs[:, 1][ys==1], "bo")
plt.plot(Xs[:, 0][ys==0], Xs[:, 1][ys==0], "ms")
plot_svc_decision_boundary(svm_clf, 0, 6)
plt.xlabel("$x_0$", fontsize=20)
plt.ylabel("$x_1$  ", fontsize=20, rotation=0)
plt.title("Unscaled", fontsize=16)
plt.axis([0, 6, 0, 90])
In [8]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(Xs)
svm_clf.fit(X_scaled, ys)
In [9]:
plt.plot(X_scaled[:, 0][ys==1], X_scaled[:, 1][ys==1], "bo")
plt.plot(X_scaled[:, 0][ys==0], X_scaled[:, 1][ys==0], "ms")
plot_svc_decision_boundary(svm_clf, -2, 2)
plt.xlabel("$x_0$", fontsize=20)
plt.title("Scaled", fontsize=16)
plt.axis([-2, 2, -2, 2])


. 이상점에 민감

In [10]:
X_outliers = np.array([[3.4, 1.3], [3.2, 0.8]])
y_outliers = np.array([0, 0])
Xo1 = np.concatenate([X, X_outliers[:1]], axis=0)
yo1 = np.concatenate([y, y_outliers[:1]], axis=0)
Xo2 = np.concatenate([X, X_outliers[1:]], axis=0)
yo2 = np.concatenate([y, y_outliers[1:]], axis=0)
In [11]:
svm_clf2 = SVC(kernel="linear", C=10**9)
svm_clf2.fit(Xo2, yo2)
In [12]:

plt.plot(Xo1[:, 0][yo1==1], Xo1[:, 1][yo1==1], "bs")
plt.plot(Xo1[:, 0][yo1==0], Xo1[:, 1][yo1==0], "yo")
plt.text(0.3, 1.0, "불가능!", fontsize=24, color="red")
plt.xlabel("꽃잎 길이", fontsize=14)
plt.ylabel("꽃잎 너비", fontsize=14)
             xy=(X_outliers[0][0], X_outliers[0][1]),
             xytext=(2.5, 1.7),
             arrowprops=dict(facecolor='black', shrink=0.1),
plt.axis([0, 5.5, 0, 2])

plt.plot(Xo2[:, 0][yo2==1], Xo2[:, 1][yo2==1], "bs")
plt.plot(Xo2[:, 0][yo2==0], Xo2[:, 1][yo2==0], "yo")
plot_svc_decision_boundary(svm_clf2, 0, 5.5)
plt.xlabel("꽃잎 길이", fontsize=14)
             xy=(X_outliers[1][0], X_outliers[1][1]),
             xytext=(3.2, 0.08),
             arrowprops=dict(facecolor='black', shrink=0.1),
plt.axis([0, 5.5, 0, 2])


5.1.1.소프트 마진 분류

. 왼쪽 그림 : 하드 마진을 찾을 수 없음

. 오른쪽 그림 : 결정 경계가 좋지 않음

5.1.1.소프트 마진 분류

. 소프트 마진(soft nargin) : 도로의 폭 (넓게)과 마진 오류(샘플이 도로 사이나 혹은 결정 경계의 반대쪽에 있는 경우) (작게)를 잘 조정

. sklearn.svm.LinearSVC : 선형 서포트 벡터 분류


In [13]:
iris = datasets.load_iris()
X = iris["data"][:, (2, 3)]  # 꽃잎 길이, 꽃잎 너비
y = (iris["target"] == 2).astype(np.float64)  #Iris - Virginica
In [14]:
scaler = StandardScaler()
svm_clf1 = LinearSVC(C=1, loss="hinge", random_state=42)
svm_clf2 = LinearSVC(C=100, loss="hinge", random_state=42)
scaled_svm_clf1 = Pipeline([
        ("scaler", scaler),
        ("linear_svc", svm_clf1),
scaled_svm_clf2 = Pipeline([
        ("scaler", scaler),
        ("linear_svc", svm_clf2),
In [15]:
scaled_svm_clf1.fit(X, y)
In [16]:
scaled_svm_clf2.fit(X, y)
. 결정 경계를 원자료 스케일로 환원하기 :

.. $v_0z_0+v_1z_1+c=0$ $\Leftrightarrow$ $v_0(\frac{x_0-m_0}{s_0})+v_1(\frac{x_1-m_1}{s_1})+c=0$ $\Leftrightarrow$ $\frac{v_0}{s_0}x_0+\frac{v_1}{s_1}x_1+v_0(-\frac{m_0}{s_0})+v_1(-\frac{m_1}{s_1})+c=0$ $\Leftrightarrow$ $w_0x_0+w_1x_1+b=0$

단, $w_0=\frac{v_0}{s_0}$, $w_1=\frac{v_1}{s_1}$, $b=v_0(-\frac{m_0}{s_0})+v_1(-\frac{m_1}{s_1})+c$

In [17]:
# 스케일되지 않은 파라미터로 변경
b1 = svm_clf1.decision_function([-scaler.mean_ / scaler.scale_])
b2 = svm_clf2.decision_function([-scaler.mean_ / scaler.scale_])
w1 = svm_clf1.coef_[0] / scaler.scale_
w2 = svm_clf2.coef_[0] / scaler.scale_
svm_clf1.intercept_ = np.array([b1])
svm_clf2.intercept_ = np.array([b2])
svm_clf1.coef_ = np.array([w1])
svm_clf2.coef_ = np.array([w2])

# 서포트 벡터 찾기 (libsvm과 달리 liblinear 라이브러리에서 제공하지 않기 때문에 
# LinearSVC에는 서포트 벡터가 저장되어 있지 않습니다.)
t = y * 2 - 1
support_vectors_idx1 = (t * (X.dot(w1) + b1) < 1).ravel()
support_vectors_idx2 = (t * (X.dot(w2) + b2) < 1).ravel()
svm_clf1.support_vectors_ = X[support_vectors_idx1]
svm_clf2.support_vectors_ = X[support_vectors_idx2]
In [18]:
In [19]:

plt.plot(X[:, 0][y==1], X[:, 1][y==1], "g^", label="Iris-Virginica")
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs", label="Iris-Versicolor")
plot_svc_decision_boundary(svm_clf1, 4, 6)
plt.xlabel("꽃잎 길이", fontsize=14)
plt.ylabel("꽃잎 너비", fontsize=14)
plt.legend(loc="upper left", fontsize=14)
plt.title("$C = {}$".format(svm_clf1.C), fontsize=16)
plt.axis([4, 6, 0.8, 2.8])

plt.plot(X[:, 0][y==1], X[:, 1][y==1], "g^")
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs")
plot_svc_decision_boundary(svm_clf2, 4, 6)
plt.xlabel("꽃잎 길이", fontsize=14)
plt.title("$C = {}$".format(svm_clf2.C), fontsize=16)
plt.axis([4, 6, 0.8, 2.8])


5.4 SVM 이론

5.4.1 결정 함수와 예측

. 용어 : $\theta_0\equiv b$ : 편향, $\theta=w$ : 특성의 가중치

.. 편향 특성을 입력 특성 벡터에 포함 시키지 않음. 즉, $x=(x_1,x_2,\ldots,x_n)'$

. 결정 함수(decision function) : $h=w'x+b$

. 선형 SVM 분류기에 의한 예측

.. $\hat y =0 $ if $w'x+b<0$; $1$ if $w'x+b\ge0$

. 마진 폭은 가능한 넓게 하면서 마진 오류는 완전히 피하거나 최소화 하는 $w$와 $b$를 어떻게 찾을 수 있을지?

. 결정 경계 : 결정 함수 값이 $0$인 점들의 집합

.. 두 평면의 교집합 (결정 함수 $h$와 $h=0$)

In [20]:
def plot_3D_decision_function(ax, w, b, x1_lim=[4, 6], x2_lim=[0.8, 2.8]):
    x1_in_bounds = (X[:, 0] > x1_lim[0]) & (X[:, 0] < x1_lim[1])
    X_crop = X[x1_in_bounds]
    y_crop = y[x1_in_bounds]
    x1s = np.linspace(x1_lim[0], x1_lim[1], 20)
    x2s = np.linspace(x2_lim[0], x2_lim[1], 20)
    x1, x2 = np.meshgrid(x1s, x2s)
    xs = np.c_[x1.ravel(), x2.ravel()]
    df = (xs.dot(w) + b).reshape(x1.shape)
    m = 1 / np.linalg.norm(w)
    boundary_x2s = -x1s*(w[0]/w[1])-b/w[1]
    margin_x2s_1 = -x1s*(w[0]/w[1])-(b-1)/w[1]
    margin_x2s_2 = -x1s*(w[0]/w[1])-(b+1)/w[1]
    ax.plot_surface(x1s, x2, np.zeros_like(x1),
                    color="b", alpha=0.2, cstride=100, rstride=100)
    ax.plot(x1s, boundary_x2s, 0, "k-", linewidth=2, label=r"$h=0$")
    ax.plot(x1s, margin_x2s_1, 0, "r--", linewidth=2, label=r"$h=+1$")
    ax.plot(x1s, margin_x2s_2, 0, "g--", linewidth=2, label=r"$h=-1$")
    ax.plot(X_crop[:, 0][y_crop==1], X_crop[:, 1][y_crop==1], 0, "g^")
    ax.plot_wireframe(x1, x2, df, alpha=0.3, color="k")
    ax.plot(X_crop[:, 0][y_crop==0], X_crop[:, 1][y_crop==0], 0, "bs")
    ax.axis(x1_lim + x2_lim)
    ax.text(4.5, 2.5, 3.8, "결정 함수 $h$", fontsize=15)
    ax.set_xlabel(r"꽃잎 길이", fontsize=15, labelpad=15)
    ax.set_ylabel(r"꽃잎 너비", fontsize=15, rotation=25, labelpad=15)
    ax.set_zlabel(r"$h = \mathbf{w}^T \mathbf{x} + b$", fontsize=18, labelpad=10)
    ax.legend(loc="upper left", fontsize=16)

fig = plt.figure(figsize=(12, 5))
ax1 = fig.add_subplot(111, projection='3d')
plot_3D_decision_function(ax1, w=svm_clf2.coef_[0], b=svm_clf2.intercept_[0])


5.4.2 목적 함수

. 하드 마진 선형 SVM 분류기의 목적 함수 :

.. minimize $\frac{1}{2}w'w$ wrt $w, b$ subject to $t^{(i)}(w'x^{(i)}+b)\ge1$

단, $t^{(i)}=-1$ if $y^{(i)}=0$; $1$ if $y^{(i)}=1$

. 소프트 마진 선형 SVM 분류기의 목적 함수 :

.. minimize $\frac{1}{2}w'w+C\sum_i \zeta^{(i)}$ wrt $w, b, \zeta$ subject to $t^{(i)}(w'x^{(i)}+b)\ge1-\zeta^{(i)}, \zeta^{(i)}\ge0$

.. $\zeta^{(i)}$ : 슬랙(slack) 변수.

.. 두 가지 목표 : 슬랙 변수 값을 가능한 작게 $\Rightarrow$ 마진 오류 감소, $||w||^2$를 가능한 작게 $\Rightarrow$ 마진 폭 증가

.. $C$ : 하이퍼 파라미터. 마진 오류와 마진 폭을 조정

. 참고 : 평행한 두 평면 사이의 거리 :

.. $w'x+c=0$과 $w'x+d=0$ 사이의 거리는$\frac{|c-d|}{||w||}$

.. 두 서포트 벡터 사이의 거리는 $\frac{2}{||w||}$


. 특성이 한 개이고 편향이 0인 경우 ($h=w_1x_1$) 결정함수

.. $|w_1|$의 값이 작을수록 마진의 폭이 넓어짐

In [21]:
def plot_2D_decision_function(w, b, ylabel=True, x1_lim=[-3, 3]):
    x1 = np.linspace(x1_lim[0], x1_lim[1], 200)
    y = w * x1 + b
    m = 1 / w

    plt.plot(x1, y)
    plt.plot(x1_lim, [1, 1], "k:")
    plt.plot(x1_lim, [-1, -1], "k:")
    plt.axhline(y=0, color='k')
    plt.axvline(x=0, color='k')
    plt.plot([m, m], [0, 1], "k--")
    plt.plot([-m, -m], [0, -1], "k--")
    plt.plot([-m, m], [0, 0], "k-o", linewidth=3)
    plt.axis(x1_lim + [-2, 2])
    plt.xlabel(r"$x_1$", fontsize=16)
    if ylabel:
        plt.ylabel(r"$w_1 x_1$  ", rotation=0, fontsize=16)
    plt.title(r"$w_1 = {}$".format(w), fontsize=16)


plot_2D_decision_function(1, 0)

plot_2D_decision_function(0.5, 0, ylabel=False)


5.2 비선형 SVM 분류

. 왼쪽 그림 : NOT linearly separable

. 오른쪽 그림 : 이차 특성 $x_2=x_1^2$을 추가. perfectly linearly separable

In [22]:
X1D = np.linspace(-4, 4, 9).reshape(-1, 1)
X2D = np.c_[X1D, X1D**2]
y = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0])

plt.figure(figsize=(12, 4))

plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.plot(X1D[:, 0][y==0], np.zeros(4), "bs")
plt.plot(X1D[:, 0][y==1], np.zeros(5), "g^")
plt.xlabel(r"$x_1$", fontsize=20)
plt.axis([-4.5, 4.5, -0.2, 0.2])

plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.plot(X2D[:, 0][y==0], X2D[:, 1][y==0], "bs")
plt.plot(X2D[:, 0][y==1], X2D[:, 1][y==1], "g^")
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"$x_2$", fontsize=20, rotation=0)
plt.gca().get_yaxis().set_ticks([0, 4, 8, 12, 16])
plt.plot([-4.5, 4.5], [6.5, 6.5], "r--", linewidth=3)
plt.axis([-4.5, 4.5, -1, 17])

save_fig("higher_dimensions_plot", tight_layout=False)

. sklearn.datasets.make_moons : 서로 교차하는 두 반달 자료


5.2.0 Linear SVM Classifier using polynomial features

In [23]:
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)
In [24]:
def plot_dataset(X, y, axes):
    plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs")
    plt.plot(X[:, 0][y==1], X[:, 1][y==1], "g^")
    plt.grid(True, which='both')
    plt.xlabel(r"$x_1$", fontsize=20)
    plt.ylabel(r"$x_2$", fontsize=20, rotation=0)
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])

In [25]:
polynomial_svm_clf = Pipeline([
        ("poly_features", PolynomialFeatures(degree=3)),
        ("scaler", StandardScaler()),
        ("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42))
polynomial_svm_clf.fit(X, y)
     steps=[('poly_features', PolynomialFeatures(degree=3, include_bias=True, interaction_only=False)), ('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svm_clf', LinearSVC(C=10, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='hinge', max_iter=1000, multi_class='ovr',
     penalty='l2', random_state=42, tol=0.0001, verbose=0))])
In [26]:

def plot_predictions(clf, axes):
    x0s = np.linspace(axes[0], axes[1], 100)
    x1s = np.linspace(axes[2], axes[3], 100)
    x0, x1 = np.meshgrid(x0s, x1s)
    X = np.c_[x0.ravel(), x1.ravel()]
    y_pred = clf.predict(X).reshape(x0.shape)
    y_decision = clf.decision_function(X).reshape(x0.shape)
    plt.contourf(x0, x1, y_pred, cmap=plt.cm.brg, alpha=0.2)
    plt.contourf(x0, x1, y_decision, cmap=plt.cm.brg, alpha=0.1)

plot_predictions(polynomial_svm_clf, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])


5.2.1 다항식 커널

. 그러나 다항식의 차수가 높고 특성의 개수가 많아지면 모델 훈련에 시간이 많이 소요됨. 비효율적!

. 왜 커널을 사용하는가?

. 커널 트릭(kernel trick) : 실제로 특성을 추가하지 않았는데 다항식의 특성을 추가한 듯한 효과

.. eg, 2차원 (특성수: 2개) 데이터셋에 2차 다항식 변환을 적용하고 선형 SVM 분류기를 적용

.. 2차 다항식 mapping : $\phi(x)=(x_1^2,\sqrt2x_1x_2,x_2^2)'$ - 변환된 자료는 3차원

.. Note : $\phi(x)'\phi(y)=(x'y)^2$ WHY?

.. 훈련 샘플을 변환할 필요가 없음

.. $K(a,b)=(a'b)^2:$ 2차 다항식 커널이라고 함

. SVC 클래스로 수행

. polynomial kernel : $K(a,b)=(\gamma a'b+r)^d$

.. $r$ : 상수항. SVC 에서 coef0 매개 변수에 해당

In [27]:
poly_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
poly_kernel_svm_clf.fit(X, y)
     steps=[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svm_clf', SVC(C=5, cache_size=200, class_weight=None, coef0=1,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='poly', max_iter=-1, probability=False, random_state=None,
  shrinking=True, tol=0.001, verbose=False))])
In [28]:
poly100_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="poly", degree=10, coef0=100, C=5))
poly100_kernel_svm_clf.fit(X, y)
     steps=[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svm_clf', SVC(C=5, cache_size=200, class_weight=None, coef0=100,
  decision_function_shape='ovr', degree=10, gamma='auto_deprecated',
  kernel='poly', max_iter=-1, probability=False, random_state=None,
  shrinking=True, tol=0.001, verbose=False))])
In [29]:
plt.figure(figsize=(12, 4))

plot_predictions(poly_kernel_svm_clf, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])
plt.title(r"$d=3, r=1, C=5$", fontsize=18)

plot_predictions(poly100_kernel_svm_clf, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])
plt.title(r"$d=10, r=100, C=5$", fontsize=18)


5.2.2 유사도 특성 추가

. 각 샘플이 특정 랜드미크와 얼마나 닮았는지를 측정하는 유사도 함수로 계산한 특성을 추가

. Gaussian RBF(radial basis function) : $\phi(x, l) = \exp(-\gamma||x-l||^2)$

.. $\gamma$ : 하이퍼파라미터. 작을수록 폭이 넓은 종모양이 됨

.. $l$ : landmark

. 랜드마크는 어떻게 잡는가?

.. 모든 샘플 위치에서 잡음

.. 샘플이 $m$개이고 특성이 $m$개가 됨 (original 특성을 무시했을 때)

In [30]:
def gaussian_rbf(x, landmark, gamma):
    return np.exp(-gamma * np.linalg.norm(x - landmark, axis=1)**2)

gamma = 0.3

x1s = np.linspace(-4.5, 4.5, 200).reshape(-1, 1)
x2s = gaussian_rbf(x1s, -2, gamma)
x3s = gaussian_rbf(x1s, 1, gamma)

XK = np.c_[gaussian_rbf(X1D, -2, gamma), gaussian_rbf(X1D, 1, gamma)]
yk = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0])

plt.figure(figsize=(12, 4))

plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.scatter(x=[-2, 1], y=[0, 0], s=150, alpha=0.5, c="red")
plt.plot(X1D[:, 0][yk==0], np.zeros(4), "bs")
plt.plot(X1D[:, 0][yk==1], np.zeros(5), "g^")
plt.plot(x1s, x2s, "g--")
plt.plot(x1s, x3s, "b:")
plt.gca().get_yaxis().set_ticks([0, 0.25, 0.5, 0.75, 1])
plt.xlabel(r"$x_1$", fontsize=20)
plt.ylabel(r"Similarity", fontsize=14)
             xy=(X1D[3, 0], 0),
             xytext=(-0.5, 0.20),
             arrowprops=dict(facecolor='black', shrink=0.1),
plt.text(-2, 0.9, "$x_2$", ha="center", fontsize=20)
plt.text(1, 0.9, "$x_3$", ha="center", fontsize=20)
plt.axis([-4.5, 4.5, -0.1, 1.1])

plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.plot(XK[:, 0][yk==0], XK[:, 1][yk==0], "bs")
plt.plot(XK[:, 0][yk==1], XK[:, 1][yk==1], "g^")
plt.xlabel(r"$x_2$", fontsize=20)
plt.ylabel(r"$x_3$  ", fontsize=20, rotation=0)
             xy=(XK[3, 0], XK[3, 1]),
             xytext=(0.65, 0.50),
             arrowprops=dict(facecolor='black', shrink=0.1),
plt.plot([-0.1, 1.1], [0.57, -0.1], "r--", linewidth=3)
plt.axis([-0.1, 1.1, -0.1, 1.1])


5.2.3 Gaussian RBF 커널

. 그러나 훈련 세트가 크면 유사도 특성 방법은 계산이 많이 필요함. 비효율적!

. Gaussian RBF 커널 : $K(a,b) = \exp(-\gamma||a-b||^2)$

.. $\gamma$ : 작을수록 결정 경계가 더 부드러워짐. 과대(과소)적합이라면 $\gamma$의 값을 작게(크게) $\Rightarrow$ 규제 모수 (C) 처럼 행동!

. 어떤 커널을 사용해야 하는가?

.. 훈련 세트가 크거나 특성이 많으면 "linear" 커널로 시작. 흔련 세트이 크지 않으면 "Gaussiam RBF" 커널 선택

.. linear 커널 : $K(a,b)=a'b$

In [31]:
gamma1, gamma2 = 0.1, 5
C1, C2 = 0.001, 1000
hyperparams = (gamma1, C1), (gamma1, C2), (gamma2, C1), (gamma2, C2)

svm_clfs = []
for gamma, C in hyperparams:
    rbf_kernel_svm_clf = Pipeline([
            ("scaler", StandardScaler()),
            ("svm_clf", SVC(kernel="rbf", gamma=gamma, C=C))
    rbf_kernel_svm_clf.fit(X, y)


for i, svm_clf in enumerate(svm_clfs):
    plt.subplot(221 + i)
    plot_predictions(svm_clf, [-1.5, 2.5, -1, 1.5])
    plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])
    gamma, C = hyperparams[i]
    plt.title(r"$\gamma = {}, C = {}$".format(gamma, C), fontsize=16)


5.2.4 계산 복잡도

. SVM 분류를 위한 사이킷런 파이썬 클래스


5.3 SVM 회귀

. 제한된 마진 오류(즉, 도로 밖의 샘플) 안에서 도로 안에 가능한 많은 샘플이 들어오도록 학습

. 도로의 폭은 하이퍼파라미터 $\epsilon$으로 조절

. 마진 안에서는 훈련 샘플이 추가 되어도 모델의 예측이 영향을 받지 않음 ($\epsilon$-insensitive)

. sklearn.svm.LinearSVR : 선형 서포트 벡터 회귀


. sklearn.svm.SVR : $\epsilon$-서포트 벡터 회귀¶


In [32]:
m = 50
X = 2 * np.random.rand(m, 1)
y = (4 + 3 * X + np.random.randn(m, 1)).ravel()

. numpy.argwhere : 0이 아닌 원소를 가진 array 인덱스


In [33]:
svm_reg1 = LinearSVR(epsilon=1.5, random_state=42)
svm_reg1.fit(X, y)
LinearSVR(C=1.0, dual=True, epsilon=1.5, fit_intercept=True,
     intercept_scaling=1.0, loss='epsilon_insensitive', max_iter=1000,
     random_state=42, tol=0.0001, verbose=0)
In [34]:
svm_reg2 = LinearSVR(epsilon=0.5, random_state=42)
svm_reg2.fit(X, y)
LinearSVR(C=1.0, dual=True, epsilon=0.5, fit_intercept=True,
     intercept_scaling=1.0, loss='epsilon_insensitive', max_iter=1000,
     random_state=42, tol=0.0001, verbose=0)
In [35]:
def find_support_vectors(svm_reg, X, y):
    y_pred = svm_reg.predict(X)
    off_margin = (np.abs(y - y_pred) >= svm_reg.epsilon)
    return np.argwhere(off_margin)

svm_reg1.support_ = find_support_vectors(svm_reg1, X, y)
svm_reg2.support_ = find_support_vectors(svm_reg2, X, y)

In [36]:
eps_x1 = 1
eps_y_pred = svm_reg1.predict([[eps_x1]])
In [37]:
def plot_svm_regression(svm_reg, X, y, axes):
    x1s = np.linspace(axes[0], axes[1], 100).reshape(100, 1)
    y_pred = svm_reg.predict(x1s)
    plt.plot(x1s, y_pred, "k-", linewidth=2, label=r"$\hat{y}$")
    plt.plot(x1s, y_pred + svm_reg.epsilon, "k--")
    plt.plot(x1s, y_pred - svm_reg.epsilon, "k--")
    plt.scatter(X[svm_reg.support_], y[svm_reg.support_], s=180, facecolors='#FFAAAA')
    plt.plot(X, y, "bo")
    plt.xlabel(r"$x_1$", fontsize=18)
    plt.legend(loc="upper left", fontsize=18)


plot_svm_regression(svm_reg1, X, y, [0, 2, 3, 11])
plt.title(r"$\epsilon = {}$".format(svm_reg1.epsilon), fontsize=18)
plt.ylabel(r"$y$", fontsize=18, rotation=0)
#plt.plot([eps_x1, eps_x1], [eps_y_pred, eps_y_pred - svm_reg1.epsilon], "k-", linewidth=2)
        '', xy=(eps_x1, eps_y_pred), xycoords='data',
        xytext=(eps_x1, eps_y_pred - svm_reg1.epsilon),
        textcoords='data', arrowprops={'arrowstyle': '<->', 'linewidth': 1.5}
plt.text(0.91, 5.6, r"$\epsilon$", fontsize=20)

plot_svm_regression(svm_reg2, X, y, [0, 2, 3, 11])
plt.title(r"$\epsilon = {}$".format(svm_reg2.epsilon), fontsize=18)

In [38]:
m = 100
X = 2 * np.random.rand(m, 1) - 1
y = (0.2 + 0.1 * X + 0.5 * X**2 + np.random.randn(m, 1)/10).ravel()
In [39]:
svm_poly_reg1 = SVR(kernel="poly", degree=2, C=100, epsilon=0.1)
svm_poly_reg1.fit(X, y)
SVR(C=100, cache_size=200, coef0=0.0, degree=2, epsilon=0.1,
  gamma='auto_deprecated', kernel='poly', max_iter=-1, shrinking=True,
  tol=0.001, verbose=False)
In [40]:
svm_poly_reg2 = SVR(kernel="poly", degree=2, C=0.01, epsilon=0.1)
svm_poly_reg2.fit(X, y)
SVR(C=0.01, cache_size=200, coef0=0.0, degree=2, epsilon=0.1,
  gamma='auto_deprecated', kernel='poly', max_iter=-1, shrinking=True,
  tol=0.001, verbose=False)
In [41]:

plot_svm_regression(svm_poly_reg1, X, y, [-1, 1, 0, 1])
plt.title(r"$degree={}, C={}, \epsilon = {}$".format(svm_poly_reg1.degree, svm_poly_reg1.C, svm_poly_reg1.epsilon), fontsize=18)
plt.ylabel(r"$y$", fontsize=18, rotation=0)

plot_svm_regression(svm_poly_reg2, X, y, [-1, 1, 0, 1])
plt.title(r"$degree={}, C={}, \epsilon = {}$".format(svm_poly_reg2.degree, svm_poly_reg2.C, svm_poly_reg2.epsilon), fontsize=18)


5.4.6 온라인 SVM

. 경사 하강법 사용

. 비용 함수 : $J(w,b)=\frac{1}{2}w'w+C\sum_i \max(0,1-t^{(i)}(w'x^{(i)}+b))$

.. hinge loss 사용

. 경사 벡터 :

.. $\frac{\partial J(w,b)}{\partial w}=w-C\sum_i I(0\le 1-t^{(i)}(w'x^{(i)}+b))t^{(i)}x^{(i)}$

.. $\frac{\partial J(w,b)}{\partial b}=-C\sum_i I(0\le 1-t^{(i)}(w'x^{(i)}+b))t^{(i)}$

. SGDClassifier에서 loss 매개 변수를 기본값인 "hinge"로 지정

In [42]:
t = np.linspace(-2, 4, 200)
h = np.where(1 - t < 0, 0, 1 - t)  # max(0, 1-t)


plt.plot(t, h, "b-", linewidth=2, label="$max(0, 1 - t)$")
plt.grid(True, which='both')
plt.axhline(y=0, color='k')
plt.axvline(x=0, color='k')
plt.yticks(np.arange(-1, 2.5, 1))
plt.xlabel("$t$", fontsize=16)
plt.axis([-2, 4, -1, 2.5])
plt.legend(loc="upper right", fontsize=16)


The End of Chapter 5