#유방암 데이터 세트 준비
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print(cancer.data.shape, cancer.target.shape)

(569, 30) (569,)

cancer.data[:3]
cancer.target[:100]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0])

import numpy as np
import matplotlib.pyplot as plt
plt.boxplot(cancer.data)
plt.show()

cancer.feature_names[[3,13,23]]

array(['mean area', 'area error', 'worst area'], dtype='<U23')

np.unique(cancer.target, return_counts=True)
#cancer.target에 있는 수를 카운트해서 반환

(array([0, 1]), array([212, 357], dtype=int64))

# 훈련 데이터 저장
x = cancer.data
y = cancer.target

# 하나의 데이터 셋에서 훈련데이터와 테스트데이터로 나눈다.
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, stratify=y, test_size=0.2, random_state=42)

np.unique(y_train, return_counts=True)

(array([0, 1]), array([170, 285], dtype=int64))

class SingleLayer():
    def __init__(self):
        self.w = None       # 데이터 특성이 많기 때문에 가중치를 미리 초기화하지 않음.
        self.b = None
        self.losses = []
        
    def forpass(self, x):
        z = np.sum(x * self.w) + self.b   # 직선의 방정식 즉 hypothesis #np.sum을 사용하면 1차원 넘파이배열에서 배열의 요소끼리 사칙연산을 할 수 있음.
        return z
    
    def backprop(self, x, err):
        w_grad = x * err                   #가중치에 대한 그레이디언트 계산
        b_grad = 1 * err                   #절편에 대한 그레이디언트 계산
        return w_grad, b_grad
    
    def fit(self, x, y, epochs=100):
        self.w = np.ones(x.shape[1])       #가중치를 초기화하는데 x의 shape과 똑같고 1채움 즉 각 행값 
        self.b = 0
        for i in range(epochs):
            loss = 0
            indexes = np.random.permutation(np.arange(len(x))) #인덱스를 섞음. 데이터가 섞여서 훈련될수록 손실 함수의 값이 효율적으로 줄어듬
            for i in indexes:
                z = self.forpass(x[i])                     #정방향 계산
                a = self.activation(z)                     #activation함수 적용
                err = -(y[i] - a)                          #실제값과 예측값 오차계산
                w_grad, b_grad = self.backprop(x[i], err)  #역방향 계산
                self.w -= w_grad                           #업데이트
                self.b -= b_grad
                a = np.clip(a, 1e-10, 1-1e-10)             #인잔힌 로그 계산을 위해 클리핑 한 후 손실을 누적
        
                loss += -(y[i] * np.log(a) + (1-y[i]) * np.log(1-a))  #에포크마다 평균 손실을 저장
            self.losses.append(loss/len(y))
                
    def activation(self, z):
        a = 1 / (1 + np.exp(-z))
        return a
    
    def predict(self, x):
        z = [self.forpass(x_i) for x_i in x]              #hypothesis를 구해 반환
        return np.array(z) > 0                            #스텝 함수 적용
    
    def score(self, x, y):
        return np.mean(self.predict(x)==y)

layer = SingleLayer()
layer.fit(x_train,y_train)
layer.score(x_test,y_test)

C:\Users\USER\Anaconda3\lib\site-packages\ipykernel_launcher.py:35: RuntimeWarning: overflow encountered in exp

0.9298245614035088

plt.plot(layer.losses)
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()

[딥러닝 기초] 다층 신경망 (MLPClassifier) (0)	2020.05.08
[딥러닝 기초] k-fold 교차 검증(cross validation) (0)	2020.05.02
[딥러닝 기초] Neural Network (L1, L2 규제) (0)	2020.04.25
[딥러닝 기초] Neural Network (훈련 노하우) (0)	2020.04.24
[jupyter notebook] Neural Network (use mnist dataset) (0)	2020.04.18

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

EI_HJ

[딥러닝 기초] Neural Network (use cancer dataset/classfication)

'빅데이터 | 머신러닝 | 딥러닝 > 딥러닝' 카테고리의 다른 글

'빅데이터 | 머신러닝 | 딥러닝/딥러닝'의 다른글

티스토리툴바

[딥러닝 기초] Neural Network (use cancer dataset/classfication)

'빅데이터 | 머신러닝 | 딥러닝 > 딥러닝' 카테고리의 다른 글

'빅데이터 | 머신러닝 | 딥러닝/딥러닝'의 다른글

관련글

티스토리툴바