Matplotlib v3.3.3, https://matplotlib.org/

{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## ä¸€ã€RNNä»Žé›¶å¼€å§‹å®žçŽ°" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "%matplotlib inline\n", "import math\n", "import torch\n", "from torch import nn\n", "from torch.nn import functional as F\n", "from d2l import torch as d2l\n", "\n", "batch_size, num_steps = 32, 35\n", "train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### ç‹¬çƒç¼–ç " ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "tensor([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n", " 0, 0, 0, 0],\n", " [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n", " 0, 0, 0, 0]])" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "F.one_hot(torch.tensor([0, 2]), len(vocab)) #å°†[0, 2]å±•å¼€ä¸ºé•¿åº¦ä¸ºlen(vocab)å¤§å°çš„ç‹¬çƒå‘é‡" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### å°æ‰¹é‡æ•°æ®å½¢çŠ¶æ˜¯ (æ‰¹é‡å¤§å°, æ—¶é—´æ¥æ•°)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "torch.Size([5, 2, 28])" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X = torch.arange(10).reshape((2, 5)) # (batch_size, n_step)\n", "F.one_hot(X.T, 28).shape # (n_step, batch_size, n_features)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### åˆå§‹åŒ–å¾ªçŽ¯ç¥žç»ç½‘ç»œæ¨¡åž‹çš„æ¨¡åž‹å‚æ•°" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "def get_params(vocab_size, num_hiddens, device):\n", " num_inputs = num_outputs = vocab_size\n", " \n", " def normal(shape):\n", " return torch.randn(size=shape, device=device) * 0.01\n", " \n", " #éšè—å±‚å‚æ•°\n", " W_xh = normal((num_inputs, num_hiddens))\n", " W_hh = normal((num_hiddens, num_hiddens))\n", " b_h = torch.zeros(num_hiddens, device=device)\n", " #è¾“å‡ºå‚æ•°\n", " W_hq = normal((num_hiddens, num_outputs))\n", " b_q = torch.zeros(num_outputs, device=device)\n", " #é™„åŠ æ¢¯åº¦\n", " params = [W_xh, W_hh, b_h, W_hq, b_q]\n", " for param in params:\n", " param.requires_grad_(True)\n", " return params" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### init_rnn_stateå‡½æ•°ï¼šåœ¨åˆå§‹åŒ–æ—¶è¿”å›žéšè—çŠ¶æ€" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "def init_rnn_state(batch_size, num_hiddens, device): #è¿”å›žåˆå§‹éšå±‚çŠ¶æ€\n", " return (torch.zeros((batch_size, num_hiddens), device=device), )" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### rnnå‡½æ•°ï¼šå®šä¹‰**ä¸€ä¸ªæ—¶é—´æ¥å†…**è®¡ç®—éšè—çŠ¶æ€å’Œè¾“å‡º\n", "æ›´æ–°éšè—çŠ¶æ€: $$h_t = \\phi(W_{hh}h_{t-1}+W_{hx}x_{t-1}+b_{h})$$\n", "è¾“å‡º: $$o_{t}=\\phi(W_{ho}h_{t}+b_{o})$$" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "def rnn(inputs, state, params):\n", " W_xh, W_hh, b_h, W_hq, b_q = params\n", " H, = state\n", " outputs = [] #n_stepä¸ªå¤§å°ä¸º(batch_size, n_outputs)çš„torchå¼ é‡åˆ—è¡¨\n", " # inputs: (n_step, batch_size, n_features)\n", " for X in inputs: # æŒ‰æ—¶åºéåŽ†\n", " H = torch.tanh(torch.mm(X, W_xh) + torch.mm(H, W_hh) + b_h) # (batch_size, n_hiddens)\n", " Y = torch.mm(H, W_hq) + b_q # (batch_size, n_outputs)\n", " outputs.append(Y) \n", " return torch.cat(outputs, dim=0), (H,) #catåŽç»´æ•°(n_step * batch_size, n_outputs)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### åˆ›å»ºä¸€ä¸ªç±»æ¥åŒ…è£…è¿™äº›å‡½æ•°" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "class RNNModelScratch:\n", " \"\"\"ä»Žé›¶å¼€å§‹å®žçŽ°çš„å¾ªçŽ¯ç¥žç»ç½‘ç»œæ¨¡åž‹\"\"\"\n", " def __init__(self, vocab_size, num_hiddens, device, get_params,\n", " init_state, forward_fn):\n", " self.vocab_size, self.num_hiddens = vocab_size, num_hiddens\n", " self.params = get_params(vocab_size, num_hiddens, device) #èŽ·å¾—æ¨¡åž‹åˆå§‹å‚æ•°\n", " self.init_state, self.forward_fn = init_state, forward_fn #éšå±‚åˆå§‹å‡½æ•°, å‰é¦ˆå‡½æ•° \n", " #æ³¨æ„å‰é¦ˆå‡½æ•°å¯ä»¥æ¢æˆgru, lstmç‰\n", " \n", " def __call__(self, X, state):\n", " #è¾“å…¥X: (batch_size, n_step)\n", " #è½¬ç½®ï¼‹onehotåŽ X:(n_step, batch_size, n_features)\n", " X = F.one_hot(X.T, self.vocab_size).type(torch.float32)\n", " return self.forward_fn(X, state, self.params)\n", " \n", " def begin_state(self, batch_size, device):\n", " return self.init_state(batch_size, self.num_hiddens, device)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### æ£€æŸ¥è¾“å‡ºæ˜¯å¦å…·æœ‰æ£ç¡®çš„å½¢çŠ¶" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(torch.Size([10, 28]), 1, torch.Size([2, 512]))" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "num_hiddens = 512\n", "net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), \n", " get_params, init_rnn_state, rnn)\n", "# X: (2, 5) å¯¹åº”(batch_size, n_step)\n", "state = net.begin_state(X.shape[0], d2l.try_gpu())\n", "Y, new_state = net(X.to(d2l.try_gpu()), state)\n", "#Y: (batch_size * n_step, n_outputs) \n", "#new_stateä¸ä¸€ä¸ªtorchå¼ é‡(æœ€åŽä¸€ä¸ªæ—¶é—´æ¥çš„éšå±‚)\n", "#new_state[0].shape: (batch_size, n_hiddens)\n", "Y.shape, len(new_state), new_state[0].shape" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### é¦–å…ˆå®šä¹‰é¢„æµ‹å‡½æ•°æ¥ç”Ÿæˆprefixä¹‹åŽçš„æ–°å—ç¬¦" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'time travellerrrrrrrrrrr'" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "def predict_ch8(prefix, num_preds, net, vocab, device):\n", " \"\"\"åœ¨`prefix`åŽé¢ç”Ÿæˆæ–°å—ç¬¦\"\"\"\n", " #ç”Ÿæˆåˆå§‹éšè—çŠ¶æ€\n", " state = net.begin_state(batch_size=1, device=device) \n", " outputs = [vocab[prefix[0]]] #ç¬¬ä¸€ä¸ªwordçš„æ•´åž‹ä¸‹æ ‡\n", " #å°†æœ€è¿‘é¢„æµ‹çš„è¯åšæˆtensor, batch_size=1, n_step=1\n", " get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))\n", " for y in prefix[1:]: # é¢„çƒæ“ä½œ, ä¿å˜çœŸå€¼\n", " _, state = net(get_input(), state)\n", " outputs.append(vocab[y])\n", " for _ in range(num_preds): # é¢„æµ‹num_predsæ¥\n", " y, state = net(get_input(), state)\n", " outputs.append(int(y.argmax(dim=1).reshape(1)))\n", " return ''.join([vocab.idx_to_token[i] for i in outputs])\n", "\n", "predict_ch8('time traveller', 10, net, vocab, d2l.try_gpu())" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### æ¢¯åº¦è£å‰ª\n", "$$\\mathbf{g}\\leftarrow min(1, \\frac{\\theta}{\\parallel \\mathbf{g} \\parallel}) \\mathbf{g}$$" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [], "source": [ "def grad_clipping(net, theta):\n", " \"\"\"è£å‰ªæ¢¯åº¦\"\"\"\n", " if isinstance(net, nn.Module):#å¦‚æžœä½¿ç”¨nn.Moduleæ¥å®žçŽ°\n", " params = [p for p in net.parameters() if p.requires_grad]\n", " else:\n", " params = net.params\n", " norm = torch.sqrt(sum(torch.sum(\n", " (p.grad**2)) for p in params))\n", " if norm > theta:\n", " for param in params:\n", " param.grad[:] *= theta / norm" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### æŸ¥çœ‹train_iteræ•°æ®é›†" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "torch.Size([32, 35]) torch.Size([32, 35])\n", "tensor([[ 1, 3, 5, ..., 2, 1, 15],\n", " [ 4, 6, 11, ..., 5, 10, 8],\n", " [ 3, 1, 4, ..., 2, 8, 8],\n", " ...,\n", " [15, 7, 6, ..., 21, 14, 3],\n", " [10, 19, 8, ..., 14, 8, 3],\n", " [ 1, 13, 2, ..., 10, 1, 4]])\n", "tensor([[ 3, 5, 13, ..., 1, 15, 7],\n", " [ 6, 11, 20, ..., 10, 8, 1],\n", " [ 1, 4, 6, ..., 8, 8, 1],\n", " ...,\n", " [ 7, 6, 26, ..., 14, 3, 21],\n", " [19, 8, 3, ..., 8, 3, 1],\n", " [13, 2, 15, ..., 1, 4, 6]])\n", " time traveller for so it will be c\n", "time traveller for so it will be co\n", "andpassed in our glasses our chairs\n", "ndpassed in our glasses our chairs \n", "\n", "onvenient to speak of himwas expoun\n", "nvenient to speak of himwas expound\n", "8\n" ] } ], "source": [ "count = 0\n", "for X, Y in train_iter:\n", " if count == 0:#ç¬¬0ä¸ªbatch\n", " print(X.shape, Y.shape)\n", " print(X) # (batch_size(=32), n_step(=35))\n", " print(Y) # (batch_size, n_step)\n", " print(''.join([vocab.idx_to_token[i] for i in X[0]])) #æ‰“å°ç¬¬0ä¸ªæ ·æœ¬å¯¹åº”å¥å\n", " print(''.join([vocab.idx_to_token[i] for i in Y[0]])) #æ‰“å°ç¬¬0ä¸ªæ ·æœ¬çœŸå€¼\n", " print(''.join([vocab.idx_to_token[i] for i in X[1]])) #æ‰“å°ç¬¬1ä¸ªæ ·æœ¬å¯¹åº”å¥å\n", " print(''.join([vocab.idx_to_token[i] for i in Y[1]])) #æ‰“å°ç¬¬1ä¸ªæ ·æœ¬çœŸå€¼\n", " print()\n", " if count == 1:#ç¬¬1ä¸ªbatch, å†…å®¹å’Œç¬¬0ä¸ªbatchä¸Šä¸‹æ‰¿æŽ¥(æœ‰æ—¶åºå…³ç³»)\n", " print(''.join([vocab.idx_to_token[i] for i in X[0]]))\n", " print(''.join([vocab.idx_to_token[i] for i in Y[0]]))\n", " count += 1\n", "print(count) #æ‰“å°batchæ•°é‡=8" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### å®šä¹‰ä¸€ä¸ªå‡½æ•°åœ¨ä¸€ä¸ªè¿ä»£å‘¨æœŸå†…è®ç»ƒæ¨¡åž‹" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [], "source": [ "def train_epoch_ch8(net, train_iter, loss, updater, device,\n", " use_random_iter):\n", " \"\"\"è®ç»ƒæ¨¡åž‹ä¸€ä¸ªè¿ä»£å‘¨æœŸï¼ˆå®šä¹‰è§ç¬¬8ç« ï¼‰\"\"\"\n", " state, timer = None, d2l.Timer()\n", " metric = d2l.Accumulator(2)\n", " for X, Y in train_iter:\n", " if state is None or use_random_iter:#ä¸ºç¬¬ä¸€ä¸ªbatch æˆ–è€… batchä¹‹é—´æ—¶åºä¸Šä¸è¿žç»\n", " state = net.begin_state(batch_size=X.shape[0], device=device) #åˆå§‹åŒ–state\n", " else:\n", " if isinstance(net, nn.Module) and not isinstance(state, tuple):\n", " # stateå¯¹äºŽnn.GRUæ˜¯ä¸ªå¼ é‡\n", " state.detach_() # å¯¹ä¹‹å‰çš„éƒ¨åˆ†å–æ¶ˆæ¢¯åº¦åå‘ä¼ æ’è®¡ç®—\n", " else:\n", " # stateå¯¹äºŽnn.LSTMæˆ–è€…å¯¹äºŽæˆ‘ä»¬ä»Žé›¶å¼€å§‹å®žçŽ°çš„æ¨¡åž‹æ˜¯ä¸ªå…ƒç»„(å¼ é‡æž„æˆ)\n", " for s in state:\n", " s.detach_()\n", " y = Y.T.reshape(-1) #reshapeçœŸå€¼, å°†n_stepæ”¾åœ¨ç¬¬ä¸€ç»´ä¹‹åŽæ‹‰æˆä¸€ç»´å‘é‡\n", " X, y = X.to(device), y.to(device)\n", " y_hat,state = net(X, state)\n", " l = loss(y_hat, y.long()).mean()\n", " if isinstance(updater, torch.optim.Optimizer):#è°ƒç”¨torchä¼˜åŒ–å‡½æ•°å®žçŽ°\n", " updater.zero_grad()\n", " l.backward()\n", " grad_clipping(net, 1)\n", " updater.step()\n", " else:\n", " l.backward()\n", " grad_clipping(net, 1)\n", " updater(batch_size=1)\n", " metric.add(l * y.numel(), y.numel())\n", " return math.exp(metric[0] / metric[1]), metric[1] / timer.stop()" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### å¾ªçŽ¯ç¥žç»ç½‘ç»œæ¨¡åž‹çš„è®ç»ƒå‡½æ•°æ—¢æ”¯æŒä»Žé›¶å¼€å§‹å®žçŽ°ï¼Œä¹Ÿå¯ä»¥ä½¿ç”¨é«˜çº§APIå®žçŽ°" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [], "source": [ "def train_ch8(net, train_iter, vocab, lr, num_epochs, device, use_random_iter=False):\n", " \"\"\"è®ç»ƒæ¨¡åž‹ï¼ˆå®šä¹‰è§ç¬¬8ç« ï¼‰\"\"\"\n", " loss = nn.CrossEntropyLoss()\n", " animator = d2l.Animator(xlabel='epoch', ylabel='perplexity',\n", " legend=['train'], xlim=[10,num_epochs])\n", " #åˆå§‹åŒ–ä¼˜åŒ–å™¨\n", " if isinstance(net, nn.Module):\n", " updater = torch.optim.SGD(net.parameters(), lr)\n", " else:\n", " updater = lambda batch_size: d2l.sgd(net.params, lr, batch_size)\n", " predict = lambda prefix: predict_ch8(prefix, 50, net, vocab, device)\n", " #è®ç»ƒå’Œé¢„æµ‹\n", " for epoch in range(num_epochs):\n", " ppl, speed = train_epoch_ch8(\n", " net, train_iter, loss, updater, device, use_random_iter)\n", " if (epoch + 1) % 10 == 0:\n", " print(predict('time traveller'))\n", " animator.add(epoch+1, [ppl])\n", " print(f'å›°æƒ‘åº¦ {ppl:.1f}, {speed:.1f} è¯å…ƒ/ç§’ {str(device)}')\n", " print(predict('time traveller'))\n", " print(predict('traveller'))" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### è®ç»ƒå¾ªçŽ¯ç¥žç»ç½‘ç»œæ¨¡åž‹(æŒ‰åºè¿ä»£batch)" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "å›°æƒ‘åº¦ 1.0, 46320.2 è¯å…ƒ/ç§’ cuda:0\n", "time travelleryou can show black is white by argument said filby\n", "travelleryou can show black is white by argument said filby\n" ] }, { "data": { "image/svg+xml": [ "\r\n", "\r\n", "\r\n", "\r\n" ], "text/plain": [ "

" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "num_epochs, lr = 500, 1\n", "train_ch8(net, train_iter, vocab, lr, num_epochs, d2l.try_gpu())" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### è®ç»ƒå¾ªçŽ¯ç¥žç»ç½‘ç»œæ¨¡åž‹(éšæœºè¿ä»£batch)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "å›°æƒ‘åº¦ 1.3, 36524.6 è¯å…ƒ/ç§’ cuda:0\n", "time traveller held in his hand was a glitteringmetallic framewo\n", "travellerit s against reason said filbycan a cube that does\n" ] }, { "data": { "image/svg+xml": [ "\r\n", "\r\n", "\r\n", "\r\n" ], "text/plain": [ "

" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params,\n", " init_rnn_state, rnn)\n", "train_ch8(net, train_iter, vocab, lr, num_epochs, d2l.try_gpu(),\n", " use_random_iter=True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**ä»Žé›¶å¼€å§‹å®žçŽ°**ä¸Šè¿°å¾ªçŽ¯ç¥žç»ç½‘ç»œæ¨¡åž‹ï¼Œ è™½ç„¶æœ‰æŒ‡å¯¼æ„ä¹‰ï¼Œä½†æ˜¯å¹¶ä¸æ–¹ä¾¿ã€‚ åœ¨ä¸‹ä¸€èŠ‚ä¸ï¼Œæˆ‘ä»¬å°†å¦ä¹ å¦‚ä½•æ”¹è¿›å¾ªçŽ¯ç¥žç»ç½‘ç»œæ¨¡åž‹ã€‚" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## äºŒã€å¾ªçŽ¯ç¥žç»ç½‘ç»œçš„ç®€æ´å®žçŽ°" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "import torch\n", "from torch import nn\n", "from torch.nn import functional as F\n", "from d2l import torch as d2l\n", "\n", "batch_size, num_steps = 32, 35\n", "train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps) #åŠ è½½æ•°æ®" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### å®šä¹‰æ¨¡åž‹\n", "nn.RNN(input_size, hidden_size, num_layers=1, nonlinearity=tanh, bias=True, batch_first=False, dropout=0, bidirectional=False)" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [], "source": [ "num_hiddens = 256\n", "rnn_layer = nn.RNN(len(vocab), num_hiddens)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### ä½¿ç”¨å¼ é‡æ¥åˆå§‹åŒ–éšè—çŠ¶æ€" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "torch.Size([1, 32, 256])" ] }, "execution_count": 19, "metadata": {}, "output_type": "execute_result" } ], "source": [ "state = torch.zeros((1, batch_size, num_hiddens))\n", "state.shape #(D * num_layers(=1), batch_size, num_hiddens) " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### é€šè¿‡ä¸€ä¸ªéšè—çŠ¶æ€å’Œä¸€ä¸ªè¾“å…¥ï¼Œæˆ‘ä»¬å°±å¯ä»¥ç”¨æ›´æ–°åŽçš„éšè—çŠ¶æ€è®¡ç®—è¾“å‡º" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(torch.Size([35, 32, 256]), torch.Size([1, 32, 256]))" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X = torch.rand(size=(num_steps, batch_size, len(vocab)))# (n_step, batch_size, num_inputs)\n", "Y, state_new = rnn_layer(X, state)\n", "Y.shape, state_new.shape" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### å®šä¹‰RNNModelç±»ï¼šå®Œæ•´çš„å¾ªçŽ¯ç¥žç»ç½‘ç»œæ¨¡åž‹" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "class RNNModel(nn.Module):\n", " def __init__(self, rnn_layer, vocab_size, **kwargs):\n", " super(RNNModel, self).__init__(**kwargs)\n", " self.rnn = rnn_layer\n", " self.vocab_size = vocab_size\n", " self.num_hiddens = self.rnn.hidden_size\n", " if not self.rnn.bidirectional: #å¦‚æžœæ˜¯åŒå‘\n", " self.num_directions = 1\n", " self.linear = nn.Linear(self.num_hiddens, self.vocab_size) #çº¿æ€§å±‚ /è¾“å‡ºå±‚\n", " else:\n", " self.num_directions = 2\n", " self.linear = nn.Linear(self.num_hiddens, self.vocab_size)\n", " \n", " def forward(self, inputs, state):\n", " X = F.one_hot(inputs.T.long(), self.vocab_size)\n", " X = X.to(torch.float32)\n", " Y, state = self.rnn(X, state)\n", " output = self.linear(Y.reshape((-1, Y.shape[-1])))\n", " return output, state\n", " \n", " def begin_state(self, device, batch_size=1):\n", " if not isinstance(self.rnn, nn.LSTM):\n", " # nn.GRUä»¥å¼ é‡ä½œä¸ºéšçŠ¶æ€\n", " return torch.zeros((self.num_directions * self.rnn.num_layers, \n", " batch_size, self.num_hiddens),\n", " device = device)\n", " else:\n", " # nn.LSTMä»¥å…ƒç»„ä½œä¸ºéšçŠ¶æ€\n", " return (torch.zeros((\n", " self.num_directions * self.rnn.num_layers,\n", " batch_size, self.num_hiddens), device=device),\n", " torch.zeros((\n", " self.num_directions * self.rnn.num_layers,\n", " batch_size, self.num_hiddens), device=device))#(h_n, c_n)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### è®ç»ƒä¸Žé¢„æµ‹\n", "åœ¨è®ç»ƒæ¨¡åž‹ä¹‹å‰ï¼Œè®©æˆ‘ä»¬åŸºäºŽä¸€ä¸ªå…·æœ‰éšæœºæƒé‡çš„æ¨¡åž‹è¿›è¡Œé¢„æµ‹ã€‚" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'time travelleridandand'" ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" } ], "source": [ "device = d2l.try_gpu()\n", "net = RNNModel(rnn_layer, vocab_size=len(vocab))\n", "net = net.to(device)\n", "d2l.predict_ch8('time traveller', 10, net, vocab, device)" ] }, { "cell_type": "code", "execution_count": 23, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "perplexity 1.3, 152273.6 tokens/sec on cuda:0\n", "time traveller coud and inn weridit so mimens of the pramithtred\n", "traveller his fictses tor hime hal very is f enghas ow llow\n" ] }, { "data": { "image/svg+xml": [ "\r\n", "\r\n", "\r\n", "\r\n" ], "text/plain": [ "

" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "num_epochs, lr = 500, 1\n", "d2l.train_ch8(net, train_iter, vocab, lr, num_epochs, device)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "ä¸Žä¸Šä¸€èŠ‚ç›¸æ¯”ï¼Œç”±äºŽæ·±åº¦å¦ä¹ æ¡†æž¶çš„é«˜çº§APIå¯¹ä»£ç è¿›è¡Œäº†æ›´å¤šçš„ä¼˜åŒ–ï¼Œ è¯¥æ¨¡åž‹åœ¨è¾ƒçŸçš„æ—¶é—´å†…è¾¾åˆ°äº†è¾ƒä½Žçš„å›°æƒ‘åº¦ã€‚" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### æ€»ç»“\n", "- **æ·±åº¦å¦ä¹ æ¡†æž¶**çš„é«˜çº§APIæä¾›äº†å¾ªçŽ¯ç¥žç»ç½‘ç»œå±‚çš„å®žçŽ°ã€‚\n", "\n", "- é«˜çº§APIçš„å¾ªçŽ¯ç¥žç»ç½‘ç»œå±‚è¿”å›žä¸€ä¸ªè¾“å‡ºå’Œä¸€ä¸ªæ›´æ–°åŽçš„éšçŠ¶æ€ï¼Œæˆ‘ä»¬**è¿˜éœ€è¦**è®¡ç®—æ•´ä¸ªæ¨¡åž‹çš„**è¾“å‡ºå±‚**ã€‚\n", "\n", "- ç›¸æ¯”ä»Žé›¶å¼€å§‹å®žçŽ°çš„å¾ªçŽ¯ç¥žç»ç½‘ç»œï¼Œä½¿ç”¨**é«˜çº§API**å®žçŽ°å¯ä»¥**åŠ é€Ÿè®ç»ƒ**ã€‚" ] } ], "metadata": { "celltoolbar": "å¹»ç¯ç‰‡", "kernelspec": { "display_name": "deep2learn", "language": "python", "name": "deep2learn" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.7" } }, "nbformat": 4, "nbformat_minor": 4 }