1. 서 론
일반적으로 기계적 요약에는 추출(Extractive) 요약과 추 상(Abstractive) 요약 두 가지 접근법이 있다. 추출 요약은 원문에서 중요한 문장을 찾아 문장 단위로 조합하여 요약하 는 방법이며, 추상 요약은 의미상으로 원문과 일치하는 함축 적인 새로운 문장들을 생성하는 방법이다.
추출 요약 방법은 구조적으로 전체 내용을 반영하지 않는 다. 따라서 추출 방법은 뉴스나 사설 등과 같이 일부 문장에 이슈를 명확하게 나타내는 특정 단어와 내용이 포함된 문서 에서는 효과적인 요약이 가능하다. 그러나 소설, 영화 시나리 오, 동화와 같이 이야기의 흐름이 내용 전반에 있는 문서에는 적합하지 않다.
지도학습 기반의 추상 요약은 성능은 매우 뛰어나지만, 사 람에 의해 잘 작성된 요약 데이터세트가 필요하다. 추상 요약 학습에서 필요한 테이터세트는 다른 지도학습에서 사용하 는 레이블의 구축보다 더 많은 노력이 필요하다. 일반적으로 이러한 연구에 사용되는 데이터세트는 영어의 경우 CNN/Daily Mail, Gigaword, newsroom 또는 multi-news이 다. 다른 언어의 경우 중국어용 Gigaword 데이터세트와 일본어용 JAMUL[1]가 있다. 그러나 비주류 언어의 경우 데이 터세트 구축의 어려움으로 인해 요약 데이터세트가 없거나 현재 준비 중인 상태이다. 이러한 문제점을 극복하고자 요약 데이터세트가 필요 없는 비지도 학습 기반의 추상 요약 방법 에 관한 연구가 필요하다. 또한, 추상 요약의 기존 모델들이 대부분 뉴스 기사를 데이터세트로 사용함으로써, 뉴스 기사 의 특성이 모델에 반영되어 문서 시작 부분에 요약이 집중되 는 편향 문제가 발생한다.
본 논문에서는 이러한 문제를 해결하고자 두 개의 Discriminator가 있는 GAN을 통해 비지도 학습 기반의 추상 요약을 하며, 가이드 토큰의 추출과 주입을 통해 편향 문제를 개선하는 추출 요약과 추상 요약을 혼합한 하이브리드 방식 을 제안한다. 본 논문에서 제안한 방법은 비주류 언어(요약 데이터세트가 구축되어 있지 않은)와 소설, 영화 시나리오, 동화 등 흐름이 있는 문서에 효과적으로 적용할 수 있다.
다음 장에서는 GAN 기반 요약과 관련된 기존 연구를 살 펴보고 제안 모델의 전반적인 구성에 관해 설명한다. 실험에 서는 먼저 영어 CNN/Daily Mail 데이터세트를 통해 제안한 방법의 편향 문제 개선과 요약 성능을 검증한다. 이후 비주류 언어 중 하나인 한국어의 요약 실험으로 제안 모델의 성능을 입증한다.
2. 관련 연구
이 장에서는 추출 요약과 추상 요약의 관련 연구를 먼저 살펴보고, 이후 GAN[2]을 이용한 요약 관련 연구를 중점적 으로 살펴본다.
초기 요약에 대한 접근법은 학습된 Rule[3] 또는 휴리스틱 기법[4]에 따라 정보가 없는 단어를 삭제해 나가는 추출 방법 부터 시작하였다. 이후 TextRank[5], LexRank[6], LSA[7], KL-Sum[8] 등 통계적으로 문장의 중요도를 채점하는 방식으 로 발전되었고 최근에는 RNN을 기반한 encoder-decoder framework[9], Transformer[10,11]의 활용 등 지도, 비지 도 학습을 망라한 다양한 방법들이 활발히 연구되고 있다. 최초의 추상 요약은 구문의 변환 기법[12]으로 접근하였다. 추출 요약과 비교해 구현의 어려움으로 연구가 많지 않았다 가 최근의 Seq2Seq[13], Attention[14] 개념의 출현 이후 많은 연구[15-22]가 진행되고 있다. Seq2Seq 모델이 stateof-the-art의 결과를 보이고 있으나 대량의 요약 데이터세 트가 필요하다는 제약이 있다. 한국어의 경우[23-25] 등에 서 추출, 추상 요약 방법이 연구되고 있으나 표준 데이터세 트 없이 연구자에 의해 개별적으로 데이터를 수집하고 있다.
GAN을 이용한 요약의 기존 연구를 상세히 살펴보면, GAN 기반으로 비조건적(Non-conditional) 텍스트를 생성하는 연 구는 SeqGAN[26], RankGAN[27], LeakGAN[28] 등 다양 하다. 하지만 요약은 원본 문서를 입력 조건으로 갖는 조건적 (Conditional) 텍스트 생성을 의미한다. [29]는 임의의 요약 을 생성하는 Generator와 생성된 요약을 원본 텍스트와 비교 하는 Discriminator 구조를 제안하였다. 이 연구 결과 R1, R2, RL은 각각 39.92, 17.65 및 36.71 점수를 받았다. 제안 의 구성은 LSTM 기반 Generator로 많은 양의 요약 데이터세 트를 지도학습하고 GAN을 통해 약간의 성능만 개선하였다. [30]는 Seq2Seq Generator와 같은 구조의 Reconstructor 그리고 요약 문장을 사람이 읽기 가능한지 구별하는 Discriminator를 제안하였다. 이 연구에서는 사전 학습하지 않고 Adversarial REINFORCE 학습만 했을 때 R1은 28.11, R2 는 9.97, RL은 25.41의 점수를 받았다. 하지만, 이 연구에서 도 Generator는 문장의 구조에 대해 사전학습을 한다. [31] 는 GAN 기반으로 Hindi와 Malayalam의 요약을 제안하였 다. 비주류 언어인 Hindi와 Malayalam의 요약에 GAN을 사용한 이유는 역시 요약 데이터세트가 없었기 때문이다.
자연어의 이산적 특성 때문에 연속 공간을 기반으로 학습 하는 GAN의 경우, 텍스트 생성에 이론적 어려움이 존재한다. 즉, 자연어의 Generator는 일반적으로 argmax 또는 sampling 함수와 같이 미분할 수 없는 부분이 존재하기 때문이다. 이러한 문제를 극복하기 위해 Earth mover's distance [32] 방법이 제안되었고, [33] 연구에서는 MC search를 통해 각 학습 단계에서 대략적인 보상을 평가하는 방안을 제안하였다. [30]은 WGAN과 ‘Self-Critic Adversarial REINFORCE’ 방 법을 제안하였다.
추출과 추상의 하이브리드 개념을 갖는 기존 연구로는 [22]에서 포인터를 통해 원본 텍스트에서 주요 단어를 복사할 수 있는 Hybrid pointer-generator network를 제안하였 다. 이 연구 결과 R1, R2, RL에서 각각 39.53, 17.28, 36.38 점수를 얻었다. [31]은 KIGN (Key Information Guide Network) 이라는 Guiding generation model을 제안하였다. 이 연구는 [22]와 비슷한 성능 수준을 보였다. 상기 두 연구 는 본 논문에서 제안하는 하이브리드 관점에서 유사하지만, 해결하고자 하는 문제의 관점 즉, 비지도학습 및 편향 문제 s개선에는 주안점이 없다.
3. WGAN을 이용한 비지도학습 추상 요약 방법
3.1 개요
생성자는 요약의 골격이 되는 가이드 토큰을 추출하고 DNN(Deep Neural Network)을 통해 원본 문서의 토큰이 요약 문 장에 채택될 확률을 생성한다. 기존 연구의 생성자는 LSTM 또는 Seq2Seq를 사용하므로 텍스트를 생성하기 위해 어떤 형태든 사전학습이 필요하였으나, 본 논문에서는 단순한 DNN 을 사용하여 사전학습 없이 텍스트를 조합할 수 있도록 구성 한 것을 특징으로 한다. 텍스트 조합자는 확률이 높은 토큰을
Overall Architecture of Unsupervised Abstractive Summarization Method Using WGAN
선택하여 추상 요약 문장으로 변환한다. 유사성 식별자는 요 약된 문장이 원본 문장과 얼마나 유사한지를 구분한다. 문법 식별자는 생성된 문장이 문법적으로 적절한지 구분한다.
마지막으로 WGAN에 의해 학습이 수행된다. 기존 요약 연구에서 제안된 WGAN과 차별되는 독자적인 목적 함수를 구성하며 효과적인 학습을 위해 유사성 식별자와 문법 식별 자 사이의 경합을 조정하는 적응적 식별 인자(Adaptive discriminant factor)를 적용하는 것을 특징으로 한다. 다음 장에서는 각 구성 요소에 대해 자세히 설명한다.
3.2 생성자 - Generator (G)
생성자(G)는 가이드 토큰을 추출하는 추출 기능(Extracting function)과 원본 문서의 토큰이 요약 내용에 선택될 확률을 생성하는 생성 기능(Generating function) 두 가지 기 능으로 구성된다.
1) 추출 기능 - Extracting function
본 연구에서 목표하는 편향 문제 개선을 위해 요약의 골격 에 해당하는 가이드 토큰을 원본 문서에서 추출한다. 문서를 공백(space) 단위로 나눈 각 토큰의 i번째 토큰이 [TeX:] $$x_{i}$$ 인 경우, 문서는 다음 Equation (1)과 같이 나타낼 수 있다.
각 토큰에 대한 전체 문서의 유사성 확률 분포(Similarity Probability Distribution, SPD)는 다음 Equation (2)와 같다.
Equation (2)에서 T는 토큰의 개수이고 [TeX:] $$P_{s}$$는 유사성 확 률이다. 이러한 vector는 연속 신호로 간주 될 수 있으며 신 호의 꼭짓점(Peak)에 해당하는 토큰은 요약을 위한 가이드 토큰으로 간주할 수 있다. 그러나, 하나의 토큰만으로 문서의 유사성을 판단하면 문서의 내용을 제대로 반영하지 못한다. 이를 극복하기 위해 2개 이상의 연속 토큰을 사용하여 일종의 부분 스토리로서 필터(Filter)와 같은 역할을 하게 한다. 문서 의 내용을 제대로 반영하는 SPD를 얻기 위해 전체 문서를 각 필터로 합성곱(Convolution) 한다. 만약, n개의 연속 토큰을 필터로 사용하면 SPD를 다음 Equation (3)과 같이 나타낼 수 있다.
가이드 토큰 배열을 s라고 하면, s는 1에서 m까지 필터를 사용하여 다음 Equation (4)와 같이 나타낼 수 있다.
Equation (4)에서, peak은 [35]과 같은 peak detection algorithm을 의미한다.
2) 생성 기능 - Generating function
토큰이 요약 문장에 선택될 확률을 생성하는 생성 기능은 일반 DNN으로 구성한다. 원본 문서의 총 토큰 수에 해당하 는 임의 노이즈 및 가이드 토큰을 입력한다. 여기서 가이드 토큰은 바이어스로 적용된다. 출력은 원본 문서의 각 토큰이 요약 문장의 토큰으로 선택될 확률값이다.
임의 노이즈는 DNN의 여러 조밀한 계층을 통과하지만, 가이드 토큰은 뉴런의 출력 계층 직전에 추가된다. 그 결과 전체 출력은 가이드 토큰으로 바이어스된다. 또한 각 가이드 토큰 간에 필요한 토큰은 GAN 학습을 통해 원본 문서에서 선택된다. 이러한 생성 기능은 기존 연구에서 제안되지 않았 던 독특한 구조이다.
3.3 텍스트 조합자 - Text Sampler (S)
텍스트 조합자(S)는 생성자(G)의 출력을 입력으로 사용하 고 아래 조건에 따라 요약에 사용할 토큰을 선택한다.
Equation (5)에서 [TeX:] $$g_{i}$$ 는 생성자(G)의 출력 vector의 각 원 소이다. [TeX:] $$\alpha \frac{\mathrm{v}}{3}$$ 는 목적하는 요약의 비율에 따라 상위로 순위 되는 [TeX:] $$g_{i}$$ 의 최솟값으로 설정된다. 예를 들어 10개의 토큰에 대하 여, 50%의 요약을 목표한다면, 상위 5개 토큰의 확률값에 대 한 최솟값에 해당한다. 이러한 방법으로 요약의 비율을 조정할 수 있다. 마지막으로 요약 문장은 토큰의 배열 x에서 [TeX:] $$t_{j}^{\prime}$$ 번째 토큰을 추출하여 순서에 따라 조합하므로 요약 텍스트 를 생성한다.
3.4 유사성 식별자 - Similarity Discriminator [TeX:] $$\left(D_{s}\right)$$
유사성 식별자(Similarity discriminator, [TeX:] $$\left.D_{s}\right)$$ 는 생성된 요약 내용이 원본 문서와 얼마나 유사한지 정량적으로 측정 한다. [TeX:] $$D_{s}$$ 는 Sentence-BERT[36]를 통해 얻은 두 문장의 context vector에 대한 cosine-similarity 값이다.
유사성 식별자는 sentence-transformer python package를 활용하여 구현한다. 입력은 최대 128개의 토큰이 가능하 며 출력은 1,024차원의 vector(embedding)를 반환한다. 결 국, 전체 문서를 한 번에 벡터화하는 것은 불가능하다. 이 문 제의 해결을 위해, 문서를 문장으로 나누고 N개의 문장 각각 을 벡터화하여 (N, 1024)의 행렬을 만든다. 원본 문서와 비 교할 요약 문장을 n개의 문장으로 나누어 같은 방법으로 (n,1024)의 행렬을 구한다. cosine distance는 (n, N) 행렬을 얻기 위해 pair-wise 방식으로 계산된다. 이후, 각 행 최솟값 의 평균값을 전체 문서에 대한 유사도로 취한다.
3.5 문법 식별자 - Grammar discriminator [TeX:] $$\left(D_{g}\right)$$
문법 식별자(Grammar discriminator, [TeX:] $$\left.D_{g}\right)$$ 는 문장의 문법성을 평가한다. Transformer의 BertModel과 Binary classifier header로 구성한다. 일반 정상 문장과 정상 문장 의 토큰 순서를 임의 변경하여 구성한 문법적 비정상 문장 데이터세트를 학습하였고, 정상 Class의 softmax 출력값을 [TeX:] $$D_{g}$$의 값으로 취한다.
3.6 WGAN 학습
본 연구에서 사용하는 목적 함수는 WGAN을 적용하여 단순화한다. 학습의 효율성을 위해 적응적 식별 인자를 특징적 으로 제안한다.
1) 목적 함수의 단순화
GAN의 목적 함수 정의에 의하면 제안 방법의 전체 목적 함수는 다음 Equation (6)과 같이 표현될 수 있다.
Equation (6)에서 X는 원문 전체이다. 텍스트 조합자(S) 는 미분을 할 수 없는 함수로서 Equation (6)을 그대로 최적 화를 할 수 없다. 이러한 문제는 GAN을 통한 텍스트를 생성 하는 일반적인 방법에서 발생한다. 이를 극복하기 위해 본 논 문에서도 WGAN을 적용하지만 WGAN의 목적 함수는 DNN 생성자(G)에 적합하도록 기존의 연구[30]와는 다른 방식으로 구성한다.
각각의 식별자에 관한 결과를 [TeX:] $$D_{g}(S(G(z)))=w_{g}, D_{s}(X, S(G(z)))=w_{s}$$ 이라 하면 생성자의 loss는 Wasserstein distance를 적용하여 다음 Equation (7)과 같이 정의한다.
Equation (7)에서, n은 토큰의 개수이며, [TeX:] $$G(z)$$는 [TeX:] $$G(z)=\left(g \mid g_{0}, g_{1}, \ldots, g_{n}\right)$$ 일 때 아래 조건의 원소 [TeX:] $$g_{i}^{\prime}$$ 을 갖는다.
Equation (8)의 [TeX:] $$\alpha$$ 값은 Equation (5)의 [TeX:] $$\alpha$$ 값과 같다. 따 라서 전체 목적 함수는 다음 Equation (9)와 같다.
그러나 [TeX:] $$E_{x \sim P_{\operatorname{datat}(x)}}$$ 는 학습 과정에서 요약된 실데이터를 사 용할 수 없으므로 정의할 수 없다. 따라서 본 논문에서는 사 전 학습된 모델을 적용한 식별자를 사용하고 식별자는 학습 에 참여하지 않는다. 결과적으로 최종 목적 함수는 생성자에 대한 부분만 남아 다음 Equation (10)과 같이 단순화된다.
2) 적응적 식별 인자 - Adaptive discriminant factor
Equation (10)에서 [TeX:] $$w_{g}$$ 와 [TeX:] $$w_{s}$$ 는 학습 과정에서 서로 경쟁 관계이다. 즉, 학습에서 문법 식별자가 주도권을 가지면 문서 요약은 내용과의 유사성이 약해지고 문법만 증가하여 원문에 서 특정 문장만을 추출하게 된다. 반대로, 유사성 식별자가 주도권을 갖게 되면 문서 요약은 사람이 읽을 수 없는 핵심 토큰의 나열이 된다. 본 논문에서는 이러한 경쟁 관계의 학습 균형을 맞추기 위해 적응적 식별 인자(Adaptive discriminant factor)로서 [TeX:] $$\beta$$을 제안한다.
Equation (11)에서 [TeX:] $$\beta$$는 1을 초깃값으로 학습의 진행 단 위, 즉 epoch마다 그 값을 [TeX:] $$w_{s}>w_{g}$$ 이면 감소, [TeX:] $$w_{s}<w_{g}$$ 이면 증가하도록 조정하여 [TeX:] $$w_{g} \text { 와 } w_{s}$$ 의 경쟁 관계를 중재한다.
4. 실 험
4.1 개요 및 실험 환경
본 논문을 통해 해결하고자 하는 문제 2가지는 첫 번째, 편향 문제(Deflection problem)의 개선과 두 번째, 비주류 언어에 대한 비지도 학습 추상 요약이다. 비주류 언어 중 하 나인 한국어의 경우, 요약 데이터세트가 구축되어 있지 않아 (AI-HUB [https://aihub.or.kr/]의 한국어 요약 데이터세 트 제공 이전) 객관적인 성과를 측정할 수 없다. 따라서 본 논 문에서 제안한 방법의 객관적 타당성을 검증하기 위해 먼저 영어 데이터세트인 CNN/Daily Mail을 통해 실험을 진행한 다. 이후 4.5절에서는 한국어 샘플을 활용해 성능 유효성을 검증한다.
모든 실험은 Google colab's GPU 환경을 기반으로 한다. 유사성 식별자와 문법 식별자를 위한 사전학습 모델(pretrained model)은 hugging-face의 모델을 사용한다. 문법 식별자의 미세조정(fine-tuning)을 위해 CNN/Daily Mail 의 단일 문장 약 500K와 한국 소설 및 크롤링 뉴스의 단일 문장 약 410K를 사용한다.
4.2 WGAN 학습
학습은 500 Epoch로 수행하고, 가이드 토큰의 초기 바이 어스는 0(편향 없음) 또는 1.0이다. learning rate는 5e-5이 고 adam optimizer를 사용한다. 학습이 진행됨에 따라 적 응적 식별 인자 [TeX:] $$(\beta)$$ 가 균형을 조정하여 문법과 유사성의 loss 가 함께 감소한다. Fig. 2는 적응적 식별 인자 [TeX:] $$(\beta)$$ 가 없는 불균형 학습의 사례이고, Fig. 3은 적응적 식별 인자 [TeX:] $$(\beta)$$가 적용 된 학습 사례이다.
(Left) An Example of a Case Where Grammar Loss is Dominant Without an Adaptive Discriminant Factor [TeX:] $$\beta,$$ (Right) Vice Versa. X-axis: Epoch, Y-axis: Grammar Loss(Blue), Similarity Loss(Red)
(Right) An Example of a Case Where Grammar-Loss and Similarity-Loss are Balanced by Applying an Adaptive Discriminant Factor [TeX:] $$\beta,$$ the Two Losses are Lowered Together. (Left) X-axis: Token Order, Y-axis: Probability to be Selected into Summary.
4.3 실험 방법과 측정 지표
이전 연구들과의 비교를 위해 각각 추출 요약 2가지 방법, 추상 요약 2가지 방법을 기준으로 평가한다.
1) 비교 대상 추출 요약 방법
a) BERT+LexRank : LexRank[6] 에서 제안한 방법은 문장의 그래프 표현을 기반으로 고유 벡터의 중심성 개념을 통해 문장 중요도를 계산한다. 여기서 각 문장의 Context vector는 sentence-transformer의 출력값을 사용한다. 영 어의 사전학습 모델은 ‘stsb-bert-base’를 사용하고, 한국어 는 ‘xlm-r-large-en-ko-nli-ststb’를 사용한다.
b) BESM (bert-extractive-summarizer method) : BERT 기반으로 문장을 Embedding하고 K-means를 적용 하여 Centroid를 계산한다. 계산된 결과를 기준으로 중심에 가까운 문장을 순위별로 선택한다[37]. 사전학습 모델로 영어 는 ‘bert-base-uncased’를 사용하고, 한국어는 ‘monologg/ kobert’를 사용한다.
2) 비교 대상 추상 요약 방법
a) BART Transformer : [38]에서 제안한 BART 기반의 Transformer를 적용한다. 사전학습 모델로 ‘bart-largecnn’ 을 사용한다.
b) T5 Transformer : [39]에서 제안한 T5 기반의 Transformer를 적용한다. 사전학습 모델로 ‘t5-base’를 사용한다.
본 논문은 평가 지표로 ROUGE[40]를 사용하고 추가로 유사성(Similarity), 문법성(Grammar), 편향 지수(DI, Deflection Index)의 3가지 지표를 적용한다. 유사성(Similarity) 은 유사성 식별자(Ds)의 값 [TeX:] $$\left(w_{s}\right)$$ 이며, 문법성(Grammar) 은 문법 식별자(Dg)의 값[TeX:] $$\left(w_{g}\right)$$ 이다. DI의 산출 방법은 Equation (12)와 같다. 원본 문서를 서론(20%), 본론(50%), 결론(30%)의 세 부분으로 나누고 각 부분의 유사도 [TeX:] $$\left(w_{s}\right)$$ 에 대해 분산을 취한다. DI는 낮을수록 좋은 결과이다.
F1 ROUGE Scores and Deflection Index(Similarity Variance), Similarity, Grammar on CNN/Diary Mail Dataset
Results of Nemenyi Test on CNN/Diary Mail Dataset
Deflection Index(Similarity Variance), Similarity, Grammar on Korean Text Samples
Results of Nemenyi Test on Korean Text Samples
4.5 한국어 실험 결과
본 장에서는 제안 모델을 한국어에 적용하여 성능을 검증한다.
1) 한국어 신데렐라 동화
한국어 신데렐라 문서는 1,516자, 325개의 토큰으로 구 성되어 있다. Table 3은 이 문서에 대한 요약 결과를 보여준 다. 압축은 원문 대비 16.2%, 원문과의 유사성은 58.2%, 문 법성은 99.6%이다. 본 연구의 의도에 따라 새로운 문장으로 구성되었고, 원문의 전체적인 내용이 포함된다. 그러나, 문법적으로 부자연스러운 부분이 있어 쉽게 읽기에 어려움이 있다. 간혹 문법적으로 일치하더라도 원문의 내용이 잘못 조 합되는 경우가 있다. 이러한 단점은 향후 연구를 통해 개선 할 과제이다.
2) 한국어 소설 샘플
성능 측정의 객관성을 높이기 위해 100개의 샘플 문서를 테스트한다. 샘플 문서는 한국어로 된 여러 소설을 나누어 만든 다. 결과는 Table 2와 같다. Friedman test는 실험 결과가 통계적으로 유의미 하다는 것을 나타내고 있다. 샘플 문서는 소설의 일부분으로 구성되었기 때문에 뉴스 문서와 다르게 두괄식으로 구성되지 않는다. 하지만 기존 추출 방법의 경우 역시 도입 부문에 초점이 맞춰지는 편향 문제가 나타났다(Fig. 5 Nemenyi 사후 검증(a), ‘BERT+LexRank’의 경우 p-value 는 0.05 이상이지만 similarity가 전체적으로 제안 방법에 비 하여 유의미하게 낮음. ((b),(c),(d))). 이러한 모델은 동화나 소설에 적용하기에는 적합하지 않다. 본 논문에서 제안하는 방법은 학습을 위한 요약 데이터세트 없이 추상 요약이 가능 하고, 편향 문제가 개선되며(B) 원문과의 유사성도 증가한다.
An Example of a Summary Using the Proposed Method in Korean
5. 결 론
본 논문에서는 두 개의 Adaptive discriminator와 WGAN 을 사용한 비지도 학습의 추상 요약 방법을 제안함으로 비주 류 언어권에서도 추상 요약을 활용할 수 있는 가능성을 제시 하였다. 또한 가이드 토큰 개념을 적용하여 기존의 추출, 추 상 방법에서 나타나던 편향 문제를 개선하고 동화, 소설, 시 나리오 등 흐름이 있는 문서 요약에 적합함을 확인했다. 요약 결과는 매끄럽지 않은 구성이 존재하지만 비지도 학습 기반 추상 요약 방법의 한계로서 이후 Seq2Seq 모델과 강화학습 을 접목한다면 자연스러운 문장 생성이 가능할 것으로 기대 한다.
<부 록>
Results 1 of Various Summarization Methods for an Article of the CNN/Daily Mail Dataset
Results 2 of Various Summarization Methods for an Article of the CNN/Daily Mail Dataset