리뷰논문

https://arxiv.org/pdf/2007.12626

github

https://github.com/Yale-LILY/SummEval/tree/master

 

Text Summarization

 

- Source Text가 주어졌을 때 요약문 : Target Text를 도출하는 task

    - source text는 single-document 이거나 multi-document일 수 있다. 

    - target text는 짧고 간결해야 하며 source text의 중요한 정보를 담고 있어야 한다.

 

- 추출 요약 vs 생성요약 

    - 추출 요약 : Extractive Summarization  

        - 문서에서 중요한 부분을 선택해서 요약문으로 선정 

        - 비교적 task가 쉽지만 source text 내에 존재하는 문장만 사용해야 하므로 제한적임

   -  생성 요약 : Abstractive Summarization

        - 새로운 문장을 생성하여 요약문을 작성

        - 비교적 task가 어렵지만 사람이 직접 요약을 하는 것과 유사

 

 

 

Text Summarization Eval - Prior Studies

 

문서 요약 모델들이 주어진 문서를 요약하면, 이를 평가하는 방식에는 두 방식이 있음

 

(1) 자동평가 (Automatic Eval)

   - 일반적으로 정답 문장(GT)과 모델이 도출한 요약문이 얼마나 겹치는지를 기준으로 평가

   - ROUGE Score , METEOR 등

 

(2) 수동평가 (Human Eval)

   - 자동 평가 기준이 의미를 제대로 잡아내지 못하는 경우가 많기 때문에, 

   - 사람이 직접 정답 문장과 모델이 도출한 요약문을 보고 요약문을 평가함
   - AMT (:크라우드소싱) 및 전문가의 평가 반영

 

 

논문에서 지적한 위 평가 방식의 한계점 

-  ROUGE score의 경우 처음 제안 이후 꾸준히 다양한 단점이 제기됨
- 단점을 보완할 수 있는 다양한 평가 기준이 새롭게 등장했으나 여전히 ROUGE가 주로 사용되고 있음

- 수동평가의 경우, 논문마다 평가를 하는 방식과 절차에 차이가 있음

 

 

Text Summarization Eval - Paper Study

 

1. eval methods & summarization models 총 정리 

  - 14 automatic eval metrics + 4 human eval metrics + 23 recent summarization models

 

2. 모델의 결과물에 대해 평가 방식 적용 (데이터셋은 cnn/daily mail dataset으로 통일 학습)

 

3. 모델 요약문 및 평가 지표 모듈화

 

 

 

14 Automatic Eval Metrics

 

1. ROUGE

2. ROUGE-WE

3. s3

---------------------

4. BertScore

5. MoverScore

6. Sentence Mover's Similarity

7. SummaQA

----------------------

8. BLANC : a reference-less metric (정답 요약문 x)  which measures the performance gains of a pre-trained language model given access to a document summary while carrying out language understanding tasks on the source document’s text

9. SUPERT : a reference-less metric (정답 요약문 x) , originally designed for multi-document summarization, which measures the semantic similarity of model outputs with pseudo-reference summaries (가짜 정답 요약문을 만들어 문장 유사도 평가)  created by extracting salient sentences from the source documents, using soft token alignment techniques.

----------------------

10. BLEU 

11. CHRF

12. METEOR

13. CIDEr

14. Data Statistics

 

 

 

4 Human Eval Metrics

 

척도 : 1~5

1. coherence 

2. consistency

3. fluency

4. relevance

 

 

Summarization Models

 

2017-2019까지 발표된 23개 요약 모델 이용

CNN/Daily Mail dataset으로 학습된 요약 모델의 test set에 대한 inference 결과를 전달받아 평가함

- 추출요약 모델 7개 : STRASS(2019) 등

- 생성요약 모델 16개 : GPT2(2019), BART(2019), Pegasus(2019) 등

 

 


Metric Re-evaluation 

 

Human Annotations

 

크라우드소싱 평가 결과와 전문가 평가 결과에 있어서 퀄리티 차이에 대한 우려, 같은 그룹이더라도 사람마다 평가의 편차가 클 수 있다는 우려사항을 반영하여 1. Krippendorff's alpha coefficient 를 계산함. kappa coefficient가 1에 가까울수록 평가자 간 이견이 없음을 의미함 

2. metric에 대한 variance 계산 (특정 metric에 대하여 분산이 클수록 평가자의 주관의 영향을 많이 받음을 의미)

3. 각 집단 (crowdsourcing vs experts)의 평가 점수에 대한 pearson correlation 계산 

 

 

Automatic Metrics

 

14 automatic metrics와 4 human metric (by experts)의 Kendall's tau rank correlations를 계산함

(1) automatic metric이 대체로 'coherence'와 낮은 상관관계 보임 

    - metric이 전체적인 구성이 아닌 일부분만 보고 판단하는 경향이 있음

(2) automatic metric이 대체로 'relevance'와 낮은 상관관계 보임 

    - 문서의 중요한 내용 이라는 것이 개개인의 주관성의 영향을 많이 받기 때문

(3) 'consistency'와 'fluency'는 비교적 높은 상관관계 보임

    - 원 문서의 표현을 그대로 사용했기 때문일 수 있음

 

 

모델 별 수동평가 점수 : T5, BART, Pegasus와 같은 사전학습 기반 모델이 대부분의 metric에서 높은 성능을 보임

추출요약 모델은 coherence, relevance에서 낮은 점수를 보임

 

그런데 심지어 cnn/dailymail dataset에서 gt로 사용되고 있는 정답 요약문 조차도 수동평가에서 크게 좋은 평가를 받지 못함 


 

참고자료

https://www.youtube.com/watch?v=T33rwuEssF0

 

'Study > 자연어처리' 카테고리의 다른 글

Chain of Thought Prompting  (0) 2024.05.27
Language Models are Few-Shot Learners  (0) 2024.05.20
[cs224n] Lecture 9 - Pretraining (2)  (0) 2024.05.04
[cs224n] Lecture 9 - Pretraining (1)  (0) 2024.04.22
Attention & Transformer (2)  (0) 2024.04.10