리뷰논문
https://arxiv.org/pdf/2007.12626
github
https://github.com/Yale-LILY/SummEval/tree/master
Text Summarization
- Source Text가 주어졌을 때 요약문 : Target Text를 도출하는 task
- source text는 single-document 이거나 multi-document일 수 있다.
- target text는 짧고 간결해야 하며 source text의 중요한 정보를 담고 있어야 한다.
- 추출 요약 vs 생성요약
- 추출 요약 : Extractive Summarization
- 문서에서 중요한 부분을 선택해서 요약문으로 선정
- 비교적 task가 쉽지만 source text 내에 존재하는 문장만 사용해야 하므로 제한적임
- 생성 요약 : Abstractive Summarization
- 새로운 문장을 생성하여 요약문을 작성
- 비교적 task가 어렵지만 사람이 직접 요약을 하는 것과 유사
Text Summarization Eval - Prior Studies
문서 요약 모델들이 주어진 문서를 요약하면, 이를 평가하는 방식에는 두 방식이 있음
(1) 자동평가 (Automatic Eval)
- 일반적으로 정답 문장(GT)과 모델이 도출한 요약문이 얼마나 겹치는지를 기준으로 평가
- ROUGE Score , METEOR 등
(2) 수동평가 (Human Eval)
- 자동 평가 기준이 의미를 제대로 잡아내지 못하는 경우가 많기 때문에,
- 사람이 직접 정답 문장과 모델이 도출한 요약문을 보고 요약문을 평가함
- AMT (:크라우드소싱) 및 전문가의 평가 반영
논문에서 지적한 위 평가 방식의 한계점
- ROUGE score의 경우 처음 제안 이후 꾸준히 다양한 단점이 제기됨
- 단점을 보완할 수 있는 다양한 평가 기준이 새롭게 등장했으나 여전히 ROUGE가 주로 사용되고 있음
- 수동평가의 경우, 논문마다 평가를 하는 방식과 절차에 차이가 있음
Text Summarization Eval - Paper Study
1. eval methods & summarization models 총 정리
- 14 automatic eval metrics + 4 human eval metrics + 23 recent summarization models
2. 모델의 결과물에 대해 평가 방식 적용 (데이터셋은 cnn/daily mail dataset으로 통일 학습)
3. 모델 요약문 및 평가 지표 모듈화
14 Automatic Eval Metrics
1. ROUGE
2. ROUGE-WE
3. s3
---------------------
4. BertScore
5. MoverScore
6. Sentence Mover's Similarity
7. SummaQA
----------------------
8. BLANC : a reference-less metric (정답 요약문 x) which measures the performance gains of a pre-trained language model given access to a document summary while carrying out language understanding tasks on the source document’s text
9. SUPERT : a reference-less metric (정답 요약문 x) , originally designed for multi-document summarization, which measures the semantic similarity of model outputs with pseudo-reference summaries (가짜 정답 요약문을 만들어 문장 유사도 평가) created by extracting salient sentences from the source documents, using soft token alignment techniques.
----------------------
10. BLEU
11. CHRF
12. METEOR
13. CIDEr
14. Data Statistics
4 Human Eval Metrics
척도 : 1~5
1. coherence
2. consistency
3. fluency
4. relevance
Summarization Models
2017-2019까지 발표된 23개 요약 모델 이용
CNN/Daily Mail dataset으로 학습된 요약 모델의 test set에 대한 inference 결과를 전달받아 평가함
- 추출요약 모델 7개 : STRASS(2019) 등
- 생성요약 모델 16개 : GPT2(2019), BART(2019), Pegasus(2019) 등
Metric Re-evaluation
Human Annotations
크라우드소싱 평가 결과와 전문가 평가 결과에 있어서 퀄리티 차이에 대한 우려, 같은 그룹이더라도 사람마다 평가의 편차가 클 수 있다는 우려사항을 반영하여 1. Krippendorff's alpha coefficient 를 계산함. kappa coefficient가 1에 가까울수록 평가자 간 이견이 없음을 의미함
2. metric에 대한 variance 계산 (특정 metric에 대하여 분산이 클수록 평가자의 주관의 영향을 많이 받음을 의미)
3. 각 집단 (crowdsourcing vs experts)의 평가 점수에 대한 pearson correlation 계산
Automatic Metrics
14 automatic metrics와 4 human metric (by experts)의 Kendall's tau rank correlations를 계산함
(1) automatic metric이 대체로 'coherence'와 낮은 상관관계 보임
- metric이 전체적인 구성이 아닌 일부분만 보고 판단하는 경향이 있음
(2) automatic metric이 대체로 'relevance'와 낮은 상관관계 보임
- 문서의 중요한 내용 이라는 것이 개개인의 주관성의 영향을 많이 받기 때문
(3) 'consistency'와 'fluency'는 비교적 높은 상관관계 보임
- 원 문서의 표현을 그대로 사용했기 때문일 수 있음
모델 별 수동평가 점수 : T5, BART, Pegasus와 같은 사전학습 기반 모델이 대부분의 metric에서 높은 성능을 보임
추출요약 모델은 coherence, relevance에서 낮은 점수를 보임
그런데 심지어 cnn/dailymail dataset에서 gt로 사용되고 있는 정답 요약문 조차도 수동평가에서 크게 좋은 평가를 받지 못함
참고자료
https://www.youtube.com/watch?v=T33rwuEssF0
'Study > 자연어처리' 카테고리의 다른 글
Chain of Thought Prompting (0) | 2024.05.27 |
---|---|
Language Models are Few-Shot Learners (0) | 2024.05.20 |
[cs224n] Lecture 9 - Pretraining (2) (0) | 2024.05.04 |
[cs224n] Lecture 9 - Pretraining (1) (0) | 2024.04.22 |
Attention & Transformer (2) (0) | 2024.04.10 |