SummEval: Re-evaluating Summarization Evaluation

Study/자연어처리

SummEval: Re-evaluating Summarization Evaluation

Jiwon Kim

|2024. 8. 10. 12:09

리뷰논문

https://arxiv.org/pdf/2007.12626

github

https://github.com/Yale-LILY/SummEval/tree/master

Text Summarization

- Source Text가 주어졌을 때 요약문 : Target Text를 도출하는 task

- source text는 single-document 이거나 multi-document일 수 있다.

- target text는 짧고 간결해야 하며 source text의 중요한 정보를 담고 있어야 한다.

- 추출 요약 vs 생성요약

- 추출 요약 : Extractive Summarization

- 문서에서 중요한 부분을 선택해서 요약문으로 선정

- 비교적 task가 쉽지만 source text 내에 존재하는 문장만 사용해야 하므로 제한적임

- 생성 요약 : Abstractive Summarization

- 새로운 문장을 생성하여 요약문을 작성

- 비교적 task가 어렵지만 사람이 직접 요약을 하는 것과 유사

Text Summarization Eval - Prior Studies

문서 요약 모델들이 주어진 문서를 요약하면, 이를 평가하는 방식에는 두 방식이 있음

(1) 자동평가 (Automatic Eval)

- 일반적으로 정답 문장(GT)과 모델이 도출한 요약문이 얼마나 겹치는지를 기준으로 평가

- ROUGE Score , METEOR 등

(2) 수동평가 (Human Eval)

- 자동 평가 기준이 의미를 제대로 잡아내지 못하는 경우가 많기 때문에,

- 사람이 직접 정답 문장과 모델이 도출한 요약문을 보고 요약문을 평가함
- AMT (:크라우드소싱) 및 전문가의 평가 반영

논문에서 지적한 위 평가 방식의 한계점

- ROUGE score의 경우 처음 제안 이후 꾸준히 다양한 단점이 제기됨
- 단점을 보완할 수 있는 다양한 평가 기준이 새롭게 등장했으나 여전히 ROUGE가 주로 사용되고 있음

- 수동평가의 경우, 논문마다 평가를 하는 방식과 절차에 차이가 있음

Text Summarization Eval - Paper Study

1. eval methods & summarization models 총 정리

- 14 automatic eval metrics + 4 human eval metrics + 23 recent summarization models

2. 모델의 결과물에 대해 평가 방식 적용 (데이터셋은 cnn/daily mail dataset으로 통일 학습)

3. 모델 요약문 및 평가 지표 모듈화

14 Automatic Eval Metrics

1. ROUGE

2. ROUGE-WE

3. s3

---------------------

4. BertScore

5. MoverScore

6. Sentence Mover's Similarity

7. SummaQA

----------------------

8. BLANC : a reference-less metric (정답 요약문 x) which measures the performance gains of a pre-trained language model given access to a document summary while carrying out language understanding tasks on the source document’s text

9. SUPERT : a reference-less metric (정답 요약문 x) , originally designed for multi-document summarization, which measures the semantic similarity of model outputs with pseudo-reference summaries (가짜 정답 요약문을 만들어 문장 유사도 평가) created by extracting salient sentences from the source documents, using soft token alignment techniques.

----------------------

10. BLEU

11. CHRF

12. METEOR

13. CIDEr

14. Data Statistics

4 Human Eval Metrics

척도 : 1~5

1. coherence

2. consistency

3. fluency

4. relevance

Summarization Models

2017-2019까지 발표된 23개 요약 모델 이용

CNN/Daily Mail dataset으로 학습된 요약 모델의 test set에 대한 inference 결과를 전달받아 평가함

- 추출요약 모델 7개 : STRASS(2019) 등

- 생성요약 모델 16개 : GPT2(2019), BART(2019), Pegasus(2019) 등

Metric Re-evaluation

Human Annotations

크라우드소싱 평가 결과와 전문가 평가 결과에 있어서 퀄리티 차이에 대한 우려, 같은 그룹이더라도 사람마다 평가의 편차가 클 수 있다는 우려사항을 반영하여 1. Krippendorff's alpha coefficient 를 계산함. kappa coefficient가 1에 가까울수록 평가자 간 이견이 없음을 의미함

2. metric에 대한 variance 계산 (특정 metric에 대하여 분산이 클수록 평가자의 주관의 영향을 많이 받음을 의미)

3. 각 집단 (crowdsourcing vs experts)의 평가 점수에 대한 pearson correlation 계산

Automatic Metrics

14 automatic metrics와 4 human metric (by experts)의 Kendall's tau rank correlations를 계산함

(1) automatic metric이 대체로 'coherence'와 낮은 상관관계 보임

- metric이 전체적인 구성이 아닌 일부분만 보고 판단하는 경향이 있음

(2) automatic metric이 대체로 'relevance'와 낮은 상관관계 보임

- 문서의 중요한 내용 이라는 것이 개개인의 주관성의 영향을 많이 받기 때문

(3) 'consistency'와 'fluency'는 비교적 높은 상관관계 보임

- 원 문서의 표현을 그대로 사용했기 때문일 수 있음

모델 별 수동평가 점수 : T5, BART, Pegasus와 같은 사전학습 기반 모델이 대부분의 metric에서 높은 성능을 보임

추출요약 모델은 coherence, relevance에서 낮은 점수를 보임

그런데 심지어 cnn/dailymail dataset에서 gt로 사용되고 있는 정답 요약문 조차도 수동평가에서 크게 좋은 평가를 받지 못함

참고자료

https://www.youtube.com/watch?v=T33rwuEssF0

'Study > 자연어처리' 카테고리의 다른 글

Chain of Thought Prompting (0)	2024.05.27
Language Models are Few-Shot Learners (0)	2024.05.20
[cs224n] Lecture 9 - Pretraining (2) (1)	2024.05.04
[cs224n] Lecture 9 - Pretraining (1) (0)	2024.04.22
Attention & Transformer (2) (0)	2024.04.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

SummEval: Re-evaluating Summarization Evaluation

'Study > 자연어처리' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역