mirror of https://github.com/epoko77-ai/im-not-ai.git synced 2026-06-21 13:18:09 +00:00

epoko77-ai f53b8bc032 feat(taxonomy): v2.0 — 한국 번역학계 8유형 + post-editese metric 트랙 (A-17 hold)

본진 분류 체계에 한국 번역학계 8대 번역투 유형(이근희·김정우·김도훈·곽은주·
김순영·박옥수·김혜영·이영옥)을 흡수하고, Toral 2019 post-editese 3축
(simplification·normalisation·interference)을 14개 신규 metric 트랙으로
도입. monolith·5인 정의는 무수정, 도구 호출 3회 캡(v1.6.1) 보존.

신규 패턴 4건 (본진 등재):
  - A-16 영어 대명사 직역 [S1, 김도훈 2009 + Cho et al. 2019 ACL GeBNLP]
  - A-18 관계대명사절 직역 — 좌향 수식 [S2, 박옥수 2018]
  - A-19 이중 조사 결합 [S2, 김정우 2007, 단순 ~의 명시 제외]
  - E-7 청자 경어법 일관성 손실 [S2 estimated, 김혜영 2019, dialogue 가드]

본진 hold 1건 (v2.0b 외부 회차 결과):
  - A-17 무정물·추상명사 '-들' 부착 — v1.6 5편 + 외부 위키 6편 양성 0건.
    학술 anchor·metric·scholarship.md §4 보존, 본진 등재만 보류. NMT 원본
    회차 후 v2.1에서 동일 ID로 부활. patternID 안정성 보존.

본진 보강 4건 (본문 무수정 + 처방 추가):
  - A-15 추상 주어 — 사역·인지·발화 동사 3축 처방
  - A-7 가지고 있다 — light verb construction(have/make/take/give) 일반화
  - F-4 과잉 접두·접미 — 영어 명사화 -tion/-ment/-ness/-ity 통합
  - E-2 동일 종결어미 — 진행형 '~고 있다' 자동 매핑 처방

post-editese metric-only 트랙:
  - lexical_diversity_ttr·lexical_density·ending_diversity (simplification)
  - normalisation_score·da_streak_rate (normalisation)
  - inanimate_subject_rate·by/double_passive·pronoun_density·deul_overuse_rate
    ·relative_clause_nesting·have_make_literal·double_particle·progressive_aspect
    + interference_index 합성 (interference, T1~T8)
  - 14건 모두 본진 패턴 ID 미부여 (caveat C3: 한국어 정량 검증 부재).
    metrics_v2.py로 분리, baseline_v2.json 70셀 placeholder 상태.

회귀 검증:
  - v1.6 5편 input·final 점수 산출 (재윤문 없음). 회귀 0건.
  - lexical_diversity 5편 전수 상승 (post-editese 단순화 가설 1차 반증).
  - 외부 회차 위키 6편 — A-16 양성 50%·A-18 양성 67%, interference_index
    외부 평균 0.251 vs v1.6 0.05~0.10 (Toral 가설 1차 부합).

학술 인용 양면 보존:
  - SSOT 메타필드 한 줄 (ai-tell-taxonomy.md) + 외부 SSOT 전문
    (scholarship.md, 학자 29명·Caveat 6건 verbatim).
  - 룰북 슬림성 보존: quick-rules.md 126→133줄 (≤180 한도).

4대 철칙 준수:
  - monolith·5인 정의 무수정 (humanize-monolith·detector·rewriter·auditor·
    reviewer git diff 0줄).
  - 재윤문 없는 회귀 (사용자 토큰 통제 원칙).
  - 양면 인용 보존.
  - patternID 참조 안정성 (A-1~A-15·E-1~E-6 본문 무수정).

상세 PR 본문: _workspace/v2.0-2026-05-07/07_pr/07_pr_draft.md
외부 회차 보고: _workspace/v2.0-2026-05-07/05_regression/v2_external_samples/H1_revisited.md

2026-05-07 23:04:09 +09:00

24 KiB

Raw Permalink Blame History

Humanize KR Scholarship Reference (v2.0)

외부 SSOT — 본진 분류 체계(references/ai-tell-taxonomy.md)는 패턴 행마다 한 줄 메타(source_short)로 이 파일을 가리킨다. 학술 출처 전문(full text)은 본 파일에 보존하여 SSOT 룰북의 슬림성을 해치지 않는다.

출처 보고서: 한국어 번역투(translationese) 종합 연구보고서: 영한 번역과 AI 후편집의 통합적 관점 (2026-05-07 distilled, 540 lines markdown). 학자 이름·연도·저널·페이지·DOI는 보고서 verbatim. 자체 추정·확장 없음.

한국 번역학계 8대 번역투 정통성 계보

보고서 §III.3 "8대 번역투 유형의 통합" 매핑. 본진 SSOT 패턴 ID는 v2.0 신규 4건(A-16~19) + 보강 4건(A-15·A-7·F-4·E-2)에 부착 예정.

1. 무생물 주어 + 타동사 구문

보고서 §III.3.1 (line 92-127). 본진 매핑 — A-15(추상 주어 + 만능 동사), D-5(의인화된 추상 주어), 보강 (gap §3.1).

이영옥 (2001). 무생물 주어 타동사구문의 영한번역. 번역학연구 2(1): 53-76.
- 한국 번역학계 효시 격 논문 (보고서 II.2.3 line 68).
- 한국어 행위자 의미역의 [+animate] 자질 강조: "행위자(agent) 의미역이 [+animate] 자질을 강하게 요구하고, '주어 + 목적어 + 타동사' 구조에서 주어가 의미적으로 통제력(control)을 갖는다는 함의가 강하다."
김정우 (2007). 번역학연구 8(1): 61-82. 8유형 정초.
박옥수 (2017). 동아인문학 41: 155-183 — 한영 NMT ST 유형적 특징·번역 오류. 영한 방향 동일 메커니즘 작동 보고.

2. 피동 표현 과다 (~되어지다, ~에 의해, 이중 피동)

보고서 §III.3.2 (line 128-162). 본진 매핑 — A-8(이중 피동), A-9(~에 의해 피동문), A-12(만들어지다·이루어지다). 매핑 강도 full.

이근희 (2005). 박사학위논문 / 단행본 『이근희의 번역 산책—번역투에서 번역의 전략까지』, 한국문화사 / 동화와 번역 "말뭉치를 활용한 by의 번역투 연구".
- 영한 번역문과 한국어 비번역문 비교 말뭉치. by 코퍼스·번역투 정의·"-ese" 폄하 함의 지적.
김정우 (1996).
오경순 (2010). 일본근대학연구. 일한 번역의 수동표현 번역투.
김은일 (2015). 현대문법학회 83: 61-79.
서보현·김순영 (2018). 번역학연구 19(1): 99-117, doi:10.15749/jts.2018.19.1.004 — 영-한 NMT 출력 4범주 오류 분류 ("Incorrect meaning error occurs rather frequently while omission error is found relatively few; Wrong word/phrase order error comes with the incomplete sentence error"). NMT는 통사적 이질감을 일으키는 주된 표지로 'by + 행위자 → ~에 의해' 직역이 빈출.

보고서 verbatim 이중 피동 처방: "'잊혀지다 → 잊히다', '보여지다 → 보이다', '쓰여지다 → 쓰이다', '~되어지다 → ~되다'. '~된다'는 그 자체로 피동의 의미를 담고 있어 '~어지다'를 덧붙이는 것은 잉여적이다."

3. 대명사 직역 (he/she/it/they → 그/그녀/그것/그들)

보고서 §III.3.3 (line 163-191). 본진 매핑 — 신규 A-16 (gap §2 후보 1순위, none).

김도훈 (2009). 통역과 번역 11(2): 3-19. "영한 번역시 발생하는 번역투에 대한 고찰 — 대명사·복수 표지·무생물 주어 3대 핵심 유형".
Cho, Won Ik · Kim, Ji Won · Kim, Seok Min · Kim, Nam Soo (2019). "On Measuring Gender Bias in Translation of Gender-neutral Pronouns", ACL Workshop on Gender Bias for NLP (GeBNLP), arXiv:1905.11684.
- 한국어 무표지 "걔는 [xx]-해" 템플릿으로 MT 시스템의 젠더 편향 측정 체계 제안. 번역 출력이 'She is [xx]', 'He is [xx]', 'The person is [xx]' 중 하나로 나뉨.

보고서 verbatim: "한국어는 (i) 영형(zero) 대명사를 통한 생략, (ii) 반복적 명사구의 재사용, (iii) 친족·지위 호칭으로 동일 기능을 수행한다. 한국어 '그/그녀'는 본래 19~~20세기 번역 문학을 통해 도입된 인공 어휘에 가깝다." NMT/LLM 재현: "한국어 출력문은 대명사 밀도가 비번역 한국어의 2~~3배에 달하는 경우가 흔하다."

4. '-들' 복수 표지의 기계적 부착

보고서 §III.3.4 (line 193-225). 본진 매핑 — 신규 A-17 (gap §2 후보 1순위, none).

곽은주·진실로 (2011). 번역학연구. 텍스트 차원에서의 복수표현의 영한번역전략.
조의연 (2012). 번역학연구. 사람명사 복수표현의 영한번역전략에 대한 비판적 소고.
조의연 (2015). 번역학연구 16(1). 목표언어 중심 등가적 번역전략 비판 — "번역문(translated text)" vs "목표텍스트(target text)" 구분.
김정우 (2013). 번역학연구.
김순영 (2012). 새국어생활 22(1). "-들"의 무차별 부착 의미 왜곡.
김정우 (1996).
강범모 (2007). 언어학 47.
전영철 (2007). 언어학 49.

보고서 verbatim 의미론: "'-들'이 단순 복수가 아니라 (a) 분포성(distributivity), (b) 사건성, (c) 한정성·개체성을 부각하는 기능을 한다." NMT/LLM 재현: "DeepL은 다른 NMT보다 이 점에서 다소 우월하지만 여전히 30~50% 정도는 잉여적 '-들'을 생성한다."

5. 관계대명사절 직역 (긴 좌향 수식)

보고서 §III.3.5 (line 227-249). 본진 매핑 — 신규 A-18 (gap §2 후보 2순위, none). E-5(쉼표 분절 평균 길이)는 측정 차원 다름.

박옥수 (2018). 동아인문학 44: 151-171. 영한 방향 NMT 통사 처리 실패 (관계절).
김채은 (2021). 21세기영어영문학회 34: 279-305. 한영 기계번역 관계절 연구.
김성완·이효정 (2017). 미래영어영문학회 22: 123-147.

보고서 verbatim: "영어는 관계대명사절을 명사 뒤에 후치(right-branching)하지만, 한국어는 관형절을 명사 앞에 전치(left-branching)한다. … 핵 어휘에 도달하기 전에 독자가 길고 복잡한 관형구를 처리해야 하므로 작업기억 부담이 커진다."

6. 명사화 표현 및 'have/make' 류 직역

보고서 §III.3.6 (line 251-272). 본진 매핑 — A-7(가지고 있다), F-4(한자어 명사화 접미사 -성·-적·-화), 보강 (gap §3.2·§3.3).

김정우 (2007). 번역학연구 8(1): 61-82. 무생물 주어·have 직역·전치사구 직역.
- "사랑하는 처자를 가진 가장은 부지런할 수밖에 없다" — 'have'의 흔적이 그대로 남은 대표 사례.
이근희 (2005).

보고서 verbatim: "영어는 'have/make/take/give'와 명사를 결합한 가벼운 동사 구문(light verb construction)을 매우 많이 사용한다. … 한국어는 동사적 표현이 더 자연스러운데, 직역하면 '회의를 가지다, 결정을 만들다, 한번 봄을 가지다'가 되어 어색하다." 영어 명사화 접미사 처방: "명사화('-tion, -ment, -ness, -ity')가 누적된 영어 명사구는 한국어에서 동사·형용사로 풀어낸다: 'the implementation of the policy' → '정책 시행' 또는 '정책을 시행하기'" NMT/LLM 재현: Pega Devlog 2023 — "GPT는 어색한 번역투 문장이 자주 보입니다(ex. 에너지 공급을 가진다)".

7. 일본어·영어식 조사 결합 (-에서의, -에로의, -으로의, -에의)

보고서 §III.3.7 (line 273-294). 본진 매핑 — 신규 A-19 (gap §2 후보 2순위, none). 단순 '~의'는 caveat #5에 따라 탐지 대상 명시적 제외.

김정우 (2007). 번역학연구 8(1): 61-82.
김순영 (2012). 새국어생활 22(1). 전치사구 직역 자연화.
김정우 (1996).

보고서 verbatim: "근대 한국어는 일본어 'の(の/への/での)'의 영향과 영어 전치사구('of, in, to, from')의 영향을 동시에 받으면서 격조사를 이중·삼중으로 결합한 표현이 늘었다. … 본래 한국어는 이런 표현을 절·구로 풀어 쓰는 것이 자연스럽다." "'관형격 조사 의' 자체는 일본어 번역투가 아니지만(중부일보 팩트체크 2020 기사 참고), 연속된 '의 의 의'는 거의 항상 부적절하다."

8. 종결어미·시제·서법 처리

보고서 §III.3.8 (line 295-322). 본진 매핑 — E-2(동일 종결어미 반복), G-1(추측·관측형 종결), I-1(것이다 종결), 보강 (gap §3.4·§3.5). 청자 경어법은 본진 미커버 단독 영역.

김혜영 (2019). 통번역교육연구 17(2): 133-162, doi:10.23903/kaited.2019.17.2.007 (KCI ART002506702).
- 종결어미 의미론·화용론·화행·양태·공손성·언표내적행위·번역 글쓰기.

보고서 verbatim: "한국어는 교착어로서 종결어미가 (a) 문장종결법(평서·의문·명령·청유·감탄), (b) 화행, (c) 양태(modality), (d) 청자에 대한 공손성, (e) 화자–청자 관계까지 표시한다." 시제·서법: "영어 진행형(be -ing)을 한국어 '~고 있다'로 자동 매핑하면 잉여적이다. 한국어에서 '~고 있다'는 (i) 진행, (ii) 결과 상태 두 의미가 있고, 단순 시제로도 진행 의미가 표현된다('지금 책을 읽는다 / 책을 읽고 있다' 모두 가능)."

국제 번역학 이론적 토대

Baker 1993 — 번역 보편소 4축

Mona Baker (1993). "Corpus Linguistics and Translation Studies", in Baker, Francis & Tognini-Bonelli eds., Text and Technology, Amsterdam: John Benjamins.

번역 보편소 4축 (보고서 II.2.2 line 53-58): simplification·explicitation·normalisation·levelling-out (1996).
정의 (보고서 verbatim):
- simplification — "번역문은 원문보다 어휘적·통사적으로 단순한 경향이 있다."
- normalisation/conventionalisation — "번역문은 목표언어의 전형적·관습적 형태를 과도하게 따르는 경향이 있다."
v2.0 메트릭 트랙 적용 (gap §5): TTR·종결어미 entropy·declarative_da_ratio·end_form_concentration.

Toury 1995 — 두 법칙

Gideon Toury (1995). Descriptive Translation Studies and Beyond, Amsterdam: John Benjamins.

두 법칙: (a) 증가하는 표준화의 법칙(growing standardisation), (b) 원천 텍스트 간섭의 법칙(law of interference).
보고서 핵심 진술 (Key Findings 2 line 11): "한국어 번역투의 90% 이상이 간섭 법칙으로 환원 가능."
Pym, Anthony (2008). "On Toury's laws of how translators translate" — Baker 보편소가 Toury 표준화 법칙에 치우쳐 있고 간섭 법칙을 등한시했다고 비판. Pym은 한국어 번역투처럼 '간섭'으로 환원되는 현상은 Toury의 두 번째 법칙으로 설명되어야 한다고 주장.

Laviosa 2002 — 코퍼스 번역학 보편소 확장

Laviosa (2002). 보고서 II.1.2(line 35) 외국 이론 인용으로 명기. 번역 보편소 코퍼스 기반 확장.

Chesterman 2004 — S/T-universals 구분

Chesterman (2004). 보고서 II.1.2(line 35) 외국 이론 인용으로 명기. 번역 보편소 — S-universals(원천 → 목표) vs T-universals(목표언어 내) 구분.

Toral 2019 — post-editese (악화된 translationese)

Antonio Toral (2019). "Post-editese: an Exacerbated Translationese", MT Summit XVII Dublin, pp. 273-281. arXiv:1907.00900.

보고서 verbatim 결론 (post_editese_axes.post_editese_definition_verbatim): "PE는 HT보다 (i) 어휘 다양성·밀도가 낮아 더 단순(simpler)하고, (ii) 목표언어 관습으로 더 정규화(normalised)되어 있으며, (iii) 원천언어로부터의 간섭이 더 강(higher interference)했다. 즉 'post-editese'는 'translationese의 악화된 형태(exacerbated translationese)'였다."
검증 데이터셋: 5개 언어쌍 3개 데이터셋 (en→de, de→en, es→de Taraxa뉴스 / en→de en→fr IWSLT자막 / zh→en MS뉴스). 한국어는 미포함 — caveat C3 적용.
한국적 함의 (post_editese_axes.korean_implication): "후편집이 단순 교정(post-editing)이 아니라 재구성(re-writing) 수준으로 수행되어야 함을 의미한다."
v2.0 메트릭 트랙 적용 (gap §5): post_editese_score 3축 가중 합. caveat C3에 따라 모든 metric에 speculative: true 플래그 권고.

Sarti·Bisazza·Guerberof-Arenas·Toral 2022 — DivEMT

Sarti, Bisazza, Guerberof-Arenas, Toral (2022). EMNLP pp. 7795-7816 (DivEMT).

18명 전문 번역가 영-아·네·이·터·우·베 6개 언어 PE 실험.
verbatim: "magnitude of productivity gains varies widely across systems and languages, highlighting major disparities in post-editing effectiveness for languages at different degrees of typological relatedness".

Cho et al. 2019 — 한국어 MT 젠더 편향

Cho, Won Ik · Kim, Ji Won · Kim, Seok Min · Kim, Nam Soo (2019). "On Measuring Gender Bias in Translation of Gender-neutral Pronouns", ACL Workshop on Gender Bias for NLP (GeBNLP), arXiv:1905.11684. (위 §3 대명사 직역 참조.)

Frawley 1984 — third code

Frawley (1984). 보고서 II.2.1 line 49 인용. 번역어를 원천언어와도 목표언어와도 다른 "제3의 부호(third code)"로 개념화.

Hayase et al. 2024 — GPT-4o 한국어 학습 비중

Hayase et al. (2024). "Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?", arXiv:2407.16607.

GPT-4o 비영어 학습 데이터 비중 39% (GPT-3.5 3% 대비 13배), 한국어 비중 1% 미만 추정. 보고서 IV.4.4 line 359, VI Caveat 6 line 539.

NMT/LLM 시대 한국 PE 가이드라인 계보

보고서 §V.5 "한국어 PE 교육·연구 계보" 매핑.

윤미선·김택민·임진주·홍승연 (2018). 번역학연구 19(5): 43-76. 영-한 PE 가이드라인 — 한국어 PE 교육의 토대.
김혜림 (2022). 중국언어연구 99: 277-312. 중-한 PE 가이드라인.
이상빈 (2017). 통역과 번역 19(3): 37-64, doi:10.20305/it201703037064.
- PE는 단순 번역기 결과 수정이 아니라 (a)메시지·(b)논리·(c)연어·(d)문법·(e)레이아웃 등 11개 항목 종합. 학부생 단어 차원 수정 한계.
이상빈 (2018a). 통번역학연구 22(1): 117-143, doi:10.22844/its.2018.22.1.117.
- 학부생 PE 경험 5요소 — (1) PE는 어렵다 (2) 교정교열 교육 필요 (3) MT 품질 나쁘지 않음 (4) 프리에디팅 필요 (5) PE 역량=기본 번역역량.
이상빈 (2018b). 번역학연구 19(3): 259-286, doi:10.15749/jts.2018.19.3.010.
- 사고발화(TAP) + 화면녹화 PE 행위 분석 — 사전 과의존·단어구 단위 수정·over-revision 위험.
마승혜 (2018). 통번역학연구 22(1): 53-88, doi:10.22844/its.2018.22.1.53. 텍스트 유형별 PE 문제 — 정보적·표현적·설득적 텍스트 차이.
이주리애 (2018). 통역과 번역 20(1): 43-71, doi:10.20305/it201801043071. 한일/일한 NMT 어휘·구·통사·텍스트 4층위 분석.

15항목 PE 체크리스트 학술 anchoring (보고서 §5.1)

보고서 §V.5.1 (line 388-406) 15항목을 본진 분류 ID + 8유형 anchor에 매핑. 처방 적용은 playbook_patch.md 참조 (분류 vs 처방 분리 원칙).

PE#	라벨	트리거 질문	처치	type_anchor	본진 매핑
PE1	무생물 주어	주어가 무생물·추상명사인데 '하다/만들다/시키다' 류 타동사 결합?	부사절·원인절 또는 인간 주어로 전환	T1	A-15·D-5 (보강)
PE2	by-수동태	'~에 의해' 또는 '~으로 인해'?	능동태 또는 자동사 / '에' 또는 '에게' 단순화	T2	A-9
PE3	이중 피동	'~되어지다, ~여지다, 잊혀지다, 보여지다'	단순 피동 환원	T2	A-8
PE4	대명사	'그/그녀/그것/그들' 한 단락 ≥3회	50% 이상 영형(생략), 일부 호칭·명사구	T3	신규 A-16
PE5	복수 표지 '-들'	무정물·추상명사에 '-들' 부착?	거의 모두 삭제. 분포성 강조 시만 유지	T4	신규 A-17
PE6	관계절	명사 앞 ≥3어절 관형구?	문장 분리 또는 후치 동격절	T5	신규 A-18
PE7	have/make	'~을 가지다 / ~을 만들다 / ~을 가지고 있다'	동사 환원 또는 이중주어 구문	T6	A-7 (보강)
PE8	조사 결합	'-에서의, -에로의, -으로의, -에의'	절·구로 풀어쓰기	T7	신규 A-19
PE9	종결어미	'~다' ≥4문장 연속	다양화 ('~었다·~ㄴ다·~는다·~기 마련이다·~ㄹ 것이다·~을 수 있다')	T8	E-2 (보강)
PE10	진행형	'~고 있다' 남발	단순 시제로 환원 가능성 검토	T8	E-2 (보강)
PE11	명사화	'-tion, -ment, -ness'의 한국어 명사 직역	동사·형용사로 풀기	T6	F-4 (보강)
PE12	전치사구	'~로부터, ~에 관하여, ~을 통하여'	문맥 자연 표현	T7	A-2·A-5 인접 (단일 어휘)
PE13	시제·서법	영어 단순 현재·과거 단조 매핑	한국어 서사 시제·서법 다양화	T8	E-2 (보강)
PE14	청자 경어법	대화체에서 화자–청자 관계 점검	해라/하게/하오/해요/합쇼체 일관 적용	T8	본진 미커버 — taxonomist 결정
PE15	호칭	'Mr./Ms./Dr.' 직역	한국어 호칭(선생님·박사님·과장님) 또는 생략	T3	신규 A-16 인접

보고서 §5.1 verbatim 출처: 윤미선·김택민·임진주·홍승연 2018(line 388, 425), 김혜림 2022(line 425), 이상빈 2017·2018a·2018b(line 469-473), 마승혜 2018(line 332).

post-editese 3축 (보고서 §IV.4.3)

본진 직접 채택은 caveat C3에 따라 hold (gap §4.1). v2.0 별도 메트릭 트랙(metric-engineer)에서 정량 지표로 운영.

simplification 축

보고서 정의 verbatim: "PE는 어휘 다양성·밀도가 인간 번역보다 낮다."
ko_manifestation: 한국어 영-한 후편집에서 종결어미 단조성 / 어휘 반복 / 사전적 1차 의미 선호 경향.
보고서 line 55, 351.

normalisation 축

보고서 정의 verbatim: "PE는 목표언어의 가장 흔한 형태를 과도하게 따르는 경향이 있다."
ko_manifestation: 한국어 '~한다 / ~된다 / ~이다' 평서형 정형구로 수렴.
보고서 line 57, 352.

interference 축

보고서 정의 verbatim: "PE는 원천언어의 통사 구조를 더 강하게 보존한다." (Toury 1995, law of interference)
ko_manifestation: 영어식 SVO / 무생물 주어 / 관계절 좌향 수식 / by-수동태 유지.
보고서 line 60, 353.

통합 결론 (Toral 2019 verbatim)

"PE는 HT보다 (i) 어휘 다양성·밀도가 낮아 더 단순(simpler)하고, (ii) 목표언어 관습으로 더 정규화(normalised)되어 있으며, (iii) 원천언어로부터의 간섭이 더 강(higher interference)했다. 즉 'post-editese'는 'translationese의 악화된 형태(exacerbated translationese)'였다."

Caveats (이 SSOT의 한계, 보고서 §VI verbatim 6건)

분류학자·메트릭 엔지니어·리뷰어 모두 신뢰도 평가 시 본 절을 참조한다. 본진 v2.0 발행 시 'valid as of 2026-05' 명기.

C1. 김혜영(2019) 본문 정량 수치 미확인

"본 보고서는 KCI(ART002506702) 영문 초록과 키워드(종결어미·서법·양태·화행·언표내적행위·번역 글쓰기)를 근거로 김혜영(2019)의 핵심 논지를 정리했다. 평서형 '-다'의 정확한 출현 빈도(%) 등 본문 표·수치는 통번역교육연구 17(2) PDF를 직접 확보해야 검증 가능하다." (보고서 line 529)

분류학자 함의: T8 종결어미 재현율 임계치를 보고서 정량 수치로 못 박을 수 없음. 김혜영 PDF 원문 확보 전까지 'estimated' 플래그 유지.

C2. NMT/LLM 비교 평가의 마케팅 편향

"DeepL 공식 블로그(2024)의 비교는 자사 블라인드 테스트 결과로, 독립적 검증이 필요하다. Lionbridge(2023)의 LLM-NMT 비교 평가는 영-중·영-스·영-독 언어쌍에 한정되어 영-한에 직접 적용할 수 없다." (보고서 line 531)

분류학자 함의: DeepL 우월·GPT 열위 식의 모델별 정량 비교를 분류 체계 가중치로 직접 흡수 금지. 모델 일반성 검증은 별도 회차 필요(예: humanize-ko v1.3.1 Gemini 회차).

C3. 'post-editese'의 한국어 직접 검증 부재

"Toral(2019)은 en→de, de→en, es→de, en→fr, zh→en의 5개 언어쌍을 다뤘고, 한국어는 포함되지 않았다. 한국어에 대한 동일 결론은 합리적 추론이지만 정량적 검증은 미수행 상태다." (보고서 line 533)

분류학자 함의: post-editese 3축(simplification·normalisation·interference)을 v2.0 분류 체계에 직접 채택할 때, 한국어 정량 검증 부재를 'speculative: true' 플래그로 명기.

C4. 단일 NMT 실증연구의 8유형 통합 부재

"8대 번역투 유형 모두를 단일 NMT 실증 연구로 다룬 KCI 등재 논문은 확인되지 않는다. 본 보고서는 박옥수(2017, 2018), 서보현·김순영(2018), 이주리애(2018), 김채은(2021), 이지은·최효은(2022), 김경숙(2018), 이정화·차경환(2022) 등을 조합하여 추론한 것이다. 이는 명확한 연구 공백이다." (보고서 line 535)

분류학자 함의: 8유형 NMT/LLM 재현율 통합 표는 보고서가 제공하지 않음. 분류학자는 8유형 각각의 NMT/LLM 재현 진술을 별도 연구로 분리 추적해야 함.

C5. 일본어 번역투의 영향 범위에 대한 논쟁

"'~의' 자체가 일본어 번역투인지에 대해서는 학계 합의가 없다. 국립국어원과 김슬옹 세종국어문화원장은 '~의'가 15세기부터 한국어에 존재했다고 본다. 본 보고서는 '단순 ~의'는 번역투가 아니나 '~에서의/~에로의' 같은 이중 결합은 번역투로 본다는 다수설을 따른다." (보고서 line 537)

분류학자 함의: T7 패턴(A-19) 정의에서 '단순 ~의'는 탐지 대상에서 명시적으로 제외. '~에서의/~에로의/~으로의/~에의' 이중 결합만 S2 이상.

C6. LLM의 빠른 진화

"2026년 5월 시점의 LLM 번역 품질 평가는 6개월 내에 노후화될 수 있다. 본 보고서의 LLM 비교 부분은 2024~2025년 연구·블로그·업계 보고에 기반하며, 신규 모델(GPT-5, Claude 5 등) 출시 시 재검증이 필요하다. GPT-4o의 비영어 학습 데이터 비중이 39%(GPT-3.5의 3% 대비 13배)로 급증한 점(Hayase et al. 2024)은 향후 한국어 출력 품질 개선 가능성을 시사하지만, 한국어 비중 자체는 여전히 1% 미만으로 추정된다." (보고서 line 539)

분류학자 함의: 분류 체계 v2.0 발행 시 'valid as of 2026-05' 명기. 6개월 주기로 모델별 재현율 회차 설정.

자체 검증

보고서 §VI Caveat 6건 모두 본 파일 §Caveats 절에 verbatim 보존 — 통과.
8유형 모두 한국 번역학계 학자 anchor ≥ 1명 부착:
- T1 이영옥 2001·김정우 2007·박옥수 2017
- T2 이근희 2005·김정우 1996·오경순 2010·김은일 2015·서보현·김순영 2018
- T3 김도훈 2009 (+ Cho et al. 2019 ACL)
- T4 곽은주·진실로 2011·조의연 2012·2015·김정우 2013·김순영 2012·김정우 1996·강범모 2007·전영철 2007
- T5 박옥수 2018·김채은 2021·김성완·이효정 2017
- T6 김정우 2007·이근희 2005
- T7 김정우 2007·김순영 2012·김정우 1996
- T8 김혜영 2019
- 8/8 — 통과.
국제 4대 이론(Baker 1993·Toury 1995·Laviosa 2002·Toral 2019) 모두 별도 섹션 보유 — 통과. (+ Chesterman 2004·Sarti 2022·Cho 2019·Frawley 1984·Hayase 2024 추가 섹션.)
NMT/LLM 시대 PE 가이드라인 계보 7명 (윤미선 외 2018·김혜림 2022·이상빈 2017·2018a·2018b·마승혜 2018·이주리애 2018) — 통과.
15항목 PE 체크리스트 학술 anchoring 표 (PE1~PE15) 본진 매핑 + type_anchor 부착 — 통과.

판정 어조 — 학술 정통성 큐레이터. 보고서 verbatim 외 자체 추가·확장 없음. 본진 분류 체계 본문 직접 수정 권한 없음.

24 KiB Raw Permalink Blame History