mirror of https://github.com/epoko77-ai/im-not-ai.git synced 2026-06-21 13:18:09 +00:00

epoko77-ai f53b8bc032 feat(taxonomy): v2.0 — 한국 번역학계 8유형 + post-editese metric 트랙 (A-17 hold)

본진 분류 체계에 한국 번역학계 8대 번역투 유형(이근희·김정우·김도훈·곽은주·
김순영·박옥수·김혜영·이영옥)을 흡수하고, Toral 2019 post-editese 3축
(simplification·normalisation·interference)을 14개 신규 metric 트랙으로
도입. monolith·5인 정의는 무수정, 도구 호출 3회 캡(v1.6.1) 보존.

신규 패턴 4건 (본진 등재):
  - A-16 영어 대명사 직역 [S1, 김도훈 2009 + Cho et al. 2019 ACL GeBNLP]
  - A-18 관계대명사절 직역 — 좌향 수식 [S2, 박옥수 2018]
  - A-19 이중 조사 결합 [S2, 김정우 2007, 단순 ~의 명시 제외]
  - E-7 청자 경어법 일관성 손실 [S2 estimated, 김혜영 2019, dialogue 가드]

본진 hold 1건 (v2.0b 외부 회차 결과):
  - A-17 무정물·추상명사 '-들' 부착 — v1.6 5편 + 외부 위키 6편 양성 0건.
    학술 anchor·metric·scholarship.md §4 보존, 본진 등재만 보류. NMT 원본
    회차 후 v2.1에서 동일 ID로 부활. patternID 안정성 보존.

본진 보강 4건 (본문 무수정 + 처방 추가):
  - A-15 추상 주어 — 사역·인지·발화 동사 3축 처방
  - A-7 가지고 있다 — light verb construction(have/make/take/give) 일반화
  - F-4 과잉 접두·접미 — 영어 명사화 -tion/-ment/-ness/-ity 통합
  - E-2 동일 종결어미 — 진행형 '~고 있다' 자동 매핑 처방

post-editese metric-only 트랙:
  - lexical_diversity_ttr·lexical_density·ending_diversity (simplification)
  - normalisation_score·da_streak_rate (normalisation)
  - inanimate_subject_rate·by/double_passive·pronoun_density·deul_overuse_rate
    ·relative_clause_nesting·have_make_literal·double_particle·progressive_aspect
    + interference_index 합성 (interference, T1~T8)
  - 14건 모두 본진 패턴 ID 미부여 (caveat C3: 한국어 정량 검증 부재).
    metrics_v2.py로 분리, baseline_v2.json 70셀 placeholder 상태.

회귀 검증:
  - v1.6 5편 input·final 점수 산출 (재윤문 없음). 회귀 0건.
  - lexical_diversity 5편 전수 상승 (post-editese 단순화 가설 1차 반증).
  - 외부 회차 위키 6편 — A-16 양성 50%·A-18 양성 67%, interference_index
    외부 평균 0.251 vs v1.6 0.05~0.10 (Toral 가설 1차 부합).

학술 인용 양면 보존:
  - SSOT 메타필드 한 줄 (ai-tell-taxonomy.md) + 외부 SSOT 전문
    (scholarship.md, 학자 29명·Caveat 6건 verbatim).
  - 룰북 슬림성 보존: quick-rules.md 126→133줄 (≤180 한도).

4대 철칙 준수:
  - monolith·5인 정의 무수정 (humanize-monolith·detector·rewriter·auditor·
    reviewer git diff 0줄).
  - 재윤문 없는 회귀 (사용자 토큰 통제 원칙).
  - 양면 인용 보존.
  - patternID 참조 안정성 (A-1~A-15·E-1~E-6 본문 무수정).

상세 PR 본문: _workspace/v2.0-2026-05-07/07_pr/07_pr_draft.md
외부 회차 보고: _workspace/v2.0-2026-05-07/05_regression/v2_external_samples/H1_revisited.md

2026-05-07 23:04:09 +09:00

59 KiB

Raw Permalink Blame History

AI 한글 티 분류 체계 v2.0 (Korean AI-Tell Taxonomy)

LLM(ChatGPT·Claude·Gemini 등)이 생성한 한글 글에서 반복적으로 관찰되는 "AI 티" 패턴을 10개 대분류 × 서브 패턴으로 정리한다. 탐지기·윤문가·리뷰어가 공유하는 단일 진실 원천(SSOT). 각 패턴마다 (1) 정의, (2) 시그니처 예문, (3) 심각도(S1 결정적 / S2 강함 / S3 약함), (4) 윤문 처방을 제공한다.

v2.0 추가 (2026-05-07): 한국 번역학계 8대 번역투 정통성 계보(이영옥 2001·김도훈 2009·김정우 2007·김혜영 2019 등) + 보고서 §III.3(8유형) 통합. 본진 신규 4건 — A-16 영어 대명사 직역 [S1] · A-18 관계절 좌향 수식 [S2] · A-19 이중 조사 결합 [S2] · E-7 청자 경어법 일관성 손실 [S2 · estimated]. 본진 보강 4건 — A-15 인지·발화 동사 분리 구문 처방 · A-7 light verb construction 일반화(have/make/take/give) · F-4 영어 명사화 접미사(-tion·-ment·-ness·-ity) 통합 · E-2 진행형 '~고 있다' 자동 매핑 처방. 본진 hold 1건 — A-17 무정물·추상명사 '-들' 부착 [학술 강함, 외부 회차 양성 0건 → NMT 원본 회차 후 v2.1 재평가]. post-editese 3축은 metric-only 트랙 — caveat C3(한국어 정량 검증 부재)에 따라 본진 ID 미부여, metrics_v2.py 14개 신규 함수로 운영(deul_overuse_rate 포함, A-17 hold 검증용). 학술 전문은 외부 SSOT references/scholarship.md에 보존(본진 슬림성). valid as of 2026-05.

v1.6 추가 (2026-05-06): KatFish(Park et al.) + LREAD 외부 정량 연구 기반 본진 신규 5건 — C-11 연결어미 뒤 쉼표 [S1, 4.84배 분리도] · C-12 쉼표 포함률 [S2] · E-5 쉼표 분절 평균 길이 [S2] · E-6 쉼표 전후 POS 다양성 [S2, 에세이·뉴스 한정] · G-3 안전 균형 lexicon [S2]. 본진 보강 2건 — D-1에 KatFish 검증 결산 lexicon 4종("결론적으로·따라서·이를 통해·그러므로") 정식 인용 + 임계, F-4에 한자어 명사화 접미사 3종("-성·-적·-화") 정식 명시 + 한 문서 12회 초과 임계. hold 2건(BN/VX 띄어쓰기 규칙성·페르소나-레지스터 불일치)은 본진 미등재 — _workspace/v1.6-2026-05-06/에 후보 발자취 보존.

v1.5.1 추가 (2026-04-27): Category E에 E-4 단문 일변도 (복문·중문 부재) [S2] 신설. 인간 필자는 단문과 복문을 무의식적으로 섞어 호흡을 만드는데, AI가 "간결하게" 의도하면 단문만 늘어놓아 끊어진 리듬이 그 자체로 시그니처가 된다.

v1.5 변경 (2026-04-26): v1.2 voice profile · v1.3 candidate pool · v1.3.1 권한 위계는 모두 제거됐다. 이유는 핫패스 비용. v1.5는 v1.1 5인 파이프라인 구조 + monolith fast 1콜로 단순화됐고, 분류 체계 본진(이 파일)은 v1.3.1까지 발굴된 신규 패턴(C-9·C-10·D-7·H-3·I-3·I-4 보강 등)을 그대로 유지한다.

심각도 기준

S1 결정적(critical): 한 번만 나와도 "이건 AI"라고 거의 확신하게 되는 패턴. 무조건 제거.
S2 강함(high): 1~2회는 자연스러울 수 있으나 문서에서 3회 이상 반복되면 티 남. 밀도 기반 제거.
S3 약함(low): 개별로는 문제 아님. 다른 패턴과 중첩될 때 AI 인상을 강화. 리듬 조정 수준.

A. 번역투(Translation-ese) — A-1~~A-19 B. 영어 인용·용어 과다 — B-1~~B-4 C. 구조적 AI 패턴 (서식·레이아웃) — C-1~~C-12 D. AI 특유의 관용구 (Signature Phrases) — D-1~~D-7 E. 리듬·문장 길이 균일성 — E-1~~E-7 F. 과도한 수식·중복 — F-1~~F-5 G. 과도한 Hedging (완곡) — G-1~~G-3 H. 접속사 남발 — H-1~~H-4 I. 형식명사·의존명사 과다 — I-1~~I-6 J. 시각 장식 남용 — J-1~~J-4

A. 번역투 (Translation-ese) — S1~S2

영어·일본어식 구문을 한국어 어순·조사 체계로 무리하게 옮긴 흔적. AI 글의 가장 결정적 시그니처.

A-1. "~에 대하여/대해서" 남발 [S1]

패턴: X에 대해(서) Y (영어 about/regarding X)
예: "AI 규제에 대해 논의할 필요가 있다" → "AI 규제를 논의해야 한다"
처방: 목적격 조사로 직결. 또는 주제 조사 "는".

A-2. "~를 통하여/통해" 남발 [S1]

패턴: 수단·경로를 거의 모두 "통해"로 처리 (영어 through/via)
예: "데이터 분석을 통해 인사이트를 얻는다" → "데이터를 분석해 인사이트를 얻는다"
처방: "~로", "~해서", "~함으로써" 등으로 분산.

A-3. "~에 있어(서)" [S1]

패턴: 전제·상황 도입 (영어 in terms of / when it comes to)
예: "이 문제에 있어서 중요한 것은" → "이 문제에서 중요한 것은" / "이 문제를 볼 때"

A-4. "~라는 점에서" [S2]

패턴: 근거 제시 (영어 in the sense that)
예: "확장성이 뛰어나다는 점에서 의미가 있다" → "확장성이 뛰어나서 의미가 있다"
주의: 때로는 자연스러움. 한 문서에 3회+ 반복될 때만 제거.

A-5. "~와 관련하여" / "~와 관련된" [S2]

패턴: 주제 지시 (영어 regarding / related to)
예: "보안과 관련하여 주의해야 한다" → "보안에 주의해야 한다"

A-6. "~에 기반하여" / "~을 바탕으로" 남발 [S2]

패턴: 근거 (영어 based on)
예: "데이터에 기반하여 판단한다" → "데이터로 판단한다" / "데이터를 보고 판단한다"

A-7. "가지고 있다" [S1]

패턴: 소유·특성 서술 (영어 have/possess)
예: "강한 경쟁력을 가지고 있다" → "경쟁력이 강하다"
처방: 형용사형으로 돌려 서술어 없애거나 "있다"로 단순화.
light verb construction 일반화 (v2.0 보강): 보고서 T6은 'have/make/take/give + 명사' 가벼운 동사 구문(light verb construction) 전반을 다룸. A-7 본진 처방 위에 (a) 동사 환원, (b) 이중주어 구문('X는 Y가 …') 활용을 명시 추가. verbatim 예문 — "She has a sweet voice → 그녀는 목소리가 아름답다" / "She has a book under her arm → 그녀는 책을 옆구리에 끼고 있다" / "We had a meeting yesterday → 우리는 어제 회의를 했다(열었다)" / "The committee made a decision → 위원회가 결정했다" / "The data show a rapid increase → 데이터에 따르면 급격히 증가했다". metric have_make_literal_count 정량 검출. source_anchor: 김정우 2007 · 이근희 2005 · see_scholarship: scholarship.md#6-명사화-표현-및-havemake-류-직역

A-8. 이중 피동 "~되어진다" / "~지게 된다" [S1]

예: "판단되어진다" → "판단된다" / "판단한다"
처방: 가능하면 능동으로. 못 바꾸면 단일 피동.

A-9. "~에 의해" 피동문 [S2]

패턴: by-passive (영어 수동태 직역)
예: "AI에 의해 생성된 이미지" → "AI가 만든 이미지"
처방: 행위자를 주어로 복귀.

A-10. "~할 수 있다" 남발 [S2]

패턴: 가능형 서술 (영어 can/be able to)
예: "효율을 높일 수 있다. 비용을 줄일 수 있다. 시간을 단축할 수 있다."
처방: 확정 서술 ("높인다", "줄인다")로 톤 전환. 꼭 가능성을 말할 때만 남김.

A-11. "~을 위해" 목적절 남발 [S2]

패턴: X을 위해 Y한다 (영어 in order to)
예: "고객 만족을 위해 노력한다" → "고객이 만족하도록 일한다"

A-12. "만들어지다" / "이루어지다" [S2]

패턴: 자동화된 피동
예: "합의가 이루어졌다" → "합의했다" / "합의에 이르렀다"

A-13. 명사 나열 (조사 생략) [S2]

패턴: 영어식 명사구를 조사 없이 붙임
예: "AI 기술 발전 속도 가속화" → "AI 기술의 발전 속도가 빨라지고 있다"
처방: 적절한 조사("의", "가", "를") 복원.

A-14. 접속부사 "그리고" 절 연결 [S2]

패턴: 영어 and처럼 "그리고"로 평문 연결
예: "그는 보고했다. 그리고 자리에 앉았다." → "그는 보고하고 자리에 앉았다."
처방: "-고", "-며", "-면서" 등 연결어미로 압축.

A-15. 추상 주어 + 만능 동사 [S2] · v1.1 신규

패턴: 영어 The X shows / provides / brings Y 직역. 주어가 사건·현상이고 술어가 "보여준다·제공한다·가져온다·시사한다"
예: "DeepSeek-V4의 등장은 ~을 보여줍니다" / "이 전략은 지형을 흔들고 있습니다" / "X는 Y를 제공합니다"
처방: 주어를 행위자(사람·팀·회사)로 돌리거나, 주어·동사 자체를 없애고 직접 서술. "DeepSeek는 ~ 원칙을 이렇게 증명했다" 식.
v2.0 보강 — 사역·인지·발화 동사 3축 처방:
- (a) 사역 타동사형(X made Y …) → X 때문에/덕분에 Y는 … 또는 X로 인해 Y는 … 부사절·원인절 환원. 예: "The news made him happy → 그 소식을 듣고 그는 기뻤다"; "1997년 금융위기는 한국 노동시장에 급격한 변화를 가져왔다 → 1997년 금융위기로 한국 노동시장은 급격히 바뀌었다"
- (b) 인지·발화 동사(suggest/show/indicate/reveal) → …에 따르면 …이다 또는 …으로 …이 드러났다 분리 구문. 예: "Recent research suggests that … → 최근 연구에 따르면 …이다 / 최근 연구를 통해 …이 드러났다"
- (c) 'This book has 300 pages' 류 → 이중주어 구문 활용 ('이 책은 300쪽이다', '이 책은 300쪽을 가진다 X')
source_anchor: 이영옥 2001 · 김정우 2007 · see_scholarship: scholarship.md#1-무생물-주어--타동사-구문

A-16. 영어 대명사 직역 (그/그녀/그것/그들) [S1] · v2.0 신규

패턴: 영어 he/she/it/they → 그/그녀/그것/그들을 1대1 매핑. 한국어는 (i) 영형(zero) 대명사를 통한 생략, (ii) 반복적 명사구의 재사용, (iii) 친족·지위 호칭으로 응결성(cohesion)을 확보. 한국어 '그/그녀'는 본래 19~~20세기 번역 문학을 통해 도입된 인공 어휘에 가깝다. NMT/LLM 출력의 대명사 밀도가 비번역 한국어의 **2~~3배**에 달함(보고서 §3.3.3 verbatim).
예:
- "John was tired. He sat down. He sighed. He looked at his watch." → 직역 "존은 피곤했다. 그는 앉았다. 그는 한숨을 쉬었다. 그는 그의 시계를 보았다." → 자연 "존은 피곤했다. 자리에 앉아 한숨을 쉬고는 시계를 보았다."
- "Mary called her mother because she missed her." → 직역 "메리는 그녀가 그녀를 그리워해서 그녀의 어머니에게 전화했다." → 자연 "메리는 어머니가 그리워서 전화를 걸었다."
- "his hand / her hair" → 직역 "그의 손 / 그녀의 머리" → 자연 "손 / 머리" (거의 항상 잉여적)
처방:
- (a) 대명사 출현의 50~70%는 삭제 후보로 보고 문장 재구성
- (b) 화자 전환·장면 전환의 시점에서만 명사구 또는 호칭으로 명시
- (c) 'he/she'가 성별 모르는 일반인은 '그 사람' 또는 주어 생략. 'they'는 '그들'이 아니라 '사람들·우리·일부·어떤 이들'로 다양화
검출 임계: 한 단락(=문단) 내 인칭 대명사 ≥3회 시 가산 (pe_checklist PE4). metric pronoun_density z>2.0 (비번역 한국어 baseline 대비) 시 정점 가산.
source_anchor: 김도훈 2009 통역과 번역 11(2): 3-19; Cho·Kim·Kim·Kim 2019 ACL GeBNLP arXiv:1905.11684 · see_scholarship: scholarship.md#3-대명사-직역-hesheitthey--그그녀그것그들

A-17. (보류 — v2.0 hold) 무정물·추상명사 '-들' 복수 표지 기계적 부착

Hold 사유: v2.0 외부 회차(2026-05-07, 한국어 위키 6편)에서 양성 0건, v1.6 input 5편에서도 0건. 학술 anchor(전영철 2007 언어학 49 · 곽은주·진실로 2011 · 김순영 2012 · 김정우 2013)는 강하나, 우리 코퍼스에서 결정타 부재. NMT 원본 출력 회차(DeepL·Papago·Google Translate) 후 v2.1에서 동일 ID로 재평가 예정.

유지 자산: scholarship.md §4(전문 학술 인용 보존), metrics_v2.deul_overuse_rate 함수와 무정물·추상 명사 사전 25종(검증용 정량 측정은 계속), 본 hold 결정 기록(promotion_decisions.md).

A-17 ID는 v2.1 부활을 위해 비워둠 — detector·rewriter 코드의 patternID 안정성 보존.

A-18. 관계대명사절 직역 — 긴 좌향 수식 (관형구 3중 이상 중첩) [S2] · v2.0 신규

패턴: 영어는 관계대명사절을 명사 뒤에 후치(right-branching)하지만, 한국어는 관형절을 명사 앞에 전치(left-branching). 영어 긴 관계절을 1대1 매핑하면 핵 어휘 도달 전 독자 작업기억 부담 폭증. NMT/LLM은 영어 SVO 구조를 가능한 유지하려 하므로 좌향 수식 누적이 빈번(박옥수 2018).
예:
- "He met a man who had once worked for the company that produced the chemical that caused the accident." → 직역 "그는 사고를 일으킨 화학물질을 생산한 회사에서 한때 일했던 한 남자를 만났다." → 자연 "그는 한 남자를 만났는데, 그 남자는 사고를 일으킨 화학물질을 만든 회사에서 한때 일했던 사람이었다." (관계절을 후치 동격절로)
- "He was too intelligent and perceptive not to feel the disappointment of his admirers from the 1930s." → 직역 "그는 1930년대부터 자기를 따랐던 사람들이 느낄 실망감을 눈치채지 못하기에는 너무 똑똑하고 예민했다." → 자연 "그는 워낙 똑똑하고 예민해서 1930년대부터 자기를 따랐던 사람들이 느낄 실망감을 눈치챘다."
처방:
- (a) 관계절이 3어절 이상이면 문장을 분리하거나 동격 후치 구문으로 변환
- (b) 'who, which, that'을 '~인 X', '~한 X' 식으로 직역하지 말고 '~는데, ~으며, 그 X는'으로 풀어쓰기
- (c) NMT 출력 검토 시 '~한 …의 …을 …한 …이/가'처럼 관형구가 3중 이상 중첩된 문장은 무조건 재구성 대상
검출 임계: 명사 앞 관형구 ≥3어절 시 가산 (pe_checklist PE6). metric relative_clause_nesting (한 명사구 내 관형절 중첩 깊이) ≥3 문장 카운트, 한 문서 1회 초과 시 가산. A-18은 관형절 좌향 수식 단위, E-5(쉼표 분절 평균 길이)는 쉼표 단위 — 측정 차원 분리. 동시 위반 시 가중.
source_anchor: 박옥수 2018 동아인문학 44: 151-171; 김채은 2021 21세기영어영문학회 34: 279-305 · see_scholarship: scholarship.md#5-관계대명사절-직역-긴-좌향-수식

A-19. 이중 조사 결합 (-에서의·-에로의·-으로의·-에의·-으로부터의·-로부터의) [S2] · v2.0 신규

패턴: 근대 한국어가 일본어 'の(の/への/での)' + 영어 전치사구('of/in/to/from')의 영향으로 격조사를 이중·삼중 결합한 표현이 늘어남. 본래 한국어는 절·구로 풀어 쓰는 것이 자연스러움.
caveat C5 명시 제외 — 단순 '~의'는 탐지 대상 아님: '~의' 자체가 일본어 번역투인지에 대해서는 학계 합의가 없다. 국립국어원과 김슬옹 세종국어문화원장은 '~의'가 15세기부터 한국어에 존재했다고 본다(보고서 caveat #5 verbatim). 본 패턴은 '~에서의·~에로의·~으로의·~에의·~으로부터의·~로부터의' 이중 결합만 S2 이상으로 본다.
예:
- "the meeting in the upper story of the bar" → 직역 "주점의 2층에서의 살림" → 자연 "주점의 2층에서 시작한 살림"
- "liberation from tension" → 직역 "긴장으로부터의 해방" → 자연 "긴장에서 벗어남, 긴장이 풀림"
- "the response to the questionnaire" → 직역 "설문지에의 응답" → 자연 "설문지에 대한 응답, 설문 답변"
- "destroyed by the bombing" → 직역 "폭격에 의해 끊어진" / "이번 기회를 통하여" → 자연 "폭격으로 끊어진 / 이번 기회에"
처방:
- (a) 이중 조사 결합('-에서의/-에로의/-으로의/-에의/-으로부터의/-로부터의')은 검색 후 일괄 점검 대상
- (b) 전치사구 'from/to/through/by/of'를 1대1 매핑하지 말고 문장 단위로 의미 재해석
- (c) 연속된 '의 의 의'는 거의 항상 부적절하므로 절·구로 풀어쓰기
검출 임계: metric double_particle_count 정규식 매칭(에서의|에로의|으로의|에의|으로부터의|로부터의). 한 문서 3회 초과 시 S2 가산. baseline 비번역 한국어 0~2회 추정.
source_anchor: 김정우 2007 번역학연구 8(1): 61-82; 김순영 2012 새국어생활 22(1) · see_scholarship: scholarship.md#7-일본어영어식-조사-결합-에서의에로의으로의에의

B. 영어 인용·용어 과다 — S2

B-1. 괄호 병기 관습 [S2]

패턴: 처음 등장할 때 모든 전문용어에 영어 병기
예: "인공지능**(AI)은 거대언어모델(LLM)**과 다르다."
처방: 해당 문서가 전문 독자 대상이면 1회만 병기, 이후 한국어만. 일반 독자 대상이면 영어 병기 자체를 최소화.

B-2. 영어 용어 비번역 [S2]

패턴: pipeline, framework, leverage, seamless, robust 등 한국어로 쓸 수 있는데 영어 그대로.
예: "이 framework를 leverage하여" → "이 체계를 활용해"
예외: 고유명사·업계 표준 용어(Transformer, API, SDK 등)는 유지.

B-3. 과도한 영어 인용구 [S2]

패턴: 영어 문장을 인용문으로 그대로 박아넣고 번역도 병기
처방: 정말 원문 어감이 필요한 경우가 아니면 한국어로 풀어쓰고 출처만 병기.

B-4. "~라고 알려진", "~로 일컬어지는" [S3]

패턴: 영어 known as / so-called 직역
예: "'AGI'라고 알려진 범용 인공지능" → "범용 인공지능(AGI)"

C. 구조적 AI 패턴 (서식·레이아웃) — S1~S2

C-1. 기계적 병렬 열거 [S1]

패턴: "첫째, ~. 둘째, ~. 셋째, ~."가 문단 전체를 지배.
처방: 3개 중 1~2개만 서술문으로 녹이거나, "우선 / 다음으로 / 마지막으로" 등으로 어휘 변주. 열거가 꼭 필요하면 유지하되 각 항목 길이·구조를 일부러 흐트러뜨림.

C-2. 과도한 불릿 리스트 [S2]

패턴: 에세이·칼럼·리포트에서 3개 이상 연속 불릿 블록.
처방: 불릿을 산문으로 "녹이기". 정말 나열이 의미 있는 지점만 남김.

C-3. 반복적 섹션 헤딩 [S2]

패턴: ## 도입 ## 본론 ## 결론 같은 도식적 분절.
처방: 산문형 글이면 헤딩 자체를 제거. 리포트형이면 헤딩 문구를 구체화("AI 규제의 세 가지 균열점").

C-4. 문단 첫 문장 요약 공식 [S2]

패턴: 매 문단 첫 문장이 그 문단의 요약(topic sentence). 영어 작문 교본식.
처방: 일부 문단은 사례·장면·인용으로 시작하도록 순서를 흐트러뜨림.

C-5. 이모지 남발 [S1]

패턴: ✅ 🚀 💡 ⚠️ 📊 같은 이모지가 리스트 머리·헤딩·강조에 박혀 있음.
처방: 에세이/리포트 문맥이면 전량 제거. SNS·제품 카피가 아닌 이상 AI 티가 극단적으로 강함.

C-6. 헤딩 아래 한 줄 요약 박스 [S2]

패턴: 모든 섹션 헤딩 직후 "이 섹션에서는 ~를 다룬다" 같은 안내문.
처방: 삭제. 본문이 바로 들어가야 한국어 글답다.

C-7. 문단 간 기계적 "먼저·반면·결국" 3단 공식 [S2] · v1.1 신규

패턴: 문단 문두가 순서대로 "먼저 ~ / 반면 ~ / 결국 ~" 또는 "첫째 ~ / 둘째 ~ / 마지막으로 ~"로 고정. 한국 필자도 가끔 쓰나, 3연속 이상이면 AI 특유.
예: 본 문서 v1 초안 (문단 2 "먼저", 문단 3 "반면", 문단 6 "결국")
처방: 3개 중 2개 삭제. 순서 의미는 문단 자체 흐름으로 전달. 문두 접속사 없는 문단도 섞음.

C-8. 대칭 대구 공식 "A인가, B인가" 반복 [S2] · v1.1 신규

패턴: 동일 문서에서 이항 대립이 3회 이상 평행구로 반복. 영어 수사학 직역.
예: "독점인가, 확산인가" / "전략가에게는 ~, 입안자에게는 ~" / "누가 더 ~, 누가 더 ~"
처방: 3개 중 2개는 비대칭으로 재배치. 한쪽만 질문형·다른 쪽은 서술형으로 섞거나, 한쪽을 더 길게 풀어쓰고 다른 쪽은 짧게.

C-9. 숫자 괄호 인덱싱 "1) 2) 3)" [S2] · v1.3 신규

패턴: 동일 문단 또는 인접 문장에서 항목을 1) ... 2) ... 3) ... 형식으로 나열. C-1(첫째·둘째·셋째)·C-2(불릿)와 별개의 표기 시그니처. 한국어 인간 필자도 보고서에서 가끔 쓰지만, LLM 산출물에서는 3개 항목이 있을 때 거의 자동으로 숫자 괄호 인덱싱이 등장하는 빈도가 압도적으로 높음.
예: "1) 표준화된 인프라가 일반화되면서 학습 데이터 확보가 용이해졌다. 2) 도메인 특화 LLM이 성숙하면서 비정형 텍스트의 활용 범위가 넓어졌다. 3) 클라우드 GPU 단가가 크게 하락하면서 자체 학습이 비용 측면에서 정당화 가능한 수준에 들어왔다."
처방: 3개 중 1개는 서술문으로 녹이고, 나머지 2개도 1)·2) 표기 대신 "우선~", "다음으로~" 형식으로 어휘 변주. 정말 동일 구조 나열이 의미 있을 때만 숫자 괄호를 유지하되 한 문서에 1회 이하.

C-10. 콜론 부제 헤딩 공식 "X: Y" 또는 "X: A에서 B로" [S2] · v1.3.1 신규

패턴: 헤딩에 거의 자동으로 콜론을 사용해 "메인 라벨: 부제" 또는 "메인 라벨: 주제 명사구" 형태로 구조화. C-3(반복 헤딩) 인접하지만 별개 — C-3는 도식적 분절(## 도입 ## 본론 ## 결론)이고 C-10은 헤딩 자체에 메타 라벨 + 콜론 + 부제를 박는 공식. Gemini-우세 시그니처(회차 3 검증).
예: "### 서론: 제조업의 미래, AI에 달려있다" / "### 본론 1: 빛과 그림자, 대기업과 중소기업의 디지털 격차" / "## 2026년 핀테크, '일상'을 넘어 '생태계'로 진화하다"
처방: 헤딩에서 콜론 + 부제 자체를 제거하고 단일 명사구·동사구로 압축. 정말 부제가 필요하면 (a) 본문 첫 문장에 녹이기, (b) 콜론 대신 — 또는 줄바꿈 활용. 한 문서에 콜론 부제 헤딩 1회 이하.

C-11. 연결어미 뒤 쉼표 [S1] · v1.6 신규

패턴: 연결어미(-고/-며/-지만/-면서/-아서·어서/-자/-는데) 직후에 쉼표가 따라옴. 한국어 인간 필자는 연결어미 자체가 호흡 단위를 만들어 추가 쉼표가 거의 불필요한데, AI는 영어 comma-after-conjunction 감각을 이식해 자동으로 쉼표를 박음. 분류 체계 전체 단일 지표 최강 분리도(KatFish 에세이 인간 4.10% vs AI 19.83%, 4.84배).
예: "AI는 빠르게 발전하지만, 기업의 대응은 더디다" / "데이터를 정제하고, 모델을 학습시킨다음, 결과를 검증한다" / "비용이 낮아지면서, 진입장벽이 사라졌다"
처방: 연결어미 뒤 쉼표를 일괄 제거. 호흡이 너무 길어지면 한국어식 절(節) 분할(마침표로 끊기) 또는 다른 위치(주절 경계)로 쉼표 이동. 한 문서 6+회 등장 시 S1, 3~5회는 S2로 강도 분기.

C-12. 쉼표 포함률 (문서 단위) [S2] · v1.6 신규

패턴: 전체 문장 중 쉼표를 1개 이상 포함하는 문장의 비율이 50%를 넘음. C-11(연결어미 뒤 위치 특이)과 측정 차원이 다름 — C-12는 문서 전체 분포. AI는 거의 모든 문장에 쉼표를 넣는 경향(KatFish 에세이 인간 26.31% vs AI 61.03%, 2.32배).
예: 한 문단 5개 문장 중 4~~5개 모두에 쉼표가 박힌 상태(인간 평균은 5개 중 1~~2개).
처방: 쉼표 1+ 문장 비율 50% 초과 시 일부 문장의 쉼표를 (a) 마침표 분할로 단문화, (b) 연결어미로 흡수, (c) 그냥 삭제로 전환. baseline 26~33% 기준 z>1.0 가산.

D. AI 특유의 관용구 (Signature Phrases) — S1

한국어 인간 필자가 거의 쓰지 않지만 LLM이 반복적으로 산출하는 상투구. 발견 즉시 교체.

D-1. 종결·요약류

"결론적으로", "요약하면", "종합하면", "정리하자면"
"~라고 할 수 있다" / "~라고 볼 수 있다"
"~라 하겠다", "~라 할 것이다"
"~에 다름 아니다"
KatFish 검증 결산 lexicon 4종 (v1.6 보강): "결론적으로 / 따라서 / 이를 통해 / 그러므로" — Park et al. 보고서 lexicon-grounded 6대 지표 5번. LREAD Phase 2 루브릭에서 인간 판독 정확도 60→90% 상승의 핵심 항목. 이 4종 합산이 한 문서에 3회 초과 시 D-1 가산을 강화(S1 유지). "이를 통해"는 A-2(~를 통해 남발)와도 가산되며, "따라서·그러므로"는 H-1(문두 접속사)과 가산.

D-2. 의의·중요성 과장

"매우 중요하다", "반드시 기억해야 한다"
"시사하는 바가 크다", "주목할 만하다"
"간과할 수 없다", "무시할 수 없다"
"~의 지평을 연다", "~에 방점을 찍는다"
"그 의미가 적지 않다", "의미심장하다"

D-3. 열거 도입

"크게 세 가지로 나눌 수 있다"
"다음과 같은 특징을 가진다"
"다음과 같이 요약할 수 있다"

D-4. AI 티 특화

"혁신적인", "획기적인", "전례 없는" (hype 어휘)
Gemini-우세 hype 어휘 셋 (v1.3.1 보강): "압도적·막강한·폭발적·파격적·대대적·강력한·치열한·뜨거운"
- "압도적 1위 카카오뱅크는 ~ 막강한 월간 활성 이용자(MAU)"
- "파격적인 예적금 금리"
- "폭발적인 호응을 얻고 있다"
- "대대적인 개편이 필요합니다"
"~의 가능성을 열어준다"
"~의 새로운 장을 열다"
"~시대가 도래했다"

D-5. 의인화된 추상 주어 [S2] · v1.1 신규

패턴: 사건·기술·개념을 주어로 삼아 인간 행위처럼 서술. AI가 글을 "무게감 있게" 보이게 하려는 기본 동작.
예: "두 지능의 충돌이 질문을 던집니다" / "AI 대전이 끝나지 않습니다" / "지능의 가성비가 증명합니다"
처방: 실제 행위자로 주어 교체("두 회사의 경쟁은", "엔지니어들은"), 또는 의인화 동사 약화("던집니다"→"남습니다"·"생깁니다"). 단, 상징적 제목·요약 1회 정도는 허용.

D-6. 완결 공식형 결말 "~할 때입니다 / 시점입니다" [S2] · v1.1 신규

패턴: 칼럼·리포트 마지막 문장이 "~해야 할 때입니다", "~로 나아갈 시점입니다", "~할 순간입니다" 공식.
예: "에이전트 정부의 시대로 나아가야 할 때입니다"
처방: 동일 의미를 구체 동사 단언으로. "에이전트 정부 단계로 넘어갈 때입니다" 정도까지는 허용(덜 과장). 한 문서에 한 번만.

D-7. 변환 공식 "X에서 Y로 / X을 넘어 Y로" [S2] · v1.3.1 신규

패턴: 패러다임 전환·진화·고도화를 표현할 때 거의 자동으로 사용. D-1·D-2·D-6와 별개의 결산/슬로건 공식. C-8(A인가 B인가, 질문형)과도 다른 시그니처 — 변환의 방향성을 강조. Gemini-우세 시그니처(회차 3 검증, 7회·2도메인 분산).
예: "'규모의 경쟁'에서 '전략의 경쟁'으로", "'지식 전달자'에서 '학습 조력자'로", "'무엇을'에서 '어떻게'로", "'데이터 조회'를 넘어 '맞춤형 금융 비서'로"
처방: 변환 공식을 직접 단언으로 (예: "'지식 전달자'에서 '학습 조력자'로" → "교사는 더 이상 지식 전달자가 아니다. 학생 곁에서 학습을 돕는다"). 한 문서에 변환 공식 1회 이하. 정말 패러다임 전환이 핵심 메시지일 때만 본문 결산에서 1회.

처방: 대부분 삭제. 의미가 필요하면 구체 명사·동사로 치환("중요하다"→"핵심이다" 혹은 구체 근거로).

E. 리듬·문장 길이 균일성 — S2

E-1. 문장 길이 표준편차 낮음

모든 문장이 30~50자 부근에 몰려 있음.
처방: 의도적으로 단문(10~~15자) 1~~2개를 문단마다 끼워 넣어 리듬 변주. 장문(80자+) 1개도 혼용.

E-2. 동일 종결어미 반복

"~이다. ~이다. ~이다."
"~한다. ~한다. ~한다."
처방: "~다"·"~았다"·"~인 것"·명사형 종결을 섞음. 인간 필자는 무의식적으로 변주함.
v2.0 보강 — 진행형 '~고 있다' 자동 매핑 처방:
- 영어 진행형(be -ing)을 한국어 '~고 있다'로 자동 매핑하면 잉여(보고서 §3.8.4 verbatim — '지금 책을 읽는다 / 책을 읽고 있다' 모두 가능, 단순 시제로도 진행 의미가 표현됨).
- 진행형 '~고 있다' 발견 시 단순 시제로 환원 가능성 검토 (pe_checklist PE10). 예: "I have been thinking about it. → 그동안 그 일을 곰곰이 생각해 봤다" (~해 오고 있다 거부).
- 한 단락 내 종결어미 '~다' 4문장 이상 연속 시 다양화 ('~었다·~ㄴ다·~는다·~기 마련이다·~ㄹ 것이다·~을 수 있다' 등) — pe_checklist PE9.
- metric progressive_aspect_rate (~고 있다 빈도 / 전체 문장 수) >0.5 시 가산.
source_anchor: 김혜영 2019 통번역교육연구 17(2): 133-162 doi:10.23903/kaited.2019.17.2.007 · see_scholarship: scholarship.md#8-종결어미시제서법-처리

E-3. 모든 문단 3~4문장 공식

문단 길이도 균일.
처방: 1문장 문단 / 6문장 문단을 의도적으로 섞음.

E-4. 단문 일변도 (복문·중문 부재) [S2] · v1.5.1 신규

패턴: 문장 대부분이 단문(주어-서술어 1쌍)으로만 끊어져 있고 연결어미·관형절·인용절을 활용한 복문·중문이 거의 없음. "간결하게 써라" 지시를 받았거나 짧은 호흡을 의도한 AI 출력에서 빈출. 인간 필자는 단문과 복문을 무의식적으로 섞어 호흡을 만들기 때문에, 단문만 줄지어 나오는 리듬 자체가 시그니처가 된다. E-1(길이 균일성)과 짝패턴 — E-1은 길이의 표준편차, E-4는 구조의 단조성을 지적.
예: "AI는 빠르게 발전한다. 기업은 따라가야 한다. 시간이 없다. 데이터가 핵심이다. 인재도 부족하다."
비교(인간 톤): "AI가 빠르게 발전하는 가운데 기업은 따라가야 한다. 시간은 없고 데이터는 핵심이며, 인재마저 부족하다."
처방: 인접한 단문 2~3개를 연결어미("-며·-고·-는데·-면서·-자")·관형절("~하는 N", "~인 N")·인용절·조건절로 묶어 복문화. 단문 비중을 60% 전후로 조절하고 복문·중문을 30% 이상으로. 단문은 강조·전환·결정타에만 의도적으로 사용.

E-5. 쉼표 분절 평균 길이 (긴 절 구조) [S2] · v1.6 신규

패턴: 쉼표로 분절된 절(節)의 평균 어절 수가 길어짐. AI는 한 문장 안에 긴 부속절을 콤마로 이어 붙이는 영어식 long-sentence 구조를 산출(KatFish 에세이 인간 4.35어절 vs AI 8.56어절, 1.97배). E-4(단문 일변도)와 짝패턴이지만 반대 방향 — 짧으면 단문 일변도, 길면 영어식 long sentence, 두 극단 모두 AI 시그니처.
예: "AI 기술이 빠르게 발전하면서 산업 전반의 생산성이 높아지고 있는 가운데, 기업의 디지털 전환 속도가 가속화되고, 인재 확보 경쟁이 치열해지면서, 데이터 인프라 투자도 확대되고 있다." (한 문장 안 4개 절, 각 8~12어절)
처방: 평균 절 길이 7어절 초과 시 가산. 8어절 이상 절은 마침표로 분할하거나 영어식 부속절을 한국어 관형절로 압축. E-4와 동시 위반 시 가중.

E-6. 쉼표 전후 POS 다양성 높음 (구문 복잡도) [S2] · v1.6 신규 · 장르 가드

패턴: 쉼표 앞·뒤에 등장하는 품사(POS) 종류 수가 폭증. AI는 쉼표를 다양한 품사 경계에 무차별 삽입(주어·부사절·삽입절·접속사 뒤 등)해 POS 다양성이 매우 커짐(KatFish 에세이 인간 24.38 vs AI 59.39, 2.44배). 장르 가드 — 에세이·뉴스·블로그·QA·보고서 한정 적용. 시·소설 등 운문·문학 장르에서는 분리도 약함(시: 인간 23.13 vs AI 23.86, 1.03배).
예: 같은 문서 안에서 쉼표가 명사 뒤·부사 뒤·동사 뒤·관형사 뒤·인용 뒤·접속사 뒤 모두에 무차별 삽입.
처방: 쉼표 사용 위치를 (a) 주절 경계만, (b) 명백한 동격·삽입만으로 한정. 무차별 삽입 금지. baseline 2430(에세이/뉴스) 기준 z>1.0 가산.

E-7. 청자 경어법 일관성 손실 (해라/하게/하오/해요/합쇼체) [S2 · estimated] · v2.0 신규

패턴: 한국어는 교착어로서 종결어미가 (a) 문장종결법, (b) 화행, (c) 양태(modality), (d) 청자에 대한 공손성, (e) 화자–청자 관계까지 표시한다(보고서 §3.8.1 verbatim). 영어는 종결어미가 없어 어순·동사 굴절·양태조동사로 이를 표현하므로, 영한 번역·LLM 출력은 청자 경어법 일관성을 자주 잃는다. 해라체·하게체·하오체·해요체·합쇼체 4단계가 한 문서·대화 안에서 뒤섞임. E-2(동일 종결어미 반복)와 axis가 다름 — E-2는 단일 종결어미의 단조 반복, E-7은 격식 단계의 일관성 손실.
estimated 플래그 (caveat C1): 김혜영 2019 본문 정량 수치(평서형 '-다' 출현 빈도 %)는 KCI ART002506702 영문 초록·키워드 기반 추론. PDF 직접 확보 전까지 임계는 'estimated' 유지.
예: 같은 대화 안에서 "도와주시겠습니까?(합쇼)" 다음에 "도와줘?(해라)"가 갑자기 등장; 같은 보고서가 한 문단은 "~합니다"(합쇼), 다음 문단은 "~한다"(해라)로 점프; "Will you help me? → 당신은 나를 도와주겠습니까?"식 격식 과잉 직역.
처방:
- (a) 문서 시작 시 청자 등급(해라/하게/해요/합쇼)을 결정하고 일관 유지
- (b) "Will you help me?"는 관계·공손도에 따라 "좀 도와주시겠어요? / 도와줄래?" 등 적절한 한 단계만 선택
- (c) 화행·양태(might/may)는 단조 처리("~수 있다") 거부 — "~을지 모른다·~을 가능성도 있다·~을 수도 있겠다·~을 법하다"로 다양화
검출 임계: 장르 가드 — 대화·구어 텍스트(소설 대화·인터뷰 트랜스크립트·에세이 내 인용 대화) 한정 적용. 보고서·정책문 등 격식체 단일 장르는 본 패턴 미적용 (이미 합쇼체로 일관). 한 문서·대화 안에 2단계 이상 격식 혼재 발견 시 S2.
source_anchor: 김혜영 2019 통번역교육연구 17(2): 133-162 doi:10.23903/kaited.2019.17.2.007 · see_scholarship: scholarship.md#8-종결어미시제서법-처리

F. 과도한 수식·중복 — S2

F-1. 정도부사 중독

"매우", "정말", "진짜로", "대단히", "극히"
처방: 대부분 삭제. 강조가 필요하면 구체 수치·사례로 대체.

F-2. 동의어 이중 수식

"중요하고 핵심적인 역할"
"새롭고 혁신적인 접근"
"지속적이고 꾸준한 노력"
처방: 두 수식어 중 하나만 남김.

F-3. 기능+역할 복합구

"~로서의 역할과 기능"
"~의 의미와 가치"
처방: 하나만.

F-4. 과잉 접두·접미

"~적 측면", "~적 관점"
"~성(性)", "~화(化)" 남발
예: "근본적 관점에서 구조적 변화가 필연적이다" → "구조가 근본부터 바뀐다"
한자어 명사화 접미사 3종 명시 (v1.6 보강): "-성(性) · -적(的) · -화(化)" — KatFish 보고서 hanja_nominalizers 정식 명시. 이 3종 결합 어휘 밀도가 한 문서 12회 초과 시 S2 강화. F-5(~적 N 복합 추상어 체인)는 "-적" 접미사의 특수 케이스로 그대로 분리 유지. 처방은 본 항목과 동일 — (a) 동사·형용사 어근, (b) 구체 명사로 해체.
영어 명사화 접미사 4종 통합 (v2.0 보강): 영어 명사화 접미사 -tion · -ment · -ness · -ity가 누적된 영어 명사구의 한국어 명사 직역도 동일 처방으로 묶음. 예: "the implementation of the policy → 정책 시행" 또는 "정책을 시행하기" (보고서 §3.6 verbatim 처방). 영어 명사화 4종이 한국어 한자어 명사로 1대1 매핑된 경우 동사·형용사 어근으로 환원. 한자어 3종(-성·-적·-화) + 영어 4종(-tion·-ment·-ness·-ity) 통합 가산 임계는 위 v1.6 임계(한 문서 12회 초과 S2 강화) 그대로 유지.
source_anchor: 김정우 2007 번역학연구 8(1): 61-82 · see_scholarship: scholarship.md#6-명사화-표현-및-havemake-류-직역

F-5. "~적 N" 복합 추상어 체인 [S2] · v1.1 신규

패턴: 명사 앞 "~적 N" 형태가 한 문서에 3회 이상 반복. F-4와 달리 추상 관형("적 측면/관점")이 아닌 구체 명사 앞 "~적 N" 체인. 원문의 지적 권위를 AI가 흉내 낼 때 빈출.
예: "에이전트적 자율성", "기술적 안정성", "경제적 자립", "기술적 토대", "시스템적 접근", "구조적 변화"
처방: 해당 "~적 N"을 (a) "~로서의 N" ("에이전트로서의 자율성"), (b) 동사구 ("기술이 얼마나 안정적인가"), (c) 구체 명사 ("토대") 중 하나로 해체. 문서 전체에서 "~적 N" 밀도를 절반 이하로.

G. 과도한 Hedging (완곡) — S2

G-1. 추측·관측형 종결

"~할 수 있을 것으로 보인다"
"~인 것으로 판단된다"
"~라고 여겨진다"
"~인 듯하다"가 모든 문장 끝에 붙음
처방: 단언할 수 있는 곳은 단언. hedging은 정말 불확실한 지점에만.

G-2. 이중·삼중 완곡

"~할 가능성이 있을 수 있다"
"~로 보여질 수 있다"
처방: 하나만 남김.

G-3. 안전 균형 lexicon (Safe Balance Score) [S2] · v1.6 신규

패턴: "양쪽 모두 / 두 가지 모두 / 장점도 있지만 / 신중하게 / 균형" 등 균형·양면성·완곡 어휘 빈도가 높음. KatFish 보고서 lexicon-grounded 6대 지표 6번. G-1(추측·관측형 종결어미)과 측정 차원이 다름 — G-1은 종결어미 단위, G-3는 lexicon 단위. LREAD 루브릭의 "위험 회피·양면 제시" 항목과 직결.
예: "양쪽 모두 일리가 있다 / 두 가지 모두 검토할 필요가 있다 / 장점도 있지만 단점도 있다 / 신중하게 접근해야 한다 / 균형 잡힌 시각이 중요하다"
처방: 균형 어휘를 (a) 한쪽 단언, (b) 구체 사례 비교, (c) 조건부("X일 때는 A, Y일 때는 B")로 변환. "신중하게·균형"은 구체 동사·기준으로 치환. 한 문서 lexicon 5종 합산 4회 초과 시 S2 가산. 정책·보고서 장르 한정(에세이·시는 baseline이 다름 — 향후 metric-engineer가 장르별 보강).

H. 접속사 남발 — S2

H-1. 문두 접속사 과다

매 문장·매 문단 시작에 "또한", "따라서", "즉", "나아가", "아울러", "게다가", "더욱이"
처방: 70% 이상 제거. 논리 흐름은 문장 내용 자체로 드러나야 함. 정말 역접·인과 강조가 필요할 때만.

H-2. "하지만"과 "그러나" 혼용 남발

역접이 문단마다 등장.
처방: 반절 이상 삭제. 대비가 자명하면 접속사 없이도 통함.

H-3. "이는 ~" 지시 반복

"이는 ~을 의미한다"
메타 진입 변종 (v1.3 보강): "이 점에서 ~ / 이 관점에서 보면 ~ / 이 말은 ~" — 본진 H-3와 같은 기능(앞 문장을 받아 부연 설명)이지만 형태소가 다른 결합형
- "이 관점에서 보면 AI 시대 유망 직무도 다시 보인다"
- "이 말은 결국 기술 도입보다 인력 전환이 더 큰 병목이 될 수 있다는 뜻이다"
- "이 점에서 앞으로 강해질 인재는 크게 다섯 부류다"
처방: 앞 문장과 붙이거나 구체 서술로 치환. 결합형도 동일 처방 — 메타 진입 자체를 삭제하고 본 서술로 직진.

H-4. 재정의 접속사 "즉" 남발 [S2] · v1.1 신규

패턴: 영어 i.e. / that is 직역. 보충 설명이 필요할 때마다 "즉"을 앞에 붙임.
예: "AI 민주화, 즉 경제성 측면에서"
처방: "곧", "말하자면", "다시 말해", "바꿔 말하면"으로 어휘 변주. 또는 아예 생략하고 앞뒤를 쉼표로만 연결. 한 문서에 "즉" 2회 이하로 제한.

I. 형식명사·의존명사 과다 — S2

I-1. "것이다" 종결 남발

"~한 것이다", "~일 것이다"가 문단의 대표 종결.
처방: 확정 서술로. "~다"로 끝맺음.

I-2. "점", "바", "수", "데" 반복

"주목할 점은", "나아갈 바는", "할 수가 있다", "하는 데에"
결합형 변종 (v1.3 보강): "X은 ~라는 점에 있다" 강조 위치 서술
- "핵심은 진입장벽이 빠르게 낮아지고 있다는 점에 있다"
- "의의는 표준화가 사업장별로 들쭉날쭉하다는 점에 있다"
- "주목할 부분은 수익 모델이 정착되지 않았다는 점에 있다"
처방: 구체 명사·동사로 치환 또는 삭제. 결합형은 "X은 ~다" 형태 단언으로 직결.

I-3. "~라는 것"

"변화가 크다는 것이다."
결말 단언 변종 (v1.3 보강): "~라는 뜻이다 / ~다는 뜻이다" — GPT가 결산 문장을 형식명사로 마무리할 때 거의 자동으로 등장
- "기술 도입보다 인력 전환이 더 큰 병목이 될 수 있다는 뜻이다"
- "한국에서는 이 문제가 더 민감하다는 뜻이다"
- "더 큰 시장은 응용 산업에서 나올 가능성이 높다는 뜻이다"
처방: "변화가 크다." (종결어미 직결). 결말 변종은 "~다" 직접 종결로 (예: "병목은 인력 전환이다"). 한 문서에 형식명사 결산("~다는 것이다 / ~다는 뜻이다 / ~다는 점이다") 합산 2회 이하.

I-4. "~할 필요가 있다" + 정책 보고서 권고형 결말

영어 should/need to 직역.
권고형 결말 변종 (v1.3.1 보강): "~해야 한다 / ~해야 합니다"가 정책·보고서 결말마다 자동 등장. 한 문서에 5회 초과 시 S2 강화 (자동 생성 시그니처).
- "공유 플랫폼을 구축해야 한다 / 바우처 지원 사업을 대폭 확대하여 ~ 낮춰야 한다 / 핵심 인재를 양성하는 것이 중요하다"
- "균형을 맞춰야 합니다 / 구축해야 합니다 / 마련해야 합니다 / 지원해야 합니다"
처방: "~해야 한다 / ~해야 합니다"를 (a) 구체 동사 단언("~를 시급히 추진"), (b) 주체 명시 동사("정부는 ~를 도입한다"), (c) 조건문("~이 충족되면 ~가 가능하다") 중 하나로 변주. 한 문서 5회 초과 권고형 결말은 회피.

I-5. "~이/가 필요하다"

"혁신이 필요하다", "변화가 필요하다"
처방: 누가 무엇을 해야 하는지 주어·동사로 구체화.

I-6. "~능력" 추상명사 연쇄 [S2] · v1.1 신규

패턴: "N 능력"이 한 문서에 3회 이상 반복되며 동사 대신 명사구로 능력을 서술. 영어 ability to X / X capability 직역 감성.
예: "사고 능력", "워크플로우 수행 능력", "장기 문맥 유지 능력", "추론 능력"
처방: 동사형으로 풀기. "사고 능력은 뛰어나다" → "잘 사고한다" / "사고의 수준이 높다". "워크플로우 수행 능력" → "워크플로우를 얼마나 잘 처리하는지". 한 문서에 "~능력" 2회 이하로 제한.

J. 시각 장식 남용 — S2~S3

J-1. 과도한 볼드

문장마다 핵심 단어 볼드.
처방: 본문에서 볼드는 거의 제거. 시각적 소음만 발생.

J-2. 따옴표 과다

개념어·강조어에 "" 남발.
빈도 임계 명시 (v1.3.1 보강): 한 문서에 따옴표 강조 어휘 5회 초과 시 S2 강화. Gemini는 한 문서에 17~33회 사례(예: "'옥석 가리기'·'금융 슈퍼앱'·'데이터 피로감'·'규제 샌드박스'·'무대 위의 현자'·'곁에서 돕는 안내자'·'학습 경험 설계자'").
처방: 진짜 인용·특수 용례에만 한정. 개념어 강조는 (a) 본문 흐름에 녹이거나 (b) 첫 등장 시 1회만 따옴표 사용 후 이후 한국어 평문으로.

J-3. 대시(—) 남용

영어 em-dash 스타일 부가 설명.
예: "AI는 도구 — 그 이상도 이하도 아닌 — 이다"
처방: 쉼표·괄호·별도 문장으로 분해. 1문서에 1~2회 이하.

J-4. 괄호 부연 과다

"(이는 ~을 의미한다)" 같은 부연이 반복.
처방: 괄호 부연 대부분 본문화 또는 삭제.

탐지 출력 스키마 (Detector → Rewriter 공유 계약)

탐지기는 다음 JSON을 생산한다:

{
  "meta": {
    "input_length": 1820,
    "detected_count": 37,
    "ai_tell_density": 0.203,
    "severity_weighted_score": 71.5
  },
  "findings": [
    {
      "id": "f001",
      "category": "A-2",
      "category_label": "번역투: ~를 통해 남발",
      "severity": "S1",
      "text_span": "데이터 분석을 통해",
      "start": 142,
      "end": 153,
      "reason": "'통해'가 본문에서 6회 반복되어 경로 서술이 기계적",
      "suggested_fix": "데이터를 분석해서"
    }
  ],
  "category_summary": {
    "A": 12, "B": 3, "C": 2, "D": 8, "E": 1,
    "F": 4, "G": 2, "H": 3, "I": 1, "J": 1
  }
}

severity_weighted_score: S1=5, S2=2, S3=0.5 가중 합. 0~100 스케일로 정규화.
ai_tell_density: 탐지 span 총 글자 수 / 전체 글자 수.

post-editese 3축 — metric-only 트랙 (v2.0 도입)

중요: post-editese 3축(simplification·normalisation·interference)은 본진 패턴 ID 미부여 상태로 운영한다. 이유는 caveat C3 verbatim — "Toral(2019)은 en→de, de→en, es→de, en→fr, zh→en의 5개 언어쌍을 다뤘고, 한국어는 포함되지 않았다. 한국어에 대한 동일 결론은 합리적 추론이지만 정량적 검증은 미수행 상태다." 따라서 본진 패턴 ID는 토큰·구문 매칭 가능한 검증 시그널만 담고, 3축 합성 신호는 metric-only로 분리한다.

references/metrics_v2.py 14개 신규 함수가 3축을 운영한다(모든 metric에 speculative: true 플래그 권고):

simplification 축: lexical_diversity_ttr · lexical_density · ending_diversity (Baker 1993; Toral 2019).
normalisation 축: normalisation_score(평서형 -다/된다/이다 집중률) · da_streak_rate(-다 4문장 연속 streak 카운트) (Baker 1993).
interference 축: T1~T8 8개 검출 시그널 + interference_index 합성 (Toury 1995 law of interference) — inanimate_subject_rate(T1↔A-15·D-5) · by_passive_count/double_passive_count(T2↔A-8·A-9·A-12) · pronoun_density(T3↔A-16) · deul_overuse_rate(T4↔A-17 hold, 검증용 측정 유지) · relative_clause_nesting(T5↔A-18) · have_make_literal_count(T6↔A-7·F-4) · double_particle_count(T7↔A-19) · progressive_aspect_rate(T8↔E-2·E-7).

본진 패턴 → metric 연계는 양방향이다. 패턴 위반 카운트가 임계 초과면 detector·rewriter가 본진 ID로 처방하고, 동시에 metric 합성 점수가 baseline 대비 이상치면 reviewer가 추가 검증한다. 한국어 baseline은 metric-engineer가 비번역 한국어 corpus(Sejong 등) 기준 산출한다.

버전 관리

v2.0 (2026-05-07): 본진 신규 5건 + 본진 보강 4건 + post-editese metric-only 트랙 도입 — 한국어 번역투 종합 연구보고서(540줄, 4기 1994~ AI 융합 계보) + 보고서 §III.3 8유형 통합 + Toral 2019 post-editese:
- 본진 신규 4건: A-16 영어 대명사 직역 [S1, 김도훈 2009 + Cho et al. 2019 ACL] · A-18 관계절 좌향 수식 [S2, 박옥수 2018 + 김채은 2021] · A-19 이중 조사 결합 [S2, 김정우 2007 + 김순영 2012, caveat C5로 단순 ~의 명시 제외] · E-7 청자 경어법 일관성 손실 [S2 estimated, 김혜영 2019, caveat C1로 estimated 플래그]
- 본진 hold 1건: A-17 무정물·추상명사 '-들' 부착 [학술 anchor 곽은주·진실로 2011 + 전영철 2007 + 김순영 2012 강함, 다만 외부 회차(2026-05-07 위키 6편) + v1.6 input 5편 모두 양성 0건 → NMT 원본 출력 회차 후 v2.1 재평가. ID 비워둠 — patternID 안정성 보존. metric deul_overuse_rate + 사전 25종은 검증용 보존]
- 본진 보강: A-15에 사역 타동사형·인지·발화 동사·이중주어 구문 3축 처방 추가(이영옥 2001 + 김정우 2007) · A-7에 light verb construction 일반화(have/make/take/give + 명사) 처방 + 5건 verbatim 예문(김정우 2007 + 이근희 2005) · F-4에 영어 명사화 접미사 4종(-tion/-ment/-ness/-ity) 한국어 명사 직역 통합 처방(김정우 2007) · E-2에 진행형 '~고 있다' 자동 매핑 처방 추가(김혜영 2019)
- post-editese metric-only 트랙: simplification·normalisation·interference 3축은 본진 ID 미부여, metrics_v2.py 14개 신규 함수로 운영. caveat C3에 따라 모든 metric에 speculative: true 플래그 권고. 본진 패턴 → metric 양방향 연계
- 외부 SSOT scholarship.md: 학술 전문(8유형 한국 번역학계 계보 + Baker·Toury·Laviosa·Chesterman·Toral 등 국제 이론 + 보고서 caveat 6건 verbatim)을 외부 파일로 분리. 본진 SSOT는 패턴 행마다 source_anchor + see_scholarship 한 줄 메타로 가리킴 — 본진 슬림성 유지
- 카테고리 호환성: A·E 카테고리만 확장(A-15→A-19, E-6→E-7). 기존 A-1~~A-15·E-1~~E-6 본문 무수정. 새 K 카테고리 신설 거부 — 본진 패턴 ID 참조 안정성 보존
- caveat 적용 게이트: C1(김혜영 2019 정량 미확인 → E-7 estimated 플래그) · C2(NMT 마케팅 편향 → 모델별 가중치 거부) · C3(post-editese 한국어 미검증 → metric-only 트랙) · C5(단순 ~의 학계 합의 부재 → A-19 정의에서 명시 제외) · C6(LLM 빠른 진화 → 'valid as of 2026-05' 명기)
- 분류 체계의 새 차원: v2.0은 한국 번역학계 정통성 계보(이영옥 2001~김혜영 2019)를 본진에 통합한 첫 회차. v1.6의 KatFish/LREAD 외부 정량 신호와 결합하여 이론적 토대(8유형) + 정량 검증(KatFish) + 컴퓨테이션 검출(metric_v2) 3축으로 확장
v1.6 (2026-05-06): 본진 신규 5건 + 본진 보강 2건 + hold 2건 — 외부 정량 연구(KatFish, Park et al. 인간 470 vs LLM 1,624편 / 에세이·시·초록 + LREAD 인간 판독 실험) 기반 9건 후보 중 7건 본진 반영, 2건 풀 보존:
- 본진 신규: C-11 연결어미 뒤 쉼표 [S1, 4.84배 분리도 — 단일 지표 최강] · C-12 쉼표 포함률 [S2, 2.32배] · E-5 쉼표 분절 평균 길이 [S2, 1.97배 · E-4 짝패턴 반대극] · E-6 쉼표 전후 POS 다양성 [S2, 2.44배 · 에세이/뉴스 한정 장르 가드] · G-3 안전 균형 lexicon [S2 · 정책·보고서 장르 한정]
- 본진 보강: D-1에 KatFish 검증 결산 lexicon 4종("결론적으로·따라서·이를 통해·그러므로") 정식 인용 + 합산 3회 초과 임계 + A-2·H-1과 가산 명시 · F-4에 한자어 명사화 접미사 3종("-성·-적·-화") 정식 명시 + 한 문서 12회 초과 S2 강화 임계
- hold (본진 미등재): BN/VX 띄어쓰기 규칙성(Park et al. 정량 셀 미공개, 사용자 코퍼스 baseline 확보 후 v1.7 검토) · 페르소나-레지스터 불일치(v1.5 monolith fast 1콜 + author-context 미주입과 충돌, opt-in 메타 부스터 설계 정리 후 재검토). 후보 발자취는 _workspace/v1.6-2026-05-06/에 보존
- 분류 체계의 새 차원: v1.6은 외부 학술 연구의 정량 신호를 본진에 통합한 첫 회차. 연결어미 뒤 쉼표 4.84배 분리도는 v1.1~v1.5.1까지 통틀어 가장 강한 단일 지표
v1.5.1 (2026-04-27): 본진 신규 1건 — E-4 단문 일변도 (복문·중문 부재) [S2]. 사용자 관찰: "지나친 단문은 AI 티가 난다. 사람이 작성할 때는 적절한 단문과 복문을 섞는다." E-1(문장 길이 표준편차)과 짝패턴이지만 별개 시그니처 — E-1은 "30~50자에 다 몰림", E-4는 "구조 자체가 단순 단문만". 인간 필자가 무의식적으로 만드는 단문+복문 혼합 리듬을 모사하지 못하는 AI 출력의 약점을 분류 체계로 명시화.
v1.3.1 (2026-04-25): 본진 신규 2건 + 본진 보강 3건 — 사용자 제공 Gemini API 키로 직접 호출한 회차 3 데이터(Gemini Pro 2.5 4편 약 10,058자) 분석 결과:
- 본진 신규: C-10 콜론 부제 헤딩 공식 [S2] · D-7 변환 공식 'X에서 Y로' [S2] (둘 다 Gemini-우세 시그니처)
- 본진 보강: D-4 Gemini hype 어휘 셋 추가 (압도적·막강한·폭발적·파격적·대대적·강력한) · J-2 빈도 임계 명시(한 문서 5회 초과 S2 강화) · I-4 권고형 결말 변종 추가 (~해야 한다·~해야 합니다, 정책 보고서 5회 초과 임계)
- 회차 2 hold 후보 검증: GPT 9회+ 등장한 "결국" 문두 단언이 Gemini 4파일에서 1회만 재현. "A가 아니라 B" 결산 대구도 GPT 7회+ vs Gemini 2회. 5+ 콤마 나열은 Gemini 0회. 회차 2 hold 후보 3건 모두 GPT-우세 시그니처로 추정 — 풀에 hold 유지하면서 status_reason 갱신, 회차 4 국내 모델 검증 시 'GPT-특유' 메타 분류 검토
- 새 hold 후보 1건: cand-C-2026-011 굵은 번호 부제 (Gemini 1파일 4회, Gate 1.2 분산 미달)
- 분류 체계의 새 차원 신호: 회차 1·2·3을 거치며 분류 체계에 "모델 우세 분포" 메타데이터 도입 필요성 부상 (v1.4 검토 사항)
v1.3 (2026-04-25): 본진 신규 1건(C-9) + 본진 보강 3건(I-2 회차 1·I-3·H-3 회차 2), 그리고 서브 패턴 발굴 운영 체계 도입. 본진 신규/보강과 운영 인프라 확장이 함께:
v1.1 (2026-04-24): 실전 1호(AI 전략 칼럼 윤문) 자기 재감사 결과, 재현 2회+ 패턴 7건 승격:
- A-15 추상 주어 + 만능 동사 (X가 Y를 보여준다/제공한다)
- C-7 문단 문두 "먼저·반면·결국" 3단 공식
- C-8 대칭 대구 공식 "A인가, B인가" 반복
- D-5 의인화된 추상 주어 ("두 지능의 충돌", "AI 대전")
- D-6 완결 공식형 결말 "~할 때입니다 / 시점입니다"
- F-5 "~적 N" 복합 추상어 체인 (에이전트적 자율성·기술적 토대)
- H-4 재정의 접속사 "즉" 남발
v1.3 (2026-04-25): 본진 신규 1건 (C-9 숫자 괄호 인덱싱) + 본진 보강 1건 (I-2 결합형 변종), 그리고 서브 패턴 발굴 운영 체계 도입. v1.2 이후 멈춰 있던 패턴 발굴이 새 인프라로 깨진 회차:
- 본진 신규: C-9 숫자 괄호 인덱싱 "1) 2) 3)" [S2] — _workspace/taxonomy_changelog.md 회차 1에서 풀 후보 cand-C-2026-001이 6게이트 통과 후 승격
- 본진 보강: I-2 시그니처 예문에 "X은 ~라는 점에 있다" 결합형 변종 4건 추가 — 풀 후보 cand-I-2026-003이 Gate 2.2(본진 변종)에서 merged 처리되며 흡수
- 운영 인프라 5종 신설:
- candidate 풀 신설 (references/pattern-candidates.md) — detector·rewriter·naturalness-reviewer가 미분류 의심 패턴을 단일 그릇에 누적. 임시 ID(cand-{대분류}-{YYYY}-{NNN})·4상태(pending/promoted/rejected/merged)·기각 사유 5종 라벨·90일 미재현 자동 만료 정책
- 3개 에이전트 적재 채널 명문화 — detector(미분류 span)·rewriter(윤문 저항·반복 잔존)·naturalness-reviewer(외부 시각, voice profile 미주입)에 풀 적재 트리거·절차 추가. 적재 실패는 메인 파이프라인 막지 않음
- taxonomist 풀 운영자 역할 추가 — 4가지 trigger(사용자 명시 / pending 10건 / 단일 후보 occurrences ≥ 3 / 외부 PR) 기반 점검. 점검 6단계 절차와 changelog 표준 형식 명문화
- 외부 샘플 수집 파이프라인 (references/sample-collection.md) — 4축 다양성 매트릭스(모델·장르·길이·작가), 4종 채널(사용자 자발·합성 샘플·공개 데이터·외부 contributor), 익명화·저작권 5대 정책
- 승격 자동 검증 체크리스트 (references/promotion-checklist.md) — 6개 게이트(사전 점검·재현·본진 중복·분류 적합성·처방 적합성·본진 위계). 일부 게이트(0.2·0.3·1.1·1.2·5.2)는 향후 스크립트 자동화 가능
- v1.3 발행 전 파일럿 회차 결과:
  - 회차 1 (인프라 검증, 합성 샘플 2건): 미분류 후보 3건 발견 → promoted 1건(C-9 숫자 괄호 인덱싱) · hold 1건(메타 진입 '~을 살펴보면', Gate 1.3 분산 미달) · merged 1건(I-2 결합형). 인프라 작동 확인.
  - 회차 2 (외부 진짜 데이터, 뉴스핌 [AI로 읽는 경제] 시리즈 ① ② — ChatGPT 작성 명시 GPT 출력): 미분류 후보 5건 발견 → merged 2건(I-3 보강 '다는 뜻이다' 결말 변종, H-3 보강 '이 점에서·이 관점에서·이 말은' 메타 진입 변종) · hold 3건(H-N 후보 '결국' 문두 단언 9회+, D-N 후보 'A가 아니라 B' 부정-긍정 대구 7회+, C-N 후보 58개 콤마 빠른 나열 4회). hold 3건은 Gate 1.3 분산 보호장치가 진짜 외부 데이터에서 정확히 작동한 결과 — 같은 GPT·같은 기자 시리즈의 노이즈가 본진을 오염시키지 않으면서 다음 회차에 다른 모델·다른 작가 데이터에서 재현되면 즉시 promoted 가능한 강력 후보로 풀에 누적
v1.2 (2026-04-25): Issue #1(simonsez9510) 후속 — 패턴 신설 0건, 권한 위계와 운영 체계 추가:
- 권한 위계 §1~§6 신설 — 객관 분류 vs 작가 voice profile의 권한 경계 명문화. opt-in 명시 주입, 패턴 ID 단위 무력화만 허용, 자유 텍스트 mandate 금지, A-8·C-5·D-1~D-6 무력화 불가, naturalness-reviewer 분리 검증층 보존, 회귀 게이트 정책
- 임계 완화 multiplier 캡표 — 일반 ≤ 2.0, D-1~D-6 ≤ 1.5, A-8·C-5 = 1.0 고정 (임계 우회를 통한 사실상 무력화 방지)
- author-context.yaml 스키마 신설 (references/author-context-schema.md) — opt-in voice profile 주입 양식, Schema validator 책임(무력화 불가 disable 거부, multiplier 캡 위반 거부, prompt injection escape character 검증), Telemetry 정책(voice_profile_log.json)
- 에이전트 정의 갱신 — detector·rewriter·auditor에 voice profile 주입, naturalness-reviewer 의도적 미주입 명문화
- 경로 토큰화 — SKILL.md 절대 경로 제거, _workspace/는 cwd 기준
- 다운스트림 caller reference — references/proposals/(PR #3, simonsez9510 어댑터 reference, 메인테이너 SSOT 외부 격리)
확장 원칙: 실전 입력에서 재현 2회 이상 + 인간 필자가 거의 안 쓰는 패턴만 서브 항목 추가.

59 KiB Raw Permalink Blame History Unescape Escape