mirror of https://github.com/epoko77-ai/im-not-ai.git synced 2026-06-21 13:18:09 +00:00

epoko77-ai f53b8bc032 feat(taxonomy): v2.0 — 한국 번역학계 8유형 + post-editese metric 트랙 (A-17 hold)

본진 분류 체계에 한국 번역학계 8대 번역투 유형(이근희·김정우·김도훈·곽은주·
김순영·박옥수·김혜영·이영옥)을 흡수하고, Toral 2019 post-editese 3축
(simplification·normalisation·interference)을 14개 신규 metric 트랙으로
도입. monolith·5인 정의는 무수정, 도구 호출 3회 캡(v1.6.1) 보존.

신규 패턴 4건 (본진 등재):
  - A-16 영어 대명사 직역 [S1, 김도훈 2009 + Cho et al. 2019 ACL GeBNLP]
  - A-18 관계대명사절 직역 — 좌향 수식 [S2, 박옥수 2018]
  - A-19 이중 조사 결합 [S2, 김정우 2007, 단순 ~의 명시 제외]
  - E-7 청자 경어법 일관성 손실 [S2 estimated, 김혜영 2019, dialogue 가드]

본진 hold 1건 (v2.0b 외부 회차 결과):
  - A-17 무정물·추상명사 '-들' 부착 — v1.6 5편 + 외부 위키 6편 양성 0건.
    학술 anchor·metric·scholarship.md §4 보존, 본진 등재만 보류. NMT 원본
    회차 후 v2.1에서 동일 ID로 부활. patternID 안정성 보존.

본진 보강 4건 (본문 무수정 + 처방 추가):
  - A-15 추상 주어 — 사역·인지·발화 동사 3축 처방
  - A-7 가지고 있다 — light verb construction(have/make/take/give) 일반화
  - F-4 과잉 접두·접미 — 영어 명사화 -tion/-ment/-ness/-ity 통합
  - E-2 동일 종결어미 — 진행형 '~고 있다' 자동 매핑 처방

post-editese metric-only 트랙:
  - lexical_diversity_ttr·lexical_density·ending_diversity (simplification)
  - normalisation_score·da_streak_rate (normalisation)
  - inanimate_subject_rate·by/double_passive·pronoun_density·deul_overuse_rate
    ·relative_clause_nesting·have_make_literal·double_particle·progressive_aspect
    + interference_index 합성 (interference, T1~T8)
  - 14건 모두 본진 패턴 ID 미부여 (caveat C3: 한국어 정량 검증 부재).
    metrics_v2.py로 분리, baseline_v2.json 70셀 placeholder 상태.

회귀 검증:
  - v1.6 5편 input·final 점수 산출 (재윤문 없음). 회귀 0건.
  - lexical_diversity 5편 전수 상승 (post-editese 단순화 가설 1차 반증).
  - 외부 회차 위키 6편 — A-16 양성 50%·A-18 양성 67%, interference_index
    외부 평균 0.251 vs v1.6 0.05~0.10 (Toral 가설 1차 부합).

학술 인용 양면 보존:
  - SSOT 메타필드 한 줄 (ai-tell-taxonomy.md) + 외부 SSOT 전문
    (scholarship.md, 학자 29명·Caveat 6건 verbatim).
  - 룰북 슬림성 보존: quick-rules.md 126→133줄 (≤180 한도).

4대 철칙 준수:
  - monolith·5인 정의 무수정 (humanize-monolith·detector·rewriter·auditor·
    reviewer git diff 0줄).
  - 재윤문 없는 회귀 (사용자 토큰 통제 원칙).
  - 양면 인용 보존.
  - patternID 참조 안정성 (A-1~A-15·E-1~E-6 본문 무수정).

상세 PR 본문: _workspace/v2.0-2026-05-07/07_pr/07_pr_draft.md
외부 회차 보고: _workspace/v2.0-2026-05-07/05_regression/v2_external_samples/H1_revisited.md

2026-05-07 23:04:09 +09:00

11 KiB

Raw Permalink Blame History

한국어 윤문 처방집 (Rewriting Playbook)

윤문가 에이전트가 탐지 리포트를 보고 실제 문장을 고칠 때 따르는 전환 규칙집. ai-tell-taxonomy.md의 각 패턴별 처방을 실행 가능한 치환 레시피로 확장한다.

0. 대원칙 (The Prime Directives)

의미 불변(Fidelity): 사실·주장·수치·고유명사·인용·인과관계는 글자 단위로 보존한다. 모호해도 임의 보강 금지.
톤 유지(Tone Match): 입력이 격식체면 격식체로, 에세이면 에세이로. 윤문이 원래 글을 "다른 장르"로 바꾸지 않는다.
국소성(Locality): 문장을 한꺼번에 전부 재작성하지 않는다. AI 티가 있는 구간만 수술적으로 고친다.
자연성 우선, 완벽성 차순(Natural > Perfect): 과하게 문학적으로 고치지 않는다. 일상 한국어 필자의 중간값 리듬을 목표.
근거 기반(Span-Grounded): 모든 변경은 탐지 리포트의 span에 연결된다. 탐지 없는 구간을 건드리지 않는다.
과윤문 경고(Over-Polish Alarm): 전체 문장의 50% 이상이 바뀌면 내용이 훼손됐을 가능성이 크다. 변경률을 모니터링.

1. 카테고리별 치환 레시피

A. 번역투 레시피

원문 패턴	윤문 예시
X에 대해 논의한다	X를 논의한다 / X를 이야기한다
X를 통해 Y한다	X로 Y한다 / X해서 Y한다 / X함으로써 Y한다
X에 있어서	X에서 / X를 볼 때 / X에서는
X라는 점에서	X해서 / X라는 이유로 / X이기 때문에
X와 관련하여	X에서 / X에는 / X를 두고
X에 기반하여 / X을 바탕으로	X로 / X를 근거로 / X를 보고
경쟁력을 가지고 있다	경쟁력이 있다 / 경쟁력이 강하다
판단되어진다	판단된다 / 판단한다
AI에 의해 생성된	AI가 만든
높일 수 있다	높인다 (사실 서술일 때) / 높일 여지가 있다 (가능성일 때)
X을 위해 Y한다	X하려고 Y한다 / X하도록 Y한다
합의가 이루어졌다	합의했다 / 합의에 이르렀다
기술 발전 속도 가속화	기술의 발전 속도가 빨라진다
그리고 (문두)	(삭제) / "-고" 연결어미로 압축

B. 영어 인용·용어 처방

괄호 병기: 일반 독자 대상 → 첫 등장 1회만 영어 병기, 이후 한국어만. 전문 독자 대상 → 영어 병기 유지하되 매번 반복하지 않음.
영어 단어 번역표 (빈출):
- pipeline → 파이프라인 (유지 OK) / 흐름 / 공정
- framework → 체계 / 틀 / 구조
- leverage → 활용하다 / 기대다 / 끌어올리다
- seamless → 매끄러운 / 끊김 없는
- robust → 튼튼한 / 견고한
- scalable → 확장성 있는
- insight → 통찰 / 눈 / 시사점
- impact → 영향 / 파장
- holistic → 전체적 / 총체적
영어 인용구: 원문 어감이 핵심이면 유지하고 한국어 번역 병기. 그렇지 않으면 한국어로 풀어쓰고 출처만 각주.

C. 구조 레시피

기계적 병렬 "첫째/둘째/셋째":
- 열거가 핵심이면 → "우선 / 이어서 / 마지막으로" 등 어휘 변주.
- 열거가 장식이면 → 산문으로 녹이기: "A다. B도 마찬가지다. 여기에 C가 더해진다."
불릿 → 산문 전환 예시:
- 원문:
```
- 속도가 빠르다
- 비용이 저렴하다
- 확장성이 높다
```
- 윤문: "속도는 빠르고 비용도 낮다. 무엇보다 확장 여지가 크다."
헤딩 제거: 에세이·칼럼에서는 H2 이상 헤딩 자체를 없애고 문단 간 흐름으로 처리.
문단 첫 문장 요약 공식 해체: 매 문단이 topic sentence로 시작하지 않도록, 일부 문단은 장면·수치·질문으로 시작.
이모지 전량 삭제 (에세이·리포트 문맥). 제품 카피·SNS면 유지 가능.

D. 관용구 처방 (삭제 우선)

삭제 대상	대안
결론적으로	(삭제) — 마지막 문단 자체가 결론이므로 라벨링 불필요
요약하면 / 정리하자면	(삭제) 또는 "한 줄로 말하면"
~라고 할 수 있다	~이다 (단언 가능하면) / ~로 보인다 (관측이면)
매우 중요하다	구체 근거로 대체: "X 없이는 Y가 성립하지 않는다"
시사하는 바가 크다	(삭제) 또는 "의미는 분명하다"
주목할 만하다	(삭제) — 이미 문장이 주목하게 만드는 내용이면 불필요
혁신적인 / 획기적인	대부분 삭제. 필요하면 "처음 시도한" / "이전과 다른" 같이 구체화
~의 지평을 열다 / ~시대가 도래했다	삭제 후 실제 변화를 서술

E. 리듬 처방

입력 분석: 탐지기가 평균 문장 길이·표준편차를 계산.
균일성 감지 시 처방:
- 단문(10~~15자) 1~~2개를 문단마다 투입: "맞다. 그게 핵심이다."
- 긴 문장(80자+) 1개 허용.
종결어미 변주: 4~5문장 연속 같은 종결어미 사용 금지. "~다 / ~았다 / ~인 것 / 명사형 종결"을 섞음.

F. 수식 처방

정도부사("매우", "정말", "대단히") → 기본 90% 삭제. 강조가 필요하면 구체 수치·비교.
동의어 이중 수식("중요하고 핵심적인") → 하나만.
"~적 / ~성 / ~화" 접사 → 구체 동사·명사로 풀기.
- "근본적 변화" → "뿌리부터 바뀐다"
- "구조적 문제" → "구조가 문제다" / "구조 자체가 문제다"

G. Hedging 처방

완곡 3단계 다운그레이드:
- "~할 수 있을 것으로 보인다" → "~로 보인다" → "~일 것이다" → "~이다"
단언 가능 지점이면 두세 단계 내려가서 단언. 사실 모호할 때만 1단계 완곡 유지.

H. 접속사 처방

문두 접속사 3개 이상 연속 → 70% 삭제.
"또한" → 대부분 삭제. 꼭 필요하면 "여기에"·"거기에"·"더해" 등 어휘 변주.
"따라서 / 그러므로" → 인과가 자명하면 삭제. 필요하면 "그래서"로 교체.
"하지만 / 그러나" 반복 → 교차 사용하거나 한쪽을 "그런데"로.

I. 형식명사 처방

"것이다" 종결 → 종결어미 직결로.
- "변화가 크다는 것이다" → "변화가 크다"
"~할 필요가 있다" → "~해야 한다" / "~할 만하다" / 구체 행위 지시.
"~이 필요하다" → 주어·동사로 구체화. "혁신이 필요하다" → "이 회사가 제품을 다시 만들어야 한다" (맥락 허락 시).

J. 장식 처방

볼드: 본문에서 거의 전량 제거. 목차·제목급에만 허용.
따옴표: 인용·특수 용례에만 한정.
대시(—): 1문서 1~2회 이하. 나머지는 쉼표·괄호·문장 분리.

1.X. 영-한 PE 통합 체크리스트 (보고서 §5.1, 15항목 · v2.0 신규)

Toral 2019·Baker 1993·Toury 1995 + 한국 PE 가이드라인(윤미선 외 2018·김혜림 2022·이상빈 2017·2018a·2018b·마승혜 2018) 통합. 본진 패턴 ID에 처방을 묶어 윤문가가 한 번에 적용 가능한 형태로 압축. 학술 출처 전문은 references/scholarship.md.

PE#	트리거	처방 한 줄	본진 ID
PE1	무생물 주어 + 사역·인지 동사	"X 때문에/덕분에/로 인해 Y" 부사절 또는 "…에 따르면 …이다" 분리 구문	A-15·D-5
PE2	"~에 의해" by-passive	능동태 복귀 또는 "~에/~에게"로 단순화	A-9
PE3	이중 피동 "~되어지다·~여지다"	단순 피동 "~되다·~지다·잊히다·보이다"	A-8
PE4	"그/그녀/그것/그들" 단락 ≥3회	50% 이상 영형(생략) + 일부 호칭·명사구	A-16
PE5	무정물·추상명사 + "-들"	거의 모두 삭제. 분포성은 "여러·다양한·갖가지·저마다·각자"	(A-17 hold — v2.1 부활 대기, scholarship.md §4)
PE6	명사 앞 ≥3어절 관형구	문장 분리 또는 후치 동격절 ("X를 만났는데, 그 X는 …")	A-18
PE7	"have/make/take/give + N" 직역 ("회의를 가지다")	동사 환원 ("회의를 했다") 또는 이중주어 ("X는 Y가 …")	A-7
PE8	"-에서의·-에로의·-으로의·-에의" 이중 조사 (단순 ~의는 제외, C5)	절·구로 풀어쓰기 ("주점 2층에서 시작한 살림")	A-19
PE9	"~다" ≥4문장 연속	"~었다·~ㄴ다·~는다·~기 마련이다·~ㄹ 것이다·~을 수 있다" 다양화	E-2
PE10	"~고 있다" 남발	단순 시제 환원 가능성 검토 ("읽고 있다 → 읽는다")	E-2
PE11	"-tion·-ment·-ness·-ity" 한국어 명사 직역 ("the implementation of the policy")	동사·형용사로 풀기 ("정책 시행" / "정책을 시행하기")	F-4
PE12	"~로부터·~에 관하여·~을 통하여"	문맥 자연 표현으로 대체 (전치사구 1대1 매핑 거부)	A-2·A-5
PE13	영어 단순 현재·과거 단조 매핑	한국어 서사 시제·서법 다양화 ("~었던·~었다가·~더라·~었으니")	E-2
PE14	대화체 화자–청자 관계 누락	해라/하게/하오/해요/합쇼체 일관 적용 (장르 가드: 대화·구어 한정)	E-7 (estimated, C1)
PE15	"Mr./Ms./Dr." 직역 ("그/그녀")	한국어 호칭(선생님·박사님·과장님) 또는 생략	A-16

caveat 가드:

C3 — post-editese 3축 직접 적용 시 "speculative: true" 플래그 (한국어 정량 검증 부재).

C5 — PE8/A-19에서 단순 "~의"는 탐지·윤문 대상 명시적 제외.

C1 — PE14 청자 경어법 임계는 김혜영 2019 PDF 원문 확보 전까지 "estimated" 유지.

PE5(A-17 hold) — 학술 anchor·metric 검증용 보존, 본진 등재는 NMT 원본 회차 후 v2.1.

2. 변경률 모니터링

윤문가는 변경 전후 텍스트의 레벤슈타인 거리 / 원문 길이를 계산해 변경률을 기록한다.
권장 범위: 5~30%.
30% 초과: 과윤문 가능성 → 재검토.
5% 미만: 저윤문 → S1 패턴이 남아 있는지 재확인.

3. 어휘 대체 위험 (Do-NOT list)

이들은 문체상 AI 티로 보여도 건드리면 의미가 바뀌는 표현이므로 보존한다:

전문 고유명사·제품명·모델명(GPT-4, Claude 3, Gemini 등)
수치·단위·날짜
직접 인용된 문장(큰따옴표 "" 내부)
법률·규정 조문 인용
학술 개념어가 불가피한 경우 (예: "확률적 앵무새", "창발")

4. 장르별 미세 조정

장르	허용	금기
칼럼·에세이	단문, 개인 어조, 문학적 비유	이모지, 과한 헤딩, 불릿 남발
리포트	헤딩 1단계, 통계·인용	과한 이모지, hype 어휘
블로그 포스트	친근한 어조, 질문형	기계적 "첫째/둘째" 공식
공적 연설·축사	격식체, 문어체	구어체·이모지·불릿

윤문가는 입력 첫 100자를 읽고 장르를 추정한 뒤 이 표로 허용/금기 선을 조정한다.

5. 반복 윤문 방침

1차 윤문 → 자연스러움 리뷰어가 잔존 S1/S2 패턴 발견 시 2차 윤문 트리거.
최대 3회. 3회 후에도 잔존하면 해당 구간을 리포트에 "사람이 직접 확인 요망"으로 표시.

11 KiB Raw Permalink Blame History