mirror of
https://github.com/epoko77-ai/im-not-ai.git
synced 2026-06-21 13:18:09 +00:00
본진 분류 체계에 한국 번역학계 8대 번역투 유형(이근희·김정우·김도훈·곽은주·
김순영·박옥수·김혜영·이영옥)을 흡수하고, Toral 2019 post-editese 3축
(simplification·normalisation·interference)을 14개 신규 metric 트랙으로
도입. monolith·5인 정의는 무수정, 도구 호출 3회 캡(v1.6.1) 보존.
신규 패턴 4건 (본진 등재):
- A-16 영어 대명사 직역 [S1, 김도훈 2009 + Cho et al. 2019 ACL GeBNLP]
- A-18 관계대명사절 직역 — 좌향 수식 [S2, 박옥수 2018]
- A-19 이중 조사 결합 [S2, 김정우 2007, 단순 ~의 명시 제외]
- E-7 청자 경어법 일관성 손실 [S2 estimated, 김혜영 2019, dialogue 가드]
본진 hold 1건 (v2.0b 외부 회차 결과):
- A-17 무정물·추상명사 '-들' 부착 — v1.6 5편 + 외부 위키 6편 양성 0건.
학술 anchor·metric·scholarship.md §4 보존, 본진 등재만 보류. NMT 원본
회차 후 v2.1에서 동일 ID로 부활. patternID 안정성 보존.
본진 보강 4건 (본문 무수정 + 처방 추가):
- A-15 추상 주어 — 사역·인지·발화 동사 3축 처방
- A-7 가지고 있다 — light verb construction(have/make/take/give) 일반화
- F-4 과잉 접두·접미 — 영어 명사화 -tion/-ment/-ness/-ity 통합
- E-2 동일 종결어미 — 진행형 '~고 있다' 자동 매핑 처방
post-editese metric-only 트랙:
- lexical_diversity_ttr·lexical_density·ending_diversity (simplification)
- normalisation_score·da_streak_rate (normalisation)
- inanimate_subject_rate·by/double_passive·pronoun_density·deul_overuse_rate
·relative_clause_nesting·have_make_literal·double_particle·progressive_aspect
+ interference_index 합성 (interference, T1~T8)
- 14건 모두 본진 패턴 ID 미부여 (caveat C3: 한국어 정량 검증 부재).
metrics_v2.py로 분리, baseline_v2.json 70셀 placeholder 상태.
회귀 검증:
- v1.6 5편 input·final 점수 산출 (재윤문 없음). 회귀 0건.
- lexical_diversity 5편 전수 상승 (post-editese 단순화 가설 1차 반증).
- 외부 회차 위키 6편 — A-16 양성 50%·A-18 양성 67%, interference_index
외부 평균 0.251 vs v1.6 0.05~0.10 (Toral 가설 1차 부합).
학술 인용 양면 보존:
- SSOT 메타필드 한 줄 (ai-tell-taxonomy.md) + 외부 SSOT 전문
(scholarship.md, 학자 29명·Caveat 6건 verbatim).
- 룰북 슬림성 보존: quick-rules.md 126→133줄 (≤180 한도).
4대 철칙 준수:
- monolith·5인 정의 무수정 (humanize-monolith·detector·rewriter·auditor·
reviewer git diff 0줄).
- 재윤문 없는 회귀 (사용자 토큰 통제 원칙).
- 양면 인용 보존.
- patternID 참조 안정성 (A-1~A-15·E-1~E-6 본문 무수정).
상세 PR 본문: _workspace/v2.0-2026-05-07/07_pr/07_pr_draft.md
외부 회차 보고: _workspace/v2.0-2026-05-07/05_regression/v2_external_samples/H1_revisited.md
11 KiB
11 KiB
한국어 윤문 처방집 (Rewriting Playbook)
윤문가 에이전트가 탐지 리포트를 보고 실제 문장을 고칠 때 따르는 전환 규칙집. ai-tell-taxonomy.md의 각 패턴별 처방을 실행 가능한 치환 레시피로 확장한다.
0. 대원칙 (The Prime Directives)
- 의미 불변(Fidelity): 사실·주장·수치·고유명사·인용·인과관계는 글자 단위로 보존한다. 모호해도 임의 보강 금지.
- 톤 유지(Tone Match): 입력이 격식체면 격식체로, 에세이면 에세이로. 윤문이 원래 글을 "다른 장르"로 바꾸지 않는다.
- 국소성(Locality): 문장을 한꺼번에 전부 재작성하지 않는다. AI 티가 있는 구간만 수술적으로 고친다.
- 자연성 우선, 완벽성 차순(Natural > Perfect): 과하게 문학적으로 고치지 않는다. 일상 한국어 필자의 중간값 리듬을 목표.
- 근거 기반(Span-Grounded): 모든 변경은 탐지 리포트의 span에 연결된다. 탐지 없는 구간을 건드리지 않는다.
- 과윤문 경고(Over-Polish Alarm): 전체 문장의 50% 이상이 바뀌면 내용이 훼손됐을 가능성이 크다. 변경률을 모니터링.
1. 카테고리별 치환 레시피
A. 번역투 레시피
| 원문 패턴 | 윤문 예시 |
|---|---|
| X에 대해 논의한다 | X를 논의한다 / X를 이야기한다 |
| X를 통해 Y한다 | X로 Y한다 / X해서 Y한다 / X함으로써 Y한다 |
| X에 있어서 | X에서 / X를 볼 때 / X에서는 |
| X라는 점에서 | X해서 / X라는 이유로 / X이기 때문에 |
| X와 관련하여 | X에서 / X에는 / X를 두고 |
| X에 기반하여 / X을 바탕으로 | X로 / X를 근거로 / X를 보고 |
| 경쟁력을 가지고 있다 | 경쟁력이 있다 / 경쟁력이 강하다 |
| 판단되어진다 | 판단된다 / 판단한다 |
| AI에 의해 생성된 | AI가 만든 |
| 높일 수 있다 | 높인다 (사실 서술일 때) / 높일 여지가 있다 (가능성일 때) |
| X을 위해 Y한다 | X하려고 Y한다 / X하도록 Y한다 |
| 합의가 이루어졌다 | 합의했다 / 합의에 이르렀다 |
| 기술 발전 속도 가속화 | 기술의 발전 속도가 빨라진다 |
| 그리고 (문두) | (삭제) / "-고" 연결어미로 압축 |
B. 영어 인용·용어 처방
- 괄호 병기: 일반 독자 대상 → 첫 등장 1회만 영어 병기, 이후 한국어만. 전문 독자 대상 → 영어 병기 유지하되 매번 반복하지 않음.
- 영어 단어 번역표 (빈출):
- pipeline → 파이프라인 (유지 OK) / 흐름 / 공정
- framework → 체계 / 틀 / 구조
- leverage → 활용하다 / 기대다 / 끌어올리다
- seamless → 매끄러운 / 끊김 없는
- robust → 튼튼한 / 견고한
- scalable → 확장성 있는
- insight → 통찰 / 눈 / 시사점
- impact → 영향 / 파장
- holistic → 전체적 / 총체적
- 영어 인용구: 원문 어감이 핵심이면 유지하고 한국어 번역 병기. 그렇지 않으면 한국어로 풀어쓰고 출처만 각주.
C. 구조 레시피
- 기계적 병렬 "첫째/둘째/셋째":
- 열거가 핵심이면 → "우선 / 이어서 / 마지막으로" 등 어휘 변주.
- 열거가 장식이면 → 산문으로 녹이기: "A다. B도 마찬가지다. 여기에 C가 더해진다."
- 불릿 → 산문 전환 예시:
- 원문:
- 속도가 빠르다 - 비용이 저렴하다 - 확장성이 높다 - 윤문: "속도는 빠르고 비용도 낮다. 무엇보다 확장 여지가 크다."
- 원문:
- 헤딩 제거: 에세이·칼럼에서는 H2 이상 헤딩 자체를 없애고 문단 간 흐름으로 처리.
- 문단 첫 문장 요약 공식 해체: 매 문단이 topic sentence로 시작하지 않도록, 일부 문단은 장면·수치·질문으로 시작.
- 이모지 전량 삭제 (에세이·리포트 문맥). 제품 카피·SNS면 유지 가능.
D. 관용구 처방 (삭제 우선)
| 삭제 대상 | 대안 |
|---|---|
| 결론적으로 | (삭제) — 마지막 문단 자체가 결론이므로 라벨링 불필요 |
| 요약하면 / 정리하자면 | (삭제) 또는 "한 줄로 말하면" |
| ~라고 할 수 있다 | ~이다 (단언 가능하면) / ~로 보인다 (관측이면) |
| 매우 중요하다 | 구체 근거로 대체: "X 없이는 Y가 성립하지 않는다" |
| 시사하는 바가 크다 | (삭제) 또는 "의미는 분명하다" |
| 주목할 만하다 | (삭제) — 이미 문장이 주목하게 만드는 내용이면 불필요 |
| 혁신적인 / 획기적인 | 대부분 삭제. 필요하면 "처음 시도한" / "이전과 다른" 같이 구체화 |
| ~의 지평을 열다 / ~시대가 도래했다 | 삭제 후 실제 변화를 서술 |
E. 리듬 처방
- 입력 분석: 탐지기가 평균 문장 길이·표준편차를 계산.
- 균일성 감지 시 처방:
- 단문(10
15자) 12개를 문단마다 투입: "맞다. 그게 핵심이다." - 긴 문장(80자+) 1개 허용.
- 단문(10
- 종결어미 변주: 4~5문장 연속 같은 종결어미 사용 금지. "~다 / ~았다 / ~인 것 / 명사형 종결"을 섞음.
F. 수식 처방
- 정도부사("매우", "정말", "대단히") → 기본 90% 삭제. 강조가 필요하면 구체 수치·비교.
- 동의어 이중 수식("중요하고 핵심적인") → 하나만.
- "~적 / ~성 / ~화" 접사 → 구체 동사·명사로 풀기.
- "근본적 변화" → "뿌리부터 바뀐다"
- "구조적 문제" → "구조가 문제다" / "구조 자체가 문제다"
G. Hedging 처방
- 완곡 3단계 다운그레이드:
- "~할 수 있을 것으로 보인다" → "~로 보인다" → "~일 것이다" → "~이다"
- 단언 가능 지점이면 두세 단계 내려가서 단언. 사실 모호할 때만 1단계 완곡 유지.
H. 접속사 처방
- 문두 접속사 3개 이상 연속 → 70% 삭제.
- "또한" → 대부분 삭제. 꼭 필요하면 "여기에"·"거기에"·"더해" 등 어휘 변주.
- "따라서 / 그러므로" → 인과가 자명하면 삭제. 필요하면 "그래서"로 교체.
- "하지만 / 그러나" 반복 → 교차 사용하거나 한쪽을 "그런데"로.
I. 형식명사 처방
- "것이다" 종결 → 종결어미 직결로.
- "변화가 크다는 것이다" → "변화가 크다"
- "~할 필요가 있다" → "~해야 한다" / "~할 만하다" / 구체 행위 지시.
- "~이 필요하다" → 주어·동사로 구체화. "혁신이 필요하다" → "이 회사가 제품을 다시 만들어야 한다" (맥락 허락 시).
J. 장식 처방
- 볼드: 본문에서 거의 전량 제거. 목차·제목급에만 허용.
- 따옴표: 인용·특수 용례에만 한정.
- 대시(—): 1문서 1~2회 이하. 나머지는 쉼표·괄호·문장 분리.
1.X. 영-한 PE 통합 체크리스트 (보고서 §5.1, 15항목 · v2.0 신규)
Toral 2019·Baker 1993·Toury 1995 + 한국 PE 가이드라인(윤미선 외 2018·김혜림 2022·이상빈 2017·2018a·2018b·마승혜 2018) 통합. 본진 패턴 ID에 처방을 묶어 윤문가가 한 번에 적용 가능한 형태로 압축. 학술 출처 전문은
references/scholarship.md.
| PE# | 트리거 | 처방 한 줄 | 본진 ID |
|---|---|---|---|
| PE1 | 무생물 주어 + 사역·인지 동사 | "X 때문에/덕분에/로 인해 Y" 부사절 또는 "…에 따르면 …이다" 분리 구문 | A-15·D-5 |
| PE2 | "~에 의해" by-passive | 능동태 복귀 또는 "~에/~에게"로 단순화 | A-9 |
| PE3 | 이중 피동 "~되어지다·~여지다" | 단순 피동 "~되다·~지다·잊히다·보이다" | A-8 |
| PE4 | "그/그녀/그것/그들" 단락 ≥3회 | 50% 이상 영형(생략) + 일부 호칭·명사구 | A-16 |
| PE5 | 무정물·추상명사 + "-들" | 거의 모두 삭제. 분포성은 "여러·다양한·갖가지·저마다·각자" | (A-17 hold — v2.1 부활 대기, scholarship.md §4) |
| PE6 | 명사 앞 ≥3어절 관형구 | 문장 분리 또는 후치 동격절 ("X를 만났는데, 그 X는 …") | A-18 |
| PE7 | "have/make/take/give + N" 직역 ("회의를 가지다") | 동사 환원 ("회의를 했다") 또는 이중주어 ("X는 Y가 …") | A-7 |
| PE8 | "-에서의·-에로의·-으로의·-에의" 이중 조사 (단순 ~의는 제외, C5) | 절·구로 풀어쓰기 ("주점 2층에서 시작한 살림") | A-19 |
| PE9 | "~다" ≥4문장 연속 | "~었다·~ㄴ다·~는다·~기 마련이다·~ㄹ 것이다·~을 수 있다" 다양화 | E-2 |
| PE10 | "~고 있다" 남발 | 단순 시제 환원 가능성 검토 ("읽고 있다 → 읽는다") | E-2 |
| PE11 | "-tion·-ment·-ness·-ity" 한국어 명사 직역 ("the implementation of the policy") | 동사·형용사로 풀기 ("정책 시행" / "정책을 시행하기") | F-4 |
| PE12 | "~로부터·~에 관하여·~을 통하여" | 문맥 자연 표현으로 대체 (전치사구 1대1 매핑 거부) | A-2·A-5 |
| PE13 | 영어 단순 현재·과거 단조 매핑 | 한국어 서사 시제·서법 다양화 ("~었던·~었다가·~더라·~었으니") | E-2 |
| PE14 | 대화체 화자–청자 관계 누락 | 해라/하게/하오/해요/합쇼체 일관 적용 (장르 가드: 대화·구어 한정) | E-7 (estimated, C1) |
| PE15 | "Mr./Ms./Dr." 직역 ("그/그녀") | 한국어 호칭(선생님·박사님·과장님) 또는 생략 | A-16 |
caveat 가드:
- C3 — post-editese 3축 직접 적용 시 "speculative: true" 플래그 (한국어 정량 검증 부재).
- C5 — PE8/A-19에서 단순 "~의"는 탐지·윤문 대상 명시적 제외.
- C1 — PE14 청자 경어법 임계는 김혜영 2019 PDF 원문 확보 전까지 "estimated" 유지.
- PE5(A-17 hold) — 학술 anchor·metric 검증용 보존, 본진 등재는 NMT 원본 회차 후 v2.1.
2. 변경률 모니터링
- 윤문가는 변경 전후 텍스트의 레벤슈타인 거리 / 원문 길이를 계산해 변경률을 기록한다.
- 권장 범위: 5~30%.
- 30% 초과: 과윤문 가능성 → 재검토.
- 5% 미만: 저윤문 → S1 패턴이 남아 있는지 재확인.
3. 어휘 대체 위험 (Do-NOT list)
이들은 문체상 AI 티로 보여도 건드리면 의미가 바뀌는 표현이므로 보존한다:
- 전문 고유명사·제품명·모델명(GPT-4, Claude 3, Gemini 등)
- 수치·단위·날짜
- 직접 인용된 문장(큰따옴표 "" 내부)
- 법률·규정 조문 인용
- 학술 개념어가 불가피한 경우 (예: "확률적 앵무새", "창발")
4. 장르별 미세 조정
| 장르 | 허용 | 금기 |
|---|---|---|
| 칼럼·에세이 | 단문, 개인 어조, 문학적 비유 | 이모지, 과한 헤딩, 불릿 남발 |
| 리포트 | 헤딩 1단계, 통계·인용 | 과한 이모지, hype 어휘 |
| 블로그 포스트 | 친근한 어조, 질문형 | 기계적 "첫째/둘째" 공식 |
| 공적 연설·축사 | 격식체, 문어체 | 구어체·이모지·불릿 |
윤문가는 입력 첫 100자를 읽고 장르를 추정한 뒤 이 표로 허용/금기 선을 조정한다.
5. 반복 윤문 방침
- 1차 윤문 → 자연스러움 리뷰어가 잔존 S1/S2 패턴 발견 시 2차 윤문 트리거.
- 최대 3회. 3회 후에도 잔존하면 해당 구간을 리포트에 "사람이 직접 확인 요망"으로 표시.