Kiwi/eval_data/dialect
2025-11-17 00:54:48 +09:00
..
chungcheong.txt Update dialect eval dataset 2025-11-17 00:20:26 +09:00
gangwon.txt Update dialect eval dataset 2025-11-17 00:20:26 +09:00
gyeonggi.txt Add eval data for Gyeonggi dialect 2025-10-14 00:58:19 +09:00
gyeongsang.txt Update dialect eval dataset 2025-11-17 00:20:26 +09:00
hamgyeong.txt Update dialect eval dataset 2025-11-17 00:20:26 +09:00
hwanghae.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
jeju.txt Fix typos in jeju.txt 2025-11-17 00:54:48 +09:00
jeolla.txt Update dialect eval dataset 2025-11-17 00:20:26 +09:00
pyeongan.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
README.md Update README.md 2025-11-17 00:21:08 +09:00

한국어 방언 형태소 분석 평가데이터

우리말샘에서 제공하는 예문 중 방언 예문들만 수집하여 자동으로 형태소 분석 수행 후 수작업으로 교정하는 방식으로 데이터셋 구축.

방언 목록

  • chungcheong: 충청, 충남, 충북
  • gangwon: 강원
  • gyeonggi: 경기
  • gyeongsang: 경상, 경북, 경남
  • hamgyeong: 함경, 함남, 함북
  • hwanghae: 황해
  • jeolla: 전라, 전북, 전남
  • jeju: 제주
  • pyeongan: 평안, 평남, 평북