Kiwi/eval_data/dialect
2025-10-16 01:43:13 +09:00
..
chungcheong.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
gangwon.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
gyeonggi.txt Add eval data for Gyeonggi dialect 2025-10-14 00:58:19 +09:00
gyeongsang.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
hamgyeong.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
hwanghae.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
jeju.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
jeolla.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
pyeongan.txt Update eval data for dialects 2025-10-16 01:43:13 +09:00
README.md Add pseudo-labeled dialect eval datasets 2025-09-16 21:32:45 +09:00

한국어 방언 형태소 분석 평가데이터

우리말샘에서 제공하는 예문 중 방언 예문들만 수집하여 자동으로 형태소 분석 수행 후 수작업으로 교정하는 방식으로 데이터셋 구축.

방언 목록

  • chungcheong: 충청, 충남, 충북
  • gangwon: 강원
  • gyeongsang: 경상, 경북, 경남
  • hamgyeong: 함경, 함남, 함북
  • hwanghae: 황해
  • jeolla: 전라, 전북, 전남
  • jeju: 제주
  • pyeongan: 평안, 평남, 평북