콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#문화예술 # 전시공연 # 도슨트 # 기계독해 # 개체명인식 # MRC # NER

NEW 전시 공연 도슨트 데이터

전시 공연 도슨트 데이터 아이콘 이미지
  • 분야문화관광
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-11 조회수 : 2,558 다운로드 : 108 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-11-03 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-04-23 데이터 설명서, 담당자 이메일 변경
    2024-01-12 산출물 전체 공개

    소개

    인공지능 자연어 처리를 활용한 전시 및 공연 문화의 자동분류, 도슨트 텍스트의 자동 작성 등에 활용하기 위해 전시공연 도슨트 데이터 셋트를 1,000세트 이상을 구축함

    구축목적

    다양한 능동적 수요자(Active Consumer)의 니즈를 활성화하고, 향후 메타버스, 챗봇 등의 전시/공연 분야 디지털 전환을 위한 데이터셋 구축이 필요함
  • 데이터 통계
    - 도슨트 원문 데이터 1230건, Q&A 셋 : 기계독해 : 7,379건, 개체명 인식 : 28,586건

     
    구분 포맷 형태 구축 규모(건)
    원시데이터 CSV 텍스트 2053
    원천데이터 JSON 텍스트 2458
    가공데이터 JSON 텍스트(MRC) 7,379
    텍스트(NER) 28,586

     

    - 모델별 데이터 분포

    모델 Task 구분 Training Validation Test Total
    Docent-KoElectra MRC(기계독해) 건수 984 123 123 1230
    비율 80% 10% 10% 100%
    Docent-KoElectra NER(개체명 인식) 건수 983 122 123 1228
    비율 80% 10% 10% 100%
    Total 건수 1967 245 246 2458
    비율 80% 10% 10% 100%

     

    - 대분류

     
    시대 빈도 비율
    전시공연 809 65.8%
    전시작품 421 34.2%
    전체 객체 수 1230 100.00%

     

    - 전시공연 지역별 분포

     
    지역명 빈도 비율
    강원 44 5.44%
    경기 81 10.01%
    경남 40 4.94%
    경북 40 4.94%
    광주 40 4.94%
    대구 40 4.94%
    대전 40 4.94%
    부산 40 4.94%
    서울 193 23.86%
    세종 0 0.00%
    울산 42 5.19%
    인천 40 4.94%
    전남 24 2.97%
    전북 40 4.94%
    제주 40 4.94%
    충남 40 4.94%
    충북 25 3.09%
    전체 809 100.00%

     

    - 전시공연 유형

     
    공연 유형 빈도 비율
    Classic (클래식) 158 19.53%
    Dance (무용) 80 9.89%
    KoreanMusic (국악) 80 9.89%
    Musical (뮤지컬) 241 29.79%
    Opera (오페라) 80 9.89%
    Theatre (연극) 170 21.01%
    전체 809 100.00%

    - 전시작품 유형

     
    전시작품 유형 빈도 비율
    Painting (회화) 161 38.24%
    Calligraphy (서예) 20 4.75%
    Craft (공예) 61 14.49%
    Sculpture (조소) 119 28.27%
    Print (판화) 20 4.75%
    Photograph (설치) 20 4.75%
    Etc (기타) 20 4.75%
    전체 421 100.00%

     

    - MRC 태그 분류(질문 유형)

    MRC 설명 빈도 비율
    태그 값
    0 what 2440 33.07%
    1 where 1570 21.28%
    2 when 1276 17.29%
    3 who 1755 23.78%
    4 how 338 4.58%
    전체 7379 100.00%

    - NER 태그 분류

    NER  설명 빈도 비율
    태그 값
    0 DT(날짜)  3647 12.76%
    1 LC(장소)  5509 19.27%
    2 OG(기관)  3204 11.21%
    3 PS(인물)  11888 41.59%
    4 QT(수량)  3560 12.45%
    5 TI(시간)  205 0.72%
    6 DUR(기간) 573 2.00%
    전체 28586 100.00%
     
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드
    도슨트(MRC)

     

    1. 데이터 수집 및 전처리

    모델 미세조정을 위해 도슨트 MRC 데이터셋을 활용한다. 데이터셋은 문맥, 질문, 정답으로 이루어진 샘플 데이터로 구성되며, 전체 데이터셋 중 학습용 데이터셋을 80%로, 검증 및 테스트는 각 10%로 할당한다.
    2. 학습

    본 단계에서는 사전학습 언어모델을 호출해 준비한 텍스트 데이터로 미세조정(fine-tuning)을 거친다. 이때 데이터셋에서 문맥과 질문을 모델 입력으로 주며, 정답에 해당하는 단어 위치를 출력하는 형태로 학습이 진행된다.
    3. 평가 및 튜닝

    모델 학습 이후 평가 데이터셋으로 모델을 평가하고, 성능 향상을 위해 다양한 하이퍼파라미터를 조정하거나 데이터셋을 보완하는 등의 튜닝 작업을 수행한다.

    MRC 학습모델 Docent-KoELECTRA 프로세스

    < MRC 학습모델(Docent-KoELECTRA) 프로세스 >

     

    도슨트(NER)

     

    1. 데이터 수집 및 전처리

    모델 미세 조정을 위해 도슨트 NER 데이터셋을 활용한다. 전체 데이터 중 학습용 데이터셋을 80%로, 검증 및 테스트는 각 10%씩 분할한다. 데이터는 공연이나 전시 내용의 텍스트 데이터로 이루어져 있으며, 각 데이터는 레이블링된 개체명 데이터가 포함된다. 
    2. 학습

    학습 데이터셋으로 모델을 학습시킨다. 이때, 데이터셋은 레이블링된 개체명 데이터가 포함된 문장으로 구성된다. 모델은 입력 문장에서 개체명의 시작과 끝 위치를 찾아내어 개체명의 종류를 예측하도록 학습된다.
    3. 평가 및 튜닝

    모델 학습 이후, 평가 데이터셋으로 모델을 평가하고 성능을 향상시키기 위한 튜닝 작업을 수행한다. 이때 다양한 하이퍼파라미터를 조정하고 데이터셋을 보완하여 모델 성능을 개선한다.

    NER 학습모델 Docent-KoELECTRA 프로세스

    < NER 학습모델(Docent-KoELECTRA) 프로세스 >

                                                                      

    ※ NER과 MRC은 동일한 사전학습 언어모델을 사용한다. 
    ● 도슨트 데이터셋 학습을 위해 사용된 KoElectra 사전학습 언어모델은 구글의 ELECTRA 모델을 한국어에 적용한 모델이다.
    ● ELECTRA 모델은 대규모 텍스트 데이터셋에서 생성된 페어(Pair)를 이용해 생성한 대조(Contrastive)학습 방법을 사용한다. 이를 통해 학습 과정에서 발생할 수 있는 일부 잠재적 정보손실을 보완하고, 정확한 문장 생성 능력을 가진다. 
    ● KoELECTRA 모델은 자연어 처리 태스크에서 좋은 성능을 보여주지만 모델 크기가 상대적으로 작기 때문에 메모리와 계산 리소스 사용량이 적은 장점이 있다.

     

    서비스 활용 시나리오

     

    ● 도슨트 MRC 및 NER 모델을 박물관이나 미술관등에서 제공하는 도슨트 어플리케이션에 통합하여 관람객에게 전시 및 공연에 대한 보다 상세하고 유익한 설명을 제공할 수 있다.
    ● MRC 모델은 전시 또는 공연의 관련 섹션을 식별하여 관람객의 질문에 빠르고 정확하게 답변할 수 있다.
    ● NER 모델은 아티스트나 공연자 등 관련 정보를 강조하고 설명하여 관람객이 전시나 공연에 대해 보다 깊이 있게 이해할 수 있도록 지원한다.
    ● 개발되는 서비스는 MRC 모델을 사용하여 방문자의 질문을 분석하고 NER 모델을 사용하여 추천 전시 또는 공연에서 명명된 개체를 강조 표시하여 방문자의 관심사와 선호도에 따라 추천을 제공할 수 있다.
    ● 이 서비스는 관람객에게 더욱 매력적이고 풍성한 경험을 선사할 수 있어 모든 전시나 공연에 유용하게 활용될 수 있다.
    ● 도슨트 MRC 및 NER 모델에 사용되는 KoElectra 사전 학습 언어 모델은 상대적으로 작기 때문에 대규모 모델에 비해 적은 메모리와 컴퓨팅 리소스로도 서비스를 운영할 수 있을 것으로 기대된다.

     

    대표성
    사용자의 데이터 활용도를 고려, 각 지역별로 적절한 데이터를 수집하였고 모든 지역의 도슨트 정보를 포함하는 문장들로 원문 구성
    독립성
    기존 수집되지 않았던 데이터로 말뭉치 데이터를 수집함

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 기계독해 학습모델 (MRC) Machine Translation Electra F1-Score 0.8386 0.8554
    2 객체명 인식 모델 (NER) Object Detection Electra F1-Score 0.8397 0.9245

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드


    데이터 포맷
    1) 도슨트 데이터 (전시공연, 전시작품의 해설 텍스트 데이터)
     - 전시공연 : 클래식, 무용, 국악, 뮤지컬, 오페라, 연극 공연
     - 전시작품 : 회화, 서예, 공예, 조각, 판화, 사진, 기타 작품

     

    전시공연 뮤지컬 예시 이미지

    <뮤지컬 예시>

    (뮤지컬 도슨트 내용 중)
    아이작 뉴튼이 남긴 '현자의 돌'이 미 국립박물관 특별 전시를 마치고 영국으로 반환되던 중 도난당한다. 뉴튼의 돌이 비금속을 황금으로 바꾸는지는 증명된 바 없으나, 학계에서는 이 돌이 우주 탐사 작전 핵심 물질이 될 것으로 예상하고 있다. 볼티모어 항구에서 돌을 입수한 사이먼과 코스모는 소련으로 복귀할 준비를 한다. (중략) 사라진 뉴튼의 돌을 가지고 있음을 알게 되는데...

    전시공연 공연 예시 이미지

    <공연 예시>

    (공연 도슨트 내용 중)
    아빠와의 '놀이'가 거인과의 특별한 '만남'으로! 매일 밤 아빠를 기다리는 준이는 늦는 아빠가 밉기만 합니다. 이불 밖 큰 세상을 보여주고 싶은 아빠는 이야기를 들려주기 시작하는데...... (중략) 아들에게 꼭 들려주고 싶은 아빠의 사랑이 담긴 이야기.

    전시작품 예시 이미지 1전시작품 예시 이미지 2

        <정강자, 명동>                  <강영민, Gentle Heart>

    (작품 도슨트 내용 중)
    (작품명: 명동) 대구 출생인 정강자(1942~2017)는 홍익대학교에서 회화과를 졸업하고 동대학원에서 미술교육으로 석사과정을 밟았다(중략) 여성성을 표현했던 것과 같이 〈명동〉에서도 동일한 화법으로 그녀를 드러내고 있는 것이다.“
    (작품명: Gentle Heart(Blue))
    서울 출생인 강영민(1972~)은 홍익대학교 회화과를 졸업하고 화가인 동시에 전시기획자로 활동하고 있다. 그는 다양한 작업영역을 보여주지만 사랑을 상징하는 하트 이미지를 캔버스에 담아내기 시작하면서 (이하 생략)
     


    데이터 구성포맷

    - 전시공연

    구분 항목 내용 타입 필수여부
    데이터 수집정보 id 관리번호 string Y
    class 자료 유형 string Y
    genre 공연 유형 string Y
    cw_id 수집자 string Y
    cw_date 수집일시 date Y
    img_name 이미지 파일명 string Y
    KOGL 공개 유형 string Y
    method 수집 방식 string Y
    src 출처 string Y
    전시공연정보 area 지역 string Y
    title 공연명 string Y
    start_date 공연 시작일 date Y
    end_date 공연 종료일 date Y
    address 공연 장소 string Y
    actor 출연진 string N
    director 제작진 string N
    original_author 원작자 string N
    host 주최·주관 string N
    production 기획·제작 string N
    award 수상내역 string N
    explain 지문(도슨트) string Y

     

    - 전시작품

     
    구분 항목 내용 타입 필수여부
    데이터 수집정보 id 관리번호 string Y
    class 자료 유형 string Y
    genre 작품 유형 string Y
    cw_id 수집자 string Y
    cw_date 수집일시 date Y
    img_name 이미지 파일명 string Y
    KOGL 공개 유형 string Y
    method 수집 방식 string Y
    src 출처 string Y
    전시작품정보 title 작품명 string Y
    artist 작가명 string Y
    production_date 제작년도 string Y
    material 소재 및 기법 string Y
    standard 작품규격 string Y
    physical_location 소장처 string N
    exhibit_location 전시장소 string N
    explain 지문(도슨트) string Y

     

    - 어노테이션 포맷(MRC) : 전시공연

     

    구분 항목(한글) 항목(영문) 타입 필수 범위
    1 관리번호 id string Y "PM_00002"
    2 유형 class string Y "Performance"
    3 공연유형 genre string Y "Dance“
    4 수집자 cw_id string Y "CW001"
    5 수집일시 cw_date date Y '2022-09-01'
    6 이미지 파일명 img_name string Y "PM_00001_01.jpg"
    7 공개 유형 KOGL string Y "KOGL_type1"
    8 수집방식 method string Y "Scraping"
    9 출처 src string Y "KOPIS"
    10 지역 area string Y "서울"
    11 명칭 title string Y "거인 이야기"
    12 시작일 start_date date Y "2022-07-16"
    13 종료일 end_date date Y "2022-07-17"
    14 장소 address string Y "노원어린이극장(구.노원어울림극장)"
    15 출연진 actor string N null
    16 제작진 director string N null
    17 원작자 original_author string N null
    18 주최/주관 host string N “(재)노원문화재단”
    19 기획/제작 production string N null
    20 수상내역 award string N "제14회 아시테지 서울 어린이 연극상 올해우수작"
    21 지문(도슨트) explain string Y "아빠와의 '놀이'가 거인과의 특별한 '만남'으로! 매일 밤 아빠를 기다리는 준이는 늦는 아빠가 밉기만 합니다. (이하생략)"
    22 QnA 정보 q&a array Y  
      22-1 QnA 번호 QnAID string Y "QA0000"
      22-1-1 질문 Questions string Y "매일 밤 준이가 기다리는 인물은?"
      22-1-2 답변 Answer string Y "아빠"
      22-1-3 QnA 타입 코드 값 Type integer Y "3(who)"
      22-1-4 문장 중 답변 시작 index StartPoint integer Y "33"

     

    - MRC 어노테이션 (예시)

     

    {
      "id": "PM_00001",
      "class": "Performance",
      "genre": "Theatre",
      "cw_id": "CW0001",
      "cw_date": "2022-09-01",
      "img_name": "PM_00001_01.jpg",
      "KOGL": "KOGL_type1",
      "method": "Scraping",
      "src": "KOPIS",
      "area": "서울",
      "title": "거인 이야기",
      "start_date": "2022-07-16",
      "end_date": "2022-07-17",
      "address": "노원어린이극장(구.노원어울림극장)",
      "actor": null,
      "director": null,
      "original_author": null,
      "host": "(재)노원문화재단",
      "production": null,
      "award": "제14회 아시테지 서울 어린이 연극상 올해우수작",
      "explain": "아빠와의 '놀이'가 거인과의 특별한 '만남'으로! 매일 밤 아빠를 기다리는 준이는 늦는 아빠가 밉기만 합니다. 이불 밖 큰 세상을 보여주고 싶은 아빠는 이야기를 들려주기 시작하는데...... 거대한 이불 산을 오르던 준이는 거인을 마주쳤어요. 그때 들려오는 커다란 목소리 \"안녕, 나랑 친구 할래?\" 거인과 평생 함께 있고 싶은 준이. 큰 거인과 작은 준이는 함께 살았을까요? 아빠와 준이가 함께 만들어가는 세상에 '단 하나' 뿐인 특별한 이야기 세상! 그 신비한 세상 속으로 여러분을 초대합니다. \"아들에게 꼭 들려주고 싶은 아빠의 사랑이 담긴 이야기.",
    "q&a": [
        {"QnAID": "QA0000",
            "Questions": "매일 밤 준이가 기다리는 인물은?",
            "Answer": "아빠",
            "Type": 3,
            "StartPoint": 33}, 
        {"QnAID": "QA0001",
            "Questions": "아빠가 준이에게 보여주고 싶은 것은?",
            "Answer": "이불 밖 큰 세상",
            "Type": 0,
            "StartPoint": 62}, 
        {"QnAID": "QA0002",
            "Questions": "거대한 이불 산을 오르던 준이가 마주친 것은?",
            "Answer": "거인",
            "Type": 3,
            "StartPoint": 125}, 
        {"QnAID": "QA0003",
            "Questions": "거인이 준이에게 했던 말은?",
            "Answer": "\"안녕, 나랑 친구 할래?\"",
            "Type": 0,
            "StartPoint": 152}, 
        {"QnAID": "QA0004",
            "Questions": "준이가 평생 함께 있고 싶은 존재는?",
            "Answer": "거인",
            "Type": 3,
            "StartPoint": 168}, {"QnAID": "QA0005",
            "Questions": "준이가 거인을 마주친 곳은?",
            "Answer": "이불 산",
            "Type": 1,
            "StartPoint": 111}
        ]
    }

     

    - 어노테이션 포맷(NER) : 전시작품

     
    구분 항목(한글) 항목(영문) 타입 필수 범위
    1 관리번호 id string Y "PM_00002"
    2 유형 class string Y "Artwork"
    3 공연유형 genre string Y "Painting“
    4 수집자 cw_id string Y "CW0002"
    5 수집일시 cw_date date Y '2022-09-01'
    6 이미지 파일명 img_name string Y "AW_00001_01.jpg"
    7 공개 유형 KOGL string Y "KOGL_type2"
    8 수집방식 method string Y "Scraping"
    9 출처 src string Y "서울시립미술관"
    11 명칭 title string Y "검은 숲 속"
    12 작가 artist string Y "박광수"
    13 제작일 production_date string Y "2017"
    14 재료(소재) material string Y "캔버스에 아크릴릭"
    15 작품크기 standard string Y “290*197”
    16 소장처작품위치 physical_location string Y “서울시립미술관”
    17 전시위치 original_author string N null
    18 형태소(토큰) tokens array N [“강”, “원”, “도”, “”, “철”, “원”, “에”, “서”, “태”, “어”, “난”, “”, “박”, “광”, “수”, “(”, “1”... )
    19 개체명 ner_tags array Y [2, 3, 3, 12, 2, 3, 12, 12, 12, 12, 12, 12, 12, 6, 7, 7, 12, 13, 14, 14, 14, 14 ...]
    20 태그매핑 sentence string Y "<강원도:LC> <철원:LC>에서 태어난 <박광수:PS>(<1984~:DUR>)는...(이하생략)"
    21 지문(도슨트) explain string Y “강원도 철원에서 태어난 박광수(1984~)는 ...(이하생략)
    22 태그정보 taglist array Y  
      22-1 태그번호 KeyID string Y “KeyID”:“KW0000”
      22-1-1 키워드 Keyword srting Y “강원도”
      22-1-2 NER 유형 Type integer Y 1

     

    - NER 어노테이션 (예시)


       "id":"AW_00001",
       "class":"Artwork",
       "genre":"Painting",
       "cw_id":"CW0002",
       "cw_date":"2022-09-01",
       "img_name":"AW_00001_01.jpg",
       "KOGL":"KOGL_type2",
       "method":"Scraping",
       "src":"서울시립미술관",
       "title":"검은 숲 속",
       "artist":"박광수",
       "production_date":"2017",
       "material":"캔버스에 아크릴릭",
       "standard":"290*197",
       "physical_location":"서울시립미술관",
       "exhibit_location":null,
    "tokens": ["강", "원", "도", " ", "철", "원", "에", "서", " ", "태", "어", "난", " ", "박", "광", "수", "(", "1", "9", "8", "4", "~", ")", "는", " ", "서", "울", "과", "학", "기", "술", "대", "학", "교", "에", "서", " ", "조", "형", "예", "술", "과", "를", " ", "졸", "업", "하", "고", " ", "동", "대", "학", "원", "에", "서", " ", "석", "사", " ", "과", "정", "을", " ", "밟", "았", "다", ".", " ", "그", "의", " ", "작", "품", "은", " ", "흑", "백", "의", " ", "선", "으", "로", " ", "드", "로", "잉", "하", "듯", " ", "표", "현", "되", "어", " ", "있", "다", "는", " ", "공", "통", "점", "이", " ", "있", "으", "며", ",", " ", "검", "정", "과", " ", "하", "얀", "색", "의", " ", "선", "은", " ", "서", "로", "를", " ", "대", "비", "시", "키", "며", " ", "형", "태", "를", " ", "확", "연", "히", " ", "드", "러", "내", "기", "보", "다", " ", "오", "히", "려", " ", "그", " ", "사", "이", "의", " ", "경", "계", "를", " ", "무", "너", "트", "리", "고", " ", "모", "호", "하", "게", " ", "만", "드", "는", " ", "역", "할", "을", " ", "한", "다", ".", " ", "박", "광", "수", "의", " ", "작", "품", "에", "는", " ", "빈", "번", "히", " ", "숲", "이", " ", "등", "장", "하", "는", "데", " ", "사", "람", "의", " ", "손", "길", "이", " ", "닿", "지", " ", "않", "는", " ", "숲", "이", " ", "그", "에", "게", "는", " ", "날", "것", "의", " ", "공", "간", "이", "자", " ", "원", "초", "적", "인", " ", "공", "간", "으", "로", " ", "다", "가", "왔", "다", ".", " ", "통", "제", "되", "지", " ", "않", "은", " ", "무", "의", "식", "의", " ", "공", "간", "에", "서", " ", "내", "면", "의", " ", "감", "성", "을", " ", "들", "여", "다", "볼", " ", "수", " ", "있", "고", " ", "더", "욱", " ", "솔", "직", "해", "질", " ", "수", " ", "있", "기", "에", ",", " ", "박", "광", "수", "는", " ", "숲", "과", " ", "숲", "에", " ", "있", "는", " ", "대", "상", "을", " ", "정", "연", "하", "게", " ", "그", "려", "내", "기", "보", "다", "는", " ", "비", "정", "형", "화", " ", "된", " ", "모", "습", "으", "로", " ", "표", "현", "하", "고", "자", " ", "하", "는", " ", "것", "일", "지", "도", " ", "모", "르", "겠", "다", ".", " ", "그", "리", "고", " ", "형", "태", "가", " ", "모", "호", "해", "지", "면", "서", " ", "선", "의", " ", "운", "율", "에", " ", "더", "욱", " ", "집", "중", "할", " ", "수", " ", "있", "게", " ", "된", "다", ".", " ", "박", "광", "수", "의", " ", "〈", "검", "은", " ", "숲", " ", "속", "〉", "(", "2", "0", "1", "7", ")", "은", " ", "그", "가", " ", "지", "향", "하", "는", " ", "작", "업", "의", " ", "형", "식", "과", " ", "방", "향", "성", "을", " ", "잘", " ", "보", "여", "주", "는", " ", "작", "품", "이", "다", ".", " ", "그", "는", " ", "먼", "저", " ", "선", "으", "로", " ", "형", "태", "를", " ", "그", "린", " ", "다", "음", " ", "배", "경", "과", " ", "대", "상", "이", " ", "사", "라", "지", "는", " ", "것", "처", "럼", " ", "보", "이", "길", " ", "원", "해", "서", " ", "남", "은", " ", "여", "백", "을", " ", "다", "른", " ", "색", "의", " ", "선", "으", "로", " ", "채", "우", "듯", "이", " ", "그", "렸", "다", ".", " ", "그", "러", "나", " ", "그", "의", " ", "의", "도", "와", "는", " ", "다", "르", "게", " ", "선", "들", " ", "사", "이", "로", " ", "드", "러", "나", "는", " ", "흰", " ", "여", "백", "이", " ", "부", "서", "지", "고", " ", "남", "은", " ", "흔", "적", "과", " ", "같", "이", " ", "파", "편", "처", "럼", " ", "드", "러", "나", "는", " ", "효", "과", "를", " ", "자", "아", "낸", "다", "."], 
    "ner_tags": [2, 3, 3, 12, 2, 3, 12, 12, 12, 12, 12, 12, 12, 6, 7, 7, 12, 13, 14, 14, 14, 14, 12, 12, 12, 4, 5, 5, 5, 5, 5, 5, 5, 5, 12, 12, 12, 4, 5, 5, 5, 5, 12, 12, 12, 12, 12, 12, 12, 4, 5, 5, 5, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 6, 7, 7, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 6, 7, 7, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 6, 7, 7, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 0, 1, 1, 1, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12], 
    "sentence": "<강원도:LC> <철원:LC>에서 태어난 <박광수:PS>(<1984~:DUR>)는 <서울과학기술대학교:OG>에서 <조형예술과:OG>를 졸업하고 <동대학원:OG>에서 석사 과정을 밟았다. 그의 작품은 흑백의 선으로 드로잉하듯 표현되어 있다는 공통점이 있으며, 검정과 하얀색의 선은 서로를 대비시키며 형태를 확연히 드러내기보다 오히려 그 사이의 경계를 무너트리고 모호하게 만드는 역할을 한다. <박광수:PS>의 작품에는 빈번히 숲이 등장하는데 사람의 손길이 닿지 않는 숲이 그에게는 날것의 공간이자 원초적인 공간으로 다가왔다. 통제되지 않은 무의식의 공간에서 내면의 감성을 들여다볼 수 있고 더욱 솔직해질 수 있기에, <박광수:PS>는 숲과 숲에 있는 대상을 정연하게 그려내기보다는 비정형화 된 모습으로 표현하고자 하는 것일지도 모르겠다. 그리고 형태가 모호해지면서 선의 운율에 더욱 집중할 수 있게 된다. <박광수:PS>의 〈검은 숲 속〉(<2017:DT>)은 그가 지향하는 작업의 형식과 방향성을 잘 보여주는 작품이다. 그는 먼저 선으로 형태를 그린 다음 배경과 대상이 사라지는 것처럼 보이길 원해서 남은 여백을 다른 색의 선으로 채우듯이 그렸다. 그러나 그의 의도와는 다르게 선들 사이로 드러나는 흰 여백이 부서지고 남은 흔적과 같이 파편처럼 드러나는 효과를 자아낸다.", 
    "explain": "강원도 철원에서 태어난 박광수(1984~)는 서울과학기술대학교에서 조형예술과를 졸업하고 동대학원에서 석사 과정을 밟았다. 그의 작품은 흑백의 선으로 드로잉하듯 표현되어 있다는 공통점이 있으며, 검정과 하얀색의 선은 서로를 대비시키며 형태를 확연히 드러내기보다 오히려 그 사이의 경계를 무너트리고 모호하게 만드는 역할을 한다. 박광수의 작품에는 빈번히 숲이 등장하는데 사람의 손길이 닿지 않는 숲이 그에게는 날것의 공간이자 원초적인 공간으로 다가왔다. 통제되지 않은 무의식의 공간에서 내면의 감성을 들여다볼 수 있고 더욱 솔직해질 수 있기에, 박광수는 숲과 숲에 있는 대상을 정연하게 그려내기보다는 비정형화 된 모습으로 표현하고자 하는 것일지도 모르겠다. 그리고 형태가 모호해지면서 선의 운율에 더욱 집중할 수 있게 된다. 박광수의 〈검은 숲 속〉(2017)은 그가 지향하는 작업의 형식과 방향성을 잘 보여주는 작품이다. 그는 먼저 선으로 형태를 그린 다음 배경과 대상이 사라지는 것처럼 보이길 원해서 남은 여백을 다른 색의 선으로 채우듯이 그렸다. 그러나 그의 의도와는 다르게 선들 사이로 드러나는 흰 여백이 부서지고 남은 흔적과 같이 파편처럼 드러나는 효과를 자아낸다.", 
    "taglist": [
    {"KeyID":"KW0000", "Keyword":"강원도","Type":1},
    {"KeyID":"KW0001", "Keyword":"철원","Type":1},
    {"KeyID":"KW0002", "Keyword":"박광수","Type":3},
    {"KeyID":"KW0003", "Keyword":"1984~","Type":6},
    {"KeyID":"KW0004", "Keyword":"서울과학기술대학교","Type":2},
    {"KeyID":"KW0005", "Keyword":"조형예술과","Type":2},
    {"KeyID":"KW0006", "Keyword":"동대학원","Type":2},
    {"KeyID":"KW0007", "Keyword":"2017","Type":0}
        ]
    }

     

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 비큐에이아이
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이상규 070-7091-8072 sglee@becuai.com 실무 담당(사업관리, 품질관리)
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    서울시스템 도슨트 원문 데이터 수집 및 정제
    솔트룩스 도슨트 데이터 기계독해(MRC) 라벨링
    나라지식정보 도슨트 데이터 개체명 인식(NER) 라벨링
    지티원 품질관리
    부경대학교 산학협력단 인공지능 학습모델 개발 및 검증
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이상규 070-7091-8072 sglee@becuai.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.