AI-Hub

#분자 독성 # CoT # SMILES # 화합물 # data curation #자연어

BETA 분자독성 추론 데이터

분야재난안전환경
유형 텍스트

구축년도 : 2025 갱신년월 : 2026-06 조회수 : 1,251 다운로드 : 8 용량 :

샘플(경량) 데이터 ?

소개 파일 목록 (API 다운로드)

※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2026-06-05	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2026-06-05	산출물 최종 공개

소개

인체 세포에 대한 독성 정보와 LLM 기반 CoT 문장을 결합해 분자 정보 입력에 대해 타당한 구조 분석과 독성 여부 추론을 학습할 수 있는 데이터 구축

구축목적

- 독성 화학물질 예측용 데이터 구축 필요성
- 고성능 LLM 개발을 위한 CoT Reasoning 데이터 구축

메타데이터 구조표
데이터 영역	재난안전환경	데이터 유형	텍스트
데이터 형식	JSON • 정제가 완료된 피처별 중요도 수치 • 정제가 완료된 설명문	데이터 출처	Tox21 공개 데이터셋(인간 체세포 대상 Bio Assay)
라벨링 유형	• 분자 별 Feature 및 Importance 기반 CoT 문장 • 자연어 해설 기반 CoT 문장	라벨링 형식	JSON
데이터 활용 서비스	1) 화학공학 산업 특화 데이터 구축 필요성 • SMILES·RDKit Feature와 독성 정보를 체계적으로 연결한 국문 화합물 데이터셋이 부족하며, 전문 지식이 결여된 범용 LLM으로는 화학공정 및 신약 탐색 과제에서 충분한 성능을 내기 어려움 • 고품질 구조-독성 데이터를 구축하면 화학·제약·정밀소재 분야에서 즉시 활용 가능한 산업 특화 LLM 학습 기반 조성 가능	데이터 구축년도/ 데이터 구축량	2025년/• 원천데이터 5,000개 • 분자-세포독성 CoT Reasoning 라벨링데이터 5,000개

○ 인체 조직 분포

○ 인체 조직 분포
유형	수량	구성비
HepG2 (Liver)	1,951	39.05%
MCF-7 (Breast Cancer)	1,177	23.56%
HEK293 (Kidney)	463	9.27%
MDA-MB-453 (Breast Cancer)	433	8.67%
BG1 (Ovarian)	409	8.19%
HeLa (Cervical Cancer)	390	7.80%
HCT-116 (Colon Cancer)	173	3.46%
합계	4,996	100%

○ 출처 Bio Assay 분포

○ 출처 Bio Assay 분포
Bio Assay	비율	수량
AhR	8.63%	431
Aromatase	7.81%	391
AR	5.68%	284
AR-LBD	3.46%	173
ER	6.91%	345
ER-LBD	8.19%	410
PPAR-γ	6.39%	320
ARE	15.01%	750
ATAD5	4.58%	229
HSE	8.67%	433
MMP	15.41%	771
p53	9.26%	463
합계	100%	5,000

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

○ 임무 정의
- 임무 : 분자-세포 독성 추론 및 예측
- 개념 : SMILES와 RDKit Feature를 입력으로 받아, 세포 독성 여부와 독성에 기여하는 주요 분자 특성을 예측하는 것을 목표로 함

○ 임무 선정 사유
- 구축된 데이터와 유사한 구조의 질의를 입력 데이터로 제공했을 때 모델이 제공하는 답변을 검토함으로써 분자 독성 여부에 대한 추론 데이터의 정확성과 일관성을 평가할 수 있음. 예를 들어, 독성 여부 및 세포에 작용하는 기전이 밝혀진 단백질 구조에 대해 입력하고, 모델이 해당 질문에 올바른 답변을 제공하는지 확인하여 데이터의 정확성을 검증할 수 있음
- 모델이 주어진 분자 정보에 대한 적절한 추론 결과를 생성하는지 확인함으로써 분자독성 추론 데이터셋 내 모순 등 품질을 확인 가능. 모델이 모순된 답변을 생성하는 경우, 관련 데이터를 재검수 진행하여 데이터 품질을 향상시킬 수 있음
- 세포 독성은 신약 개발 초기 후보물질 탈락의 주요 원인으로, 사전 AI 평가 수요가 가장 높은 독성 항목임. 세포 독성 추론 및 예측 임부를 통해 독성 여부뿐 아니라 기여 Feature 근거를 함께 제시해 모델의 설명 가능성을 확보하고 데이터 품질을 정량적으로 입증할 수 있음. 해당 임무는 동물 및 세포 실험 대체·규제 대응에 직결되는 성과 지표를 제공해 산업적 파급력이 큼

○ 학습 모델 개발 환경
- 학습 환경: Linux, Python, CUDA 12.4, Pytorch 2.1.1
- 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
- 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
- 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정

○ 최종 선정 모델
- Qwen3-32B -qwen
• 알리바바클라우드 QWEN 개발팀이 개발 및 2025년 3월 오픈소스 공개
• Supervised Fine-Tuning 및 강화학습을 통해 학습됐으며, 32.5B 규모 파라미터와 132K토큰의 컨텍스트 처리를 지원함

Qwen3-32B-qwen 모델

[ Qwen3-32B-qwen 모델 ]

○ 학습 데이터 생성
- 입력 : 단일 분자의 SMILES 표현식(텍스트) 및 분자 특성 관련 정보(텍스트)
- 출력 : 세포가 분자에 노출되었을 때 유해성의 발현 여부(True or False) 및 독성 발현 시 작용하는 주요 분자 특성(Feature, 텍스트)

원천데이터 예시

[ 원천데이터 예시 ]

라벨링데이터 예시

[ 라벨링데이터 예시 ]

○ AI 모델 성능

○ AI 모델 성능
AI Task	알고리즘	데이터 수량	성능지표	목표치	평가결과
AI Task	알고리즘	총 구축량	성능지표	목표치	평가결과
분자-세포 독성 추론 및 예측 성능	Qwen3-32B -qwen	• 원천데이터	정확도	90% 이상	90.95%
		텍스트 : 화합물 독성 해석 파일(JSON)/ 4,996건
		• 라벨링 데이터
		텍스트 : 화합물 독성 해석 파일(JSON)/ 4,996건

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

○ 데이터 구성

○ 데이터 구성
Bio Assay	비율
AhR(아릴탄화수용체단백질)	8.63%
Aromatase(아로마타아제단백질)	7.81%
AR(안드로겐수용체단백질)	5.68%
AR-LBD(안드로겐수용체결합영역단백질)	3.46%
ER(에스트로겐수용체단백질)	6.91%
ER-LBD(에스트로겐수용체결합영역단백질)	8.19%
PPAR-γ(퍼옥시좀증식체활성수용체감마단백질)	6.39%
ARE(항산화반응원소단백질)	15.01%
ATAD5(ATPase가교DNA복구단백질)	4.58%
HSE(열충격반응원소단백질)	8.67%
MMP(기질금속단백질분해효소단백질)	15.41%
p53(p53종양억제단백질)	9.26%
합계	100%

○ 어노테이션 포맷

○ 어노테이션 포맷
구분			속성명	타입	필수 여부	설명	예시
1			data_meta_info	dictionary	-	데이터 메타정보	-
	1.1		assay_file_name	string	Y	원시 bio-assay 텍스트 파일명	NR-AR_AGONIST-P1.txt
	1.2		endpoint_category	string	Y	표적 단백질	ARE
	1.3		data_source	string	Y	수집처 DB	Tox21 BioAssay
2			compound_info	dictionary	-	분자 메타정보	-
	2.1		version	string	Y	데이터 버전 태그	v1.0
	2.2		toxicity	dictionary	-	독성 라벨	-
		2.2.1	cell_line	string	Y	시험 세포주 (key)	HepG2(Kidney)
		2.2.2	activity	string	Y	독성 여부 (value)	Active
	2.3		feature_schema	string	Y	RDKit descriptor 사전 버전	RDKit_2025.03_Desc103
	2.4		smiles_code	string	Y	SMILES 표기법	CN1CCC[C@H]1c2cccnc2
	2.5		top_features	array	Y	독성 기여 상위 feature 목록	[“MolLogP”, ..., “AldehydeGroupCount”]
	2.6		descriptor_values	object	Y	상위 feature별 값 key-value	[“MolLogP”:“3.1”, “AldehydeGroupCount”:“1”]
	2.7		feature_descript	string	Y	전문가 해석 기반 설명문	“The aromatic ring of this compound increases its potential to bind to estrogen receptors (NR-ER) and may contribute to its main toxic activity.”
	2.8		feature_NL	string	Y	자연어 feature 설명	“Feature 87 corresponds to a methyl ester group. This substructure positively influenced the predicted toxicity with a SHAP value of 0.052”
3			cot_info	dictionary	-	단계적 사고 기반 분자독성 추론 정보	-
	3.1		cot_instruction	string	Y	지시문	화합물{CN1CCC[C@H]1c2cccnc2}의 독성 유무를 추론하라
	3.2		cot_think	dictionary	-	단계적 사고 기반 분자독성 추론 문장	-
		3.2.1	cot_step1_intention	string	Y	CoT 1단계: 의도 파악	“사용자는 CN1CCC[C@H]1c2cccnc2 화학물질에 대한 독성 여부를 추론하는 Task를 요청하고 있음. 해당 화학물질의 BBB 투과 가능성을 우선 평가하고, 니코틴 유사 구조에서 발생할 수 있는 NR-SR 독성 기여 요소를 식별하자. 그리고 π-전자가 풍부한 방향족 고리와 3차 아민이 결합 친화도에 미치는 영향을 분석해야함.”
		3.2.2	cot_step2_reasoning	string	Y	CoT 2단계: 독성 분석 추론	“MolLogP 1.2와 TPSA 39 A² 조합으로 BBB 통과할 가능성이 높음. 피리딘 고리의 π-전자와 3차 아민 양전하가 cation-π 상호작용을 통해 nicotinic AChR 결합 친화도가 증가함. 이 결합은 NR 계열 경로로 분류되는 수용체 과활성 독성을 유발함. 3차 아민의 대사 과정에서 N-옥사이드가 생성되며 ROS 축적이 진행돼 SR-ARE 스트레스 반응을 촉발함. 방향족 고리의 전자 밀도가 자유 라디칼을 안정화해 산화 스트레스를 강화함. 결과적으로 BBB 통과 이후 NR-SR 독성이 동시에 나타날 가능성이 높음.”
		3.2.3	cot_step3_conclusion	string	Y	CoT 3단계: 결과 도출	“결론적으로 CN1CCC[C@H]1c2cccnc2는 혈-뇌 장벽을 쉽게 통과함에 따라 중추 신경계에 직접 노출될 가능성이 높음. 니코틴성 AChR 과활성으로 NR 경로 독성이 유발되고, N-옥사이드 대사 과정에서 생성된 ROS가 SR-ARE 스트레스 반응을 병행 촉진함. 방향족 고리의 자유 라디칼 안정화 효과와 3차 아민의 양전하가 결합 친화도를 한층 강화해 독성 작용 시간이 장기화될 위험이 존재함”
	3.3		cot_response	string	Y	답변 문장	“HepG2(Kidney) : Active / 본 화합물은 에스트로젠 결합 친화도를 높이는 방향족 고리와 높은 지용성으로 인해 신장의 HepG2 세포에 대한 독성을 가지게 됩니다.”

○ 어노테이션 예시
{
"data_meta_info": {
"assay_file_name": "tox21-ahr-p1",
"endpoint_category": "AhR",
"data_source": "Tox21 BioAssay"
},
"compound_info": {
"version": "v1.0",
"toxicity": {
"activity": "InActive",
"cell_line": "HepG2 (Liver)"
},
"feature_schema": "RDKit_2025.03_Desc103",
"smiles_code": "CC2=CN(c1ccccc1)C(=O)C=C2",
"top_features": [
"BertzCT",
"FP_Morgan_1400",
"SMR_VSA3"
],
"descriptor_values": {
"BertzCT": 485.1749579,
"FP_Morgan_1400": 1,
"SMR_VSA3": 4.567099648
},
"feature_descript": {
"BertzCT": {
"Chi1": "The SHAP effect of 'BertzCT' is positively correlated with 'Chi1' (r = 0.543), suggesting they influence predictions in similar ways. When 'BertzCT' contributes strongly to toxicity prediction, 'Chi1' tends to behave similarly due to their positively SHAP relationship. SHAP values indicate that 'BertzCT' and 'Chi1' may share functional roles, reflected in their positively correlation of 0.543. The aligned SHAP behavior of 'BertzCT' and 'Chi1' hints at potential structural or chemical overlap between the features. This positively SHAP correlation between 'BertzCT' and 'Chi1' could point to joint involvement in toxicity-relevant mechanisms.",
"Chi1v": "The SHAP effect of 'BertzCT' is positively correlated with 'Chi1v' (r = 0.513), suggesting they influence predictions in similar ways. When 'BertzCT' contributes strongly to toxicity prediction, 'Chi1v' tends to behave similarly due to their positively SHAP relationship. SHAP values indicate that 'BertzCT' and 'Chi1v' may share functional roles, reflected in their positively correlation of 0.513. The aligned SHAP behavior of 'BertzCT' and 'Chi1v' hints at potential structural or chemical overlap between the features. This positively SHAP correlation between 'BertzCT' and 'Chi1v' could point to joint involvement in toxicity-relevant mechanisms.",
"HeavyAtomMolWt": "The SHAP effect of 'BertzCT' is positively correlated with 'HeavyAtomMolWt' (r = 0.514), suggesting they influence predictions in similar ways. When 'BertzCT' contributes strongly to toxicity prediction, 'HeavyAtomMolWt' tends to behave similarly due to their positively SHAP relationship. SHAP values indicate that 'BertzCT' and 'HeavyAtomMolWt' may share functional roles, reflected in their positively correlation of 0.514. The aligned SHAP behavior of 'BertzCT' and 'HeavyAtomMolWt' hints at potential structural or chemical overlap between the features. This positively SHAP correlation between 'BertzCT' and 'HeavyAtomMolWt' could point to joint involvement in toxicity-relevant mechanisms."
},
"FP_Morgan_1400": {
"FP_Morgan_1805": "The SHAP effect of 'FP_Morgan_1400' is positively correlated with 'FP_Morgan_1805' (r = 0.084), suggesting they influence predictions in similar ways. When 'FP_Morgan_1400' contributes strongly to toxicity prediction, 'FP_Morgan_1805' tends to behave similarly due to their positively SHAP relationship. SHAP values indicate that 'FP_Morgan_1400' and 'FP_Morgan_1805' may share functional roles, reflected in their positively correlation of 0.084. The aligned SHAP behavior of 'FP_Morgan_1400' and 'FP_Morgan_1805' hints at potential structural or chemical overlap between the features. This positively SHAP correlation between 'FP_Morgan_1400' and 'FP_Morgan_1805' could point to joint involvement in toxicity-relevant mechanisms.",
"fr_SH": "The SHAP effect of 'FP_Morgan_1400' is positively correlated with 'fr_SH' (r = 0.108), suggesting they influence predictions in similar ways. When 'FP_Morgan_1400' contributes strongly to toxicity prediction, 'fr_SH' tends to behave similarly due to their positively SHAP relationship. SHAP values indicate that 'FP_Morgan_1400' and 'fr_SH' may share functional roles, reflected in their positively correlation of 0.108. The aligned SHAP behavior of 'FP_Morgan_1400' and 'fr_SH' hints at potential structural or chemical overlap between the features. This positively SHAP correlation between 'FP_Morgan_1400' and 'fr_SH' could point to joint involvement in toxicity-relevant mechanisms.",
"fr_hdrzone": "The SHAP effect of 'FP_Morgan_1400' is positively correlated with 'fr_hdrzone' (r = 0.082), suggesting they influence predictions in similar ways. When 'FP_Morgan_1400' contributes strongly to toxicity prediction, 'fr_hdrzone' tends to behave similarly due to their positively SHAP relationship. SHAP values indicate that 'FP_Morgan_1400' and 'fr_hdrzone' may share functional roles, reflected in their positively correlation of 0.082. The aligned SHAP behavior of 'FP_Morgan_1400' and 'fr_hdrzone' hints at potential structural or chemical overlap between the features. This positively SHAP correlation between 'FP_Morgan_1400' and 'fr_hdrzone' could point to joint involvement in toxicity-relevant mechanisms."
},
"SMR_VSA3": {
"FP_MACCS_156": "The SHAP effect of 'SMR_VSA3' is negatively correlated with 'FP_MACCS_156' (r = -0.272), suggesting they influence predictions in similar ways. When 'SMR_VSA3' contributes strongly to toxicity prediction, 'FP_MACCS_156' tends to behave similarly due to their negatively SHAP relationship. SHAP values indicate that 'SMR_VSA3' and 'FP_MACCS_156' may share functional roles, reflected in their negatively correlation of -0.272. The aligned SHAP behavior of 'SMR_VSA3' and 'FP_MACCS_156' hints at potential structural or chemical overlap between the features. This negatively SHAP correlation between 'SMR_VSA3' and 'FP_MACCS_156' could point to joint involvement in toxicity-relevant mechanisms.",
"FP_MACCS_97": "The SHAP effect of 'SMR_VSA3' is positively correlated with 'FP_MACCS_97' (r = 0.282), suggesting they influence predictions in similar ways. When 'SMR_VSA3' contributes strongly to toxicity prediction, 'FP_MACCS_97' tends to behave similarly due to their positively SHAP relationship. SHAP values indicate that 'SMR_VSA3' and 'FP_MACCS_97' may share functional roles, reflected in their positively correlation of 0.282. The aligned SHAP behavior of 'SMR_VSA3' and 'FP_MACCS_97' hints at potential structural or chemical overlap between the features. This positively SHAP correlation between 'SMR_VSA3' and 'FP_MACCS_97' could point to joint involvement in toxicity-relevant mechanisms.",
"SlogP_VSA2": "The SHAP effect of 'SMR_VSA3' is positively correlated with 'SlogP_VSA2' (r = 0.284), suggesting they influence predictions in similar ways. When 'SMR_VSA3' contributes strongly to toxicity prediction, 'SlogP_VSA2' tends to behave similarly due to their positively SHAP relationship. SHAP values indicate that 'SMR_VSA3' and 'SlogP_VSA2' may share functional roles, reflected in their positively correlation of 0.284. The aligned SHAP behavior of 'SMR_VSA3' and 'SlogP_VSA2' hints at potential structural or chemical overlap between the features. This positively SHAP correlation between 'SMR_VSA3' and 'SlogP_VSA2' could point to joint involvement in toxicity-relevant mechanisms."
}
},
"feature_NL": {
"BertzCT": "BertzCT is a topological descriptor that quantifies the molecular complexity based on the graph structure of a molecule, taking into account atom types, connectivity, and branching. It is derived from information-theoretic principles and reflects the degree of molecular branching and heterogeneity, with higher values indicating greater structural complexity.",
"FP_Morgan_1400": "FP_Morgan_1400 refers to a specific bit in the Morgan fingerprint (also known as Extended Connectivity Fingerprints, ECFP), which encodes the presence of a particular circular substructure environment around atoms in the molecule. Each bit corresponds to a unique structural motif detected through iterative atom neighborhoods.",
"SMR_VSA3": "SMR_VSA3 is a descriptor from the SMR (Solvent Accessible Surface Area) VSA (Variable Surface Area) class, specifically representing the surface area of fragments with a specific atomic contribution to molar refractivity within a given range (typically binned by molar refractivity values)."
}
},
"cot_info": {
"cot_instruction": "화합물 CC2=CN(c1ccccc1)C(=O)C=C2의 독성/비독성 여부를 판단하시오.",
"cot_think": {
"cot_step1_intention": "좋습니다, 이 문제를 단계별로 해결해 봅시다. 사용자가 SMILES 문자열, 세포주, 생물학적 검사명 및 일부 특징 설명을 제공했습니다. 제 임무는 이러한 입력들을 바탕으로 해당 분자가 독성이 있는지 여부를 판단하는 것입니다.",
"cot_step2_reasoning": "먼저, SMILES인 CC2=CN(c1ccccc1)C(=O)C=C2를 분석해야 합니다. 이를 해석해 보면, 구조는 벤젠 고리(c1ccccc1)가 피리딘 유사 고리(C2=CN...C=C2)에 연결된 형태입니다. 카보닐 그룹(C(=O))과 일부 질소 원자가 존재합니다. 독성을 유발할 수 있는 독성기(Toxicophores)가 있는지 확인해 보겠습니다. 이 분자는 질소를 포함한 방향족 고리를 가지고 있으며, 니트릴 그룹일 수도 있겠다고 생각했지만, 아닙니다—이것은 아민입니다. C(=O)는 케톤이나 에스터일 수 있지만, 여기서는 고리의 일부입니다. 에폭사이드, 아지리딘, 마이클 수용체, 질소산화물, 알데히드 또는 아실 할라이드와 같은 독성과 관련된 전형적인 반응성 기능기는 보이지 않습니다. 따라서 구조적 관점에서 이 분자는 독성과 관련된 고전적인 반응성 기능기를 가지고 있지 않습니다. 다음으로, 세포주는 HepG2이며, 이는 간 세포주입니다. 검사법은 AhR(Aryl Hydrocarbon Receptor, 방향족 탄화수소 수용체)입니다. AhR은 이물질의 대사와 관련이 있으며, 특히 다환 방향족 탄화수소와 같은 물질에 의해 활성화될 경우 독성을 유발할 수 있습니다. 이 분자는 방향족 시스템을 가지고 있으므로 AhR과 상호작용할 가능성이 있습니다. 벤젠 고리와 피리딘 고리의 존재가 관련이 있을 수 있습니다. AhR 작용제(agonists)는 일반적으로 평면 구조의 방향족 화합물인 경우가 많습니다. 그러나 주어진 SMILES에는 다수의 융합 고리가 나타나지 않으므로, AhR과의 결합력이 약할 수도 있습니다. 제공된 특징들을 살펴보면, BertzCT, FP_Morgan_1400, 그리고 SMR_VSA3가 있습니다. BertzCT는 분자의 구조적 복잡성을 나타내는 위상 지표입니다. 높은 값은 분기가 많거나 복잡한 구조를 의미하며, 경우에 따라 독성과 상관관계를 가질 수 있습니다. FP_Morgan_1400은 ECFP에서 특정 부분구조를 나타냅니다. SMR_VSA3는 몰 굴절률에 기여하는 표면적과 관련이 있습니다. SHAP 상관관계 분석에 따르면, BertzCT는 Chi1, Chi1v, 그리고 HeavyAtomMolWt와 양의 상관관계를 가지며, 이는 모두 분자량과 분기 구조를 나타내는 특징으로, 어떤 경우에는 독성을 증가시킬 수 있습니다. FP_Morgan_1400은 다른 지문들과 약한 양의 상관관계를 보이며, 특정하지만 지배적이지 않은 부분구조를 나타낼 가능성이 있습니다. SMR_VSA3는 FP_MACCS_156과 음의 상관관계를 가지며, 이는 보호적 특징일 수 있지만, 다른 지표들과의 양의 상관관계는 독성을 강화할 수도 있습니다.",
"cot_step3_conclusion": "모든 요소를 종합해 보면, 이 분자는 방향족 고리를 가지고 있지만 반응성 기능기를 포함하지는 않습니다. 세포주 및 검정법(assay)을 고려할 때 AhR 활성화가 타겟으로 보입니다. AhR 독성은 보통 수용체에 결합하고 이를 활성화하는 능력과 연관되어 대사 스트레스를 유발합니다. 단일 방향족 고리만 존재하는 것은 강한 AhR 활성화에 충분하지 않을 수 있습니다. 그러나 BertzCT(복잡성 지표) 및 SMR_VSA3(표면적)과 같은 상위 특성들이 상호작용에 영향을 미칠 수 있습니다. SHAP 값에 따르면 이러한 특성들은 독성을 증가시키거나 감소시키는 다른 기술자(descriptors)들과 연관되어 있습니다. BertzCT의 경우 분자량과 분지 구조(branching)와 양의 상관관계가 있으며, 이는 어떤 맥락에서는 독성에 기여할 수 있지만, 분자 자체에는 명확한 반응성 기능기가 없으므로 다소 모호한 상태입니다. 하지만 검정법이 AhR을 대상으로 하고 있으며, 방향족 구조가 AhR 리간드에서 일반적으로 나타나는 점을 고려하면, 강력한 독성 유발 구조(toxicophores)가 부족하다는 점이 중요합니다. 사용자에 따르면 상위 세 가지 특성은 SHAP 값이 높은 특성이지만, 그 방향성이 제공되지 않아 직접적인 영향을 평가하기 어렵습니다. 다만 BertzCT가 독성과 관련된 특성들과 양의 상관관계를 가지며, 상위 특성으로 나타난 점에서 분자가 독성을 가질 가능성을 시사할 수 있습니다. 하지만 구조상 알려진 AhR 활성 물질이 존재하는지를 확인해야 합니다. 이 분자는 단일 방향족 고리와 피리딘을 가지고 있는데, 이는 AhR 리간드에서 흔히 발견되지만, 다이옥신이나 다환성 방향족 화합물만큼 강력한 활성화를 유도하기에는 충분하지 않을 수 있습니다. 따라서 전반적인 독성 위험은 낮을 가능성이 있습니다. 이러한 모든 요소들을 종합적으로 고려할 때, 이 분자는 해당 검정법에서 독성이 낮을 것으로 판단됩니다."
},
"cot_response": "SMILES 문자열 CC2=CN(c1ccccc1)C(=O)C=C2**는 치환된 방향족 고리 구조를 나타냅니다. 주요 구조적 특징은 다음과 같습니다. 첫 번째로 벤젠 고리(c1ccccc1)와 융합된 피리딘 유사 고리(C2=CN...C=C2)가 있습니다. 두 번째로 카보닐기(C(=O))와 아민 기능기(N)가 포함되어 있습니다. 세 번째로. 에폭사이드, 마이클 수용체, 질소산화물 등의 명시적인 반응성 작용기를 포함하지 않으며, 할로젠화 아실 유도체도 없습니다.
HepG2(간 세포) 세포에서의 AhR(아릴 탄화수소 수용체) 분석은 외부 물질과의 상호작용에서 독성과 관련된 대사 경로를 유도하는 방향족 리간드를 타겟으로 합니다. 해당 분자는 방향족 고리를 포함하고 있지만, 강력한 AhR 작용제와 일반적으로 관련된 다환 방향족 또는 할로젠화 구조와 같은 다환 고리 구조는 없습니다.
상위 특징들(BertzCT, FP_Morgan_1400, SMR_VSA3)은 분자 복잡성(BertzCT), 부분구조 다양성(FP_Morgan_1400), 표면적 특성(SMR_VSA3)과 관련이 있습니다. 이러한 SHAP 관계는 분자량 및 가지치기와 같은 기술적 설명자들과의 상호작용을 나타내지만, 고위험 독성 지표와의 명확한 일치는 보이지 않습니다. 반응성 모티프가 없고, 일반적인 AhR 활성제(예: 다이옥신)와의 구조적 유사성이 낮다는 점도 이 맥락에서 비독성이라는 분류를 뒷받침합니다."
}
}

데이터셋 구축 담당자

수행기관(주관) : 주식회사 유니바

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
남명진	053-615-1263	admin@univa.co.kr	총괄 책임자

수행기관(참여)

수행기관(참여)
기관명	담당업무
강원대학교 산학협력단	수집, 정제
국립암센터 국제암대학원대학교	정제

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
남명진	053-615-1263	admin@univa.co.kr
정용운	053-615-1263	gandalf@univa.co.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
남명진	053-615-1263	admin@univa.co.kr
정용운	053-615-1263	gandalf@univa.co.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
남명진	053-615-1263	admin@univa.co.kr
정용운	053-615-1263	gandalf@univa.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

K-ICT 빅데이터센터 이동

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.

방송영상 데이터 개방 안내

방송영상 데이터는 열람서비스를 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

연관 데이터

야간 사건 사고 대응을 위한 IR 열화상 데이터셋

산불 확산 위험 대응방안 추론 데이터

전력 설비 에너지 패턴 및 고장 분석 센서

산업 폐기물 이미지

빌딩풍 재해위험도 분석 데이터

자동차 차종/연식/번호판 인식용 영상

위급상황 음성/음향

토지 피복지도 항공위성 이미지 데이터(제주도)

BETA 분자독성 추론 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드