데이터는 AI 빅 모델의 기반입니다. 대량의 고품질 데이터를 지속적으로 교육하고 조정하면 대형 모델의 정확성과 효율성을 향상시킬 수 있습니다. 대규모 모델 학습은 데이터 마이닝, 웹 크롤러, 데이터 공유, 데이터 개방성, 법적 거래 등의 방법을 통해 데이터를 획득하고 데이터 정리, 중복 제거, 서식 지정 및 수동 레이블링을 통해 데이터를 처리해야 합니다. 일반적으로 교육 데이터 생산 프로세스에는 주로 교육 데이터 세트 구조 설계, 원재료 데이터 수집 및 수집, 데이터 처리 및 레이블 지정, 데이터 품질 검사 및 기타 링크가 포함됩니다.
최근 몇 년 동안 우리나라의 데이터 라벨링 시장은 급속도로 발전했습니다. Huajing Industrial Research Institute의 통계에 따르면 2021년 우리나라 인공 지능 데이터 라벨링 시장에서 컴퓨터 비전, 지능형 음성 및 NLP(Natural Language Processing, 약칭 NLP, 자연 언어 처리)에 대한 수요가 45.3%, 40.5%를 차지했습니다. 각각 14.2%, 2021년 우리나라 데이터 라벨링 산업의 시장 규모는 전년 대비 약 19.2% 증가한 43.3억 위안에 달할 것이며, 시장 규모는 20.43억 위안에 달할 것으로 예상됩니다. 2029년까지 1000억 위안
1. 데이터 라벨링
일반적으로 데이터 라벨링은 처리되지 않은 음성, 그림, 텍스트, 비디오 및 기타 데이터를 처리하여 기계가 인식할 수 있는 정보로 변환하는 과정이라고 여겨집니다. 데이터 주석의 종류에는 이미지 주석, 음성 주석, 텍스트 주석, 비디오 주석 등이 있으며, 텍스트에 대한 단어 분할, 품사 태깅 및 개체 인식, 이미지에 대한 객체 감지 및 분할 등이 있다. 데이터 라벨링을 통해 기계가 인식하고 구별해야 하는 데이터에 라벨을 붙인 다음 컴퓨터가 이러한 데이터의 특성을 지속적으로 학습하게 하고 최종적으로 컴퓨터가 자신을 식별하는 능력을 실현합니다.
데이터 주석은 대형 인공 지능 모델에 큰 의미가 있으며 대형 인공 지능 모델의 효과적인 작동을 위한 핵심 링크 중 하나라고 할 수 있습니다. 구체적으로 데이터 레이블링은 다음과 같은 의미를 가져올 수 있습니다.
하나는 기계 학습 알고리즘의 정확도를 향상시키는 것입니다.데이터에 레이블을 지정하면 기계 학습 알고리즘이 더 정확하게 학습하고 예측할 수 있습니다. 이미지 분류 작업의 경우 주석이 달린 이미지를 통해 알고리즘이 이미지의 개체와 장면을 더 잘 인식할 수 있으므로 정확도가 향상됩니다.
두 번째는 알고리즘의 훈련 과정을 가속화하는 것입니다. 데이터에 레이블을 지정하면 기계 학습 알고리즘이 더 빠르게 학습하고 훈련할 수 있으므로 알고리즘의 훈련 시간과 비용을 줄일 수 있습니다.레이블 데이터의 광범위한 적용은 기계 학습 기술의 발전을 촉진했습니다.
세 번째는 기계 학습 기술의 응용 능력을 촉진하는 것입니다. 레이블이 지정된 데이터를 통해 사람들은 기계 학습 기술을 사용하여 자연어 처리, 컴퓨터 비전, 추천 시스템 등과 같은 실제 문제를 더 잘 해결할 수 있습니다. 요컨대, 데이터 주석은 기계 학습 분야에서 매우 중요한 연결 고리입니다.
2. 데이터 라벨링 및 데이터 거버넌스
데이터 관리 능력 성숙도 평가 모델(GB/T 36073-2018)에 따르면 데이터 거버넌스는 데이터를 처리, 형식화 및 표준화하는 프로세스입니다. 데이터 거버넌스는 데이터 및 데이터 시스템 관리의 필수 요소입니다. 데이터 거버넌스에는 정적, 동적, 불완전 또는 트랜잭션 여부에 관계없이 데이터의 전체 수명 주기 관리가 포함됩니다.
데이터 주석과 데이터 거버넌스는 서로 다른 개념입니다. 데이터 거버넌스는 데이터 품질, 보안, 신뢰성 및 표준화를 보장하기 위해 데이터 수집, 처리, 분석 및 저장과 같은 데이터 활동의 통합 관리를 의미합니다. 데이터 거버넌스의 목표는 질서 있고 효율적이며 규정을 준수하는 데이터 사용을 촉진하여 비즈니스 의사 결정 및 비즈니스 개발을 추진하는 것입니다. 데이터 주석은 기계 학습 또는 인공 지능 모델을 위한 교육 자료로 원시 데이터를 분류, 레이블 지정 및 주석 처리하는 프로세스입니다. 데이터 주석의 목적은 기계 학습 모델의 정확성과 일반화 능력을 향상시켜 모델이 실제 비즈니스 시나리오에 더 잘 적응할 수 있도록 하는 것입니다.
데이터 라벨링과 데이터 거버넌스는 상호 연관되어 있습니다. 데이터 거버넌스는 데이터의 품질과 신뢰성을 보장하고 데이터 라벨링을 위한 고품질 원시 데이터를 제공할 수 있습니다. 동시에 데이터 주석의 결과는 데이터 거버넌스에 대한 더 나은 피드백과 지침을 제공하여 데이터 거버넌스를 보다 정확하고 효과적으로 만들 수 있습니다.
3. 데이터 라벨링 및 데이터 표준
데이터 관리 능력 성숙도 평가 모델(GB/T 36073-2018)에 따르면 데이터 표준(Data Standard)은 데이터의 명명, 정의, 구조 및 가치에 대한 규칙을 말합니다. 데이터 라벨링은 데이터 표준의 공식화 및 구현에서 중요한 연결 고리입니다. 데이터 표준은 데이터 정의 및 사용의 일관성, 정확성 및 완전성을 보장하기 위한 규범적 제약입니다. 기업의 경우 데이터 표준은 데이터의 내부 및 외부 사용 및 교환의 일관성과 정확성을 보장하는 규범적 제약 조건입니다.
데이터 표준에는 데이터 구조, 데이터 콘텐츠 소스, 기술 비즈니스 등에 대한 표준이 포함될 수 있습니다. 데이터 표준의 공식화 및 발표는 데이터의 무결성, 일관성 및 표준화를 보장하기 위해 데이터의 표준화된 관리를 촉진하기 위해 다양한 관리 활동을 통해 실제 비즈니스 요구와 결합되어야 합니다. 데이터 표준 관리의 목표는 건전한 데이터 표준 관리 시스템과 결합된 통일된 데이터 표준의 제정 및 출시를 통해 데이터의 표준화된 관리를 달성하고 후속 데이터 관리를 위한 표준 기반을 제공하는 것입니다.
데이터 레이블 지정은 기계 학습의 기본 자료로 데이터를 분류, 프레이밍, 레이블 지정 및 주석 처리하는 프로세스입니다. 데이터 주석의 품질은 기계의 지능과 직접적으로 관련되기 때문에 데이터 주석은 엄격한 품질 표준에 따라 수행되어야 합니다. 데이터 라벨링 프로세스에는 데이터 수집, 데이터 정리, 데이터 라벨링, 데이터 품질 검사 및 기타 링크가 포함됩니다. 그 중 데이터 수집 및 정리는 준비 단계이고 데이터 라벨링은 핵심 링크이며 데이터 품질 검사는 라벨링된 데이터의 검사 및 평가입니다. 특정 관점에서 데이터 표준은 데이터 수집, 프레젠테이션, 교환, 분석 및 관리를 처리하기 위해 정의, 해석, 사용 및 개정된 일련의 표준화된 기술 및 프로세스입니다.
따라서 데이터 라벨링과 데이터 표준은 상호 연관되어 있으며 데이터 라벨링은 데이터 표준화의 구체적인 구현 프로세스이며 데이터 표준은 데이터 라벨링의 규범 및 기반입니다. 데이터 라벨링과 데이터 표준화의 결합을 통해 기계 학습 및 인공 지능 응용 프로그램의 효율성과 신뢰성을 더욱 향상시킬 수 있습니다.
4. 데이터 라벨링 관련 규격
데이터 라벨링은 "중화인민공화국 네트워크 보안법", "중화인민공화국 데이터 보안법" 및 "인민공화국 개인정보 보호법"을 포함하여 데이터 정보와 관련된 기본 법률 및 규정을 준수해야 합니다. 중국의".
국가사이버공간관리국, 국가발전개혁위원회, 교육부, 과학기술부, 공업정보화부, 공안부가 발행한 생성형 인공지능 서비스 관리 잠정 조치 , 2023년 8월 15일 발효되는 국가 라디오, 영화 및 TV 관리국의 8조는 구체적으로 데이터 라벨링을 규정하고 생성 인공 지능 기술의 연구 및 개발 과정에서 데이터 라벨링을 요구하며, 제공자는 명확하게 공식화해야 합니다. 이러한 조치의 요구 사항을 충족하는 구체적이고 작동 가능한 라벨링 규칙, 데이터 라벨링 품질 평가, 샘플링 수행 라벨링 내용의 정확성을 확인하고 라벨링 담당자에게 필요한 교육을 제공하며 준법 의식을 강화하고 라벨링을 감독 및 안내합니다. 표준화된 방식으로 라벨링 작업을 수행하는 직원.
국가인적자원사회보장부의 2015년판 "중화인민공화국 직업분류코드"를 기반으로 한 "중화인민공화국 직업분류코드(2022년판)" 개정판에 따르면, 시장 규제 및 국가 통계국, 인공 지능 트레이너가 공식적으로 새로운 직업이되어 국가 직업 분류 목록에 포함됩니다. 인공지능 트레이너의 주요 업무는 그림, 텍스트, 음성 등 비즈니스의 원시 데이터에 라벨링 및 가공, 전문 분야의 특성 분석 및 정제, 인공지능 제품의 알고리즘, 기능 및 성능 교육 및 평가, 인터랙션 프로세스 설계 등이 있습니다. 애플리케이션 솔루션, 인공지능 제품 애플리케이션 데이터의 모니터링, 분석 및 관리, 인공지능 제품 매개변수 및 구성의 조정 및 최적화 등
인공 지능에서 기계 학습을 위한 데이터 레이블 지정 절차(GB/T 42755-2023)는 2023년 12월 1일에 시행될 권장 국가 표준입니다. 인공 지능에서 기계 학습을 위한 데이터 레이블 지정 절차에 대한 일련의 지침입니다 표준 데이터 레이블링 프로세스 표준화, 데이터 레이블링 작업 프로세스 지정, 레이블링 작업, 레이블링 인력, 레이블링 환경, 프로세스 제어, 품질 보증, 관리 메커니즘, 내부 품질 검사, 데이터 전달, 사후 유지 관리 등에 대한 권장 사항에 대한 규칙 데이터 주석의 일관성과 정확성을 보장하고 기계 학습 알고리즘을 위한 고품질 훈련 데이터를 제공하기 위한 조항.
일부 지역 표준도 참조 및 참조할 가치가 있습니다. 2022년 6월, 산시성 시장 감독 관리국은 인공 지능 데이터 라벨링 분야에서 "인공 지능 데이터 라벨링을 위한 전체 프레임워크", "인공 지능 데이터 라벨링에 대한 일반 기술 요구 사항", 및 "인공지능 데이터 라벨링을 위한 일반 작업 절차".
일부 지역 표준도 참조 및 참조할 가치가 있습니다. 2022년 6월, 산시성 시장 감독 관리국은 인공 지능 데이터 라벨링 분야에서 "인공 지능 데이터 라벨링을 위한 전체 프레임워크", "인공 지능 데이터 라벨링에 대한 일반 기술 요구 사항", 및 "인공지능 데이터 라벨링을 위한 일반 작업 절차".
"인공 지능 데이터 라벨링을 위한 일반 프레임워크"는 인공 지능 기계 학습에서 데이터 라벨링 생산의 생산 프로세스 및 생산 내용에 대한 제안을 제공하고 데이터 라벨링의 상태 및 산업 개념을 명확히 합니다. "인공 지능 데이터 라벨링 일반 작업 절차"는 원칙, 프로세스, 계획 등을 포함하여 인공 지능 기계 학습에서 데이터 라벨링 생산에 대한 일반적인 작업 요구 사항을 규정합니다. "인공 지능 데이터 라벨링에 대한 일반 기술 요구 사항"은 인공 지능 기계 학습에서 데이터 라벨링에 대한 일반 기술 요구 사항에 대한 용어 및 정의, 일반 기술 분류 및 일반 기술 요구 사항을 지정합니다.
2023년 6월, 중국 정보통신 기술 아카데미(China Academy of Information and Communication Technology)가 이끄는 China Unicom, Datatang, Haitian Ruisheng, Testin Cloud Measurement, Integer Intelligence, Hikvision, Midea Group 등 관련 산업의 20개 이상의 주요 기업. 기업, AI 기술 기업과 대규모 산업 기업이 공동으로 "인공 지능 데이터 레이블링 플랫폼에 대한 기술 요구 사항 및 테스트 방법" 표준을 작성했으며, 이는 3대 국제 표준 기구 중 하나인 ITU-T(International Telecommunication Union)에서도 동시에 제정되었습니다. .원고와 토론하십시오. 표준은 데이터 라벨링 플랫폼의 각 주요 링크에 대한 규범적 제약과 참조 제안을 제공하며 현재 표준 그룹 입찰이 확정되었습니다.
또한 데이터 라벨링과 관련된 일련의 국가 표준이 있습니다. "정보 기술 빅 데이터 데이터 리소스 계획"(GB/T 42450-2023)과 같은 데이터 리소스 계획(데이터 리소스 계획, DRP라고 함)은 조직이 다음을 수행할 수 있도록 설계된 정보 기술(IT) 계획 및 전략입니다. 데이터 리소스를 효과적으로 관리하여 비즈니스 요구 사항을 충족하고 데이터 보안 및 개인 정보 보호를 보장합니다.
"데이터 품질 파트 8: 정보 및 데이터 품질: 개념 및 측정"(GB/T 42381.8-2023)은 정보 및 데이터 품질의 개념 및 측정 방법을 지정하는 국가 표준입니다. 이 표준은 TC159(국가 자동화 시스템 및 통합 표준화 기술 위원회), TC159SC4(국가 자동화 시스템 및 통합 표준화 기술 위원회 산업 데이터 분과)의 관할하에 있으며 관할 기관은 중국 기계 공업 연합회입니다.
"데이터 품질 파트 61: 데이터 품질 관리 프로세스 참조 모델"(GB/T 42381.61-2023) 데이터 품질 관리 프로세스 참조 모델은 ISO 8000에서 지정한 표준으로 조직에서 데이터 품질 관리를 구현하는 방법을 안내합니다.
5. 데이터 라벨링 산업의 법적 위험
서로 다른 비즈니스 부서와 서로 다른 생태계 간의 데이터 공유 및 적용 과정에서 데이터 라벨링 산업은 앞으로도 오랫동안 지속적인 수요를 가질 수 있습니다.
불규칙한 데이터 라벨링을 포함하여 데이터 라벨링에는 실제로 일부 불일치 요소가 있어 데이터 품질이 저하되고 후속 데이터 처리 및 사용에 영향을 미칠 수 있습니다. 허위 데이터로 이어져 후속 데이터 처리 및 적용에 영향을 미칠 수 있으며, 데이터 라벨링 프로세스는 법률 및 규정을 위반하여 데이터 사용이 금지되거나 처벌됩니다.
구체적으로 데이터 라벨링 산업은 법적인 측면에서 다음과 같은 위험이 있을 수 있습니다.
하나는 개인 정보 보호법 및 규정을 위반할 위험입니다. 데이터 라벨링에는 성명, 주민등록번호, 연락연락처, 주소, 계정 비밀번호, 재산상태, 소재지 등과 같은 대량의 개인정보 처리가 필요할 수 있습니다. 데이터 라벨링 업계가 관련 법령의 요구사항에 따라 개인정보를 처리하지 않을 경우 개인정보 유출 및 남용 등의 보안 문제가 발생할 수 있어 개인정보 보호에 관한 법령에 위배됩니다.
두 번째는 데이터 보안 법률 및 규정을 위반할 위험입니다. 데이터 라벨링 산업은 금융 데이터, 의료 데이터 등과 같은 많은 양의 민감한 데이터를 처리해야 할 수 있습니다. 데이터 라벨링 산업이 데이터 암호화, 접근 통제 등 필요한 보안 조치를 취하지 않을 경우 데이터 유출 및 변조와 같은 보안 문제가 발생할 수 있으며 이는 데이터 보안 법률 및 규정을 위반합니다.
세 번째는 지적 재산권 법률 및 규정을 위반할 위험입니다. 데이터 라벨링 산업은 지적 재산을 포함할 수 있는 대량의 데이터를 처리해야 합니다. 데이터 라벨링 산업이 관련 지적 재산권의 승인 또는 라이센스를 얻지 못하여 불법 및 계약 사용 위반이 발생하면 지적 재산권 침해 문제가 발생할 수 있습니다.
넷째는 경쟁법 및 규정을 위반할 위험입니다. 데이터 라벨링 산업은 치열한 경쟁을 벌이고 있으며, 일부 기업은 부적절한 수단을 통해 경쟁사의 데이터를 획득하거나 시장 지배적 지위를 남용하여 경쟁법 및 규정을 위반하고 관련 정당한 권리와 이익을 침해할 수 있습니다.
이러한 법적 위험을 방지하기 위해 데이터 라벨링 업계는 개인 정보 보호, 데이터 보안, 지적 재산권 및 경쟁 측면에서 법적 인식 및 위험 관리를 강화해야 합니다. 동시에 정부와 각계각층은 데이터 라벨 산업의 감독과 관리를 강화하여 적법하고 규정을 준수하는 운영을 보장해야 합니다.
6. 데이터 라벨링 산업의 법적 위험 방지
데이터 라벨링 산업이 안정적이고 광범위해지기 위해서는 관련 법률, 규정 및 데이터 라벨링 표준을 준수하고 표준화되고 정확하며 효율적인 방식으로 데이터 라벨링을 수행해야 합니다. 데이터 라벨링 회사는 다음과 같은 방법으로 법적 위험을 방지할 수 있습니다.
첫 번째는 데이터 라벨링 규칙 및 규정을 수립하고 개선하는 것입니다. 기업은 데이터 레이블링의 준수 및 보안을 보장하기 위해 데이터 수집, 저장, 처리, 분석 및 보호에 대한 규정을 포함하여 데이터 레이블링과 관련된 규칙 및 규정을 수립하고 개선해야 합니다. 법률, 규정 및 규정의 요구 사항을 충족하는 명확하고 구체적이며 실행 가능한 데이터 레이블 지정 규칙을 설정하고 데이터 레이블 품질 평가를 수행하며 레이블 지정 내용의 정확성에 대한 샘플링 검증을 수행합니다. 데이터 콘텐츠 보안 보장 메커니즘은 사회주의 핵심 가치 준수를 보장하고 모든 종류의 차별에 반대하며 개인 정보 및 관련 법적 권익 보호 메커니즘을 개선하고 타인의 초상권, 명예권, 명예권을 침해하지 않아야 합니다. , 개인 정보 보호 권리 및 개인 정보 권리, 보안 조치, 데이터 라벨링 회사는 관련 법률 및 규정을 준수해야 하며 데이터 보안 표준 및 정책의 지침에 따라 데이터 액세스 승인, 분류 및 분류 제어를 통해 데이터 보안을 관리해야 합니다. 데이터 보안 요구 사항을 충족하기 위한 모니터링 데이터에 대한 액세스 조직 내 데이터 수명 주기의 데이터 보안 관리를 달성하기 위한 보안 비즈니스 요구 사항 및 규제 요구 사항. 데이터의 기밀성, 무결성 및 가용성을 보장합니다.
두 번째는 기업 준법경영 강화입니다. 데이터 라벨링 회사는 관련 법률 및 규정을 준수하고 비즈니스 운영을 표준화하며 정당한 권익을 존중하고 독점 및 불공정 경쟁을 삼가야 합니다. 부적절한 수단을 사용하여 경쟁사로부터 데이터를 취득하지 않으며, 시장 지배력을 남용하여 타인의 법적 지적 재산권 또는 영업 비밀을 침해하지 않으며, 계약 관리를 강화하고, 파트너와 계약을 체결할 때 작업 요구 사항을 명확하게 표시합니다. , 데이터 사용 범위, 기밀 유지 조항 및 기타 내용을 통해 파트너가 관련 법률 및 규정을 이해하고 준수하고 계약 위반 위험을 줄일 수 있습니다.
네 번째는 직원 교육 및 교육을 강화하는 것입니다. 기업은 직원의 법적 인식 및 위험 인식 교육을 강화하고 데이터 라벨링 작업, 개인 정보 보호, 데이터 보안, 지적 재산권 등에 대한 교육 및 교육을 강화하여 직원이 데이터 라벨링 관련 법률 및 규정과 회사 규칙 및 규정을 이해하도록 해야 합니다. 직원의 규정 준수 및 위험 예방 능력에 대한 인식을 향상시킵니다.
다섯째는 리스크 관리팀을 신설하는 것입니다. 기업은 레이블이 지정된 데이터를 실시간으로 모니터링하고 규정을 준수하지 않는 데이터를 적시에 발견 및 처리하며 데이터 품질 문제로 인한 법적 위험을 방지하기 위한 데이터 감독 메커니즘을 구축해야 합니다. 기업은 데이터 라벨링 과정에서 발생할 수 있는 법적 위험을 예측 및 평가하고 이에 대한 위험 예방 제안 및 조치를 제안하기 위해 전문적인 위험 관리 팀을 구성하는 것이 좋습니다.
저자: Zhang Feng, V&T Law Firm 파트너, VTQ Digital Legal Committee 이사, Shanghai Outstanding Contribution Experts Association 지적 재산권 위원회 사무차장, Shanghai Blockchain Technology Association 싱크 탱크 전문가/기술 평가 전문가, 상임 회원 중국 모바일 통신 연합의 메타버스 산업 실무 위원회 위원회 및 미래 산업 메타버스 50인 포럼 부회장.
모든 댓글