7月6日,由世界人工智能大会组委会主办的“2024世界人工智能大会语料主题论坛”在上海成功举办。上海市政府副秘书长庄木弟出席论坛并致辞,中国科学院院士鄂维南作主旨演讲。上海市各相关部门代表、上海人工智能实验室、人民网、上海算法创新研究院、中国信通院、复旦大学等1000余家大模型语料生态企业共同参会。标贝科技联合创始人&CTO李秀林受邀出席论坛,参与“共话未来-我们需要怎样的语料供给”圆桌对话。
本次论坛以“语料筑基,智生时代”为主题,围绕高质量语料数据如何高效供给赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。会上,大模型语料生态企业通过主题演讲、案例分享、圆桌共话的形式畅谈了各自对大模型产业发展的创新想法和实践。
在圆桌环节,标贝科技联合创始人&CTO李秀林博士与其他企业代表围绕“大模型语料供给带来的机会和挑战,数据的自动化标注与人工标注现况趋势以及合成数据的未来”3个问题进行了深入探讨。
李秀林博士表示,大模型背后是人工智能算法、算力和数据的融合升级。要让大模型更为聪明,就离不开高质量数据资源。预训练语料的选择对于模型的最终质量有着重要的影响。
一方面,随着大模型的广泛应用,高质量、多样化数据需求也将不断增长,这为AI数据服务企业提供了广阔的市场空间。另一方面,从技术角度来看,大模型技术的快速发展也推动了AI数据服务的升级。企业利用大模型技术开发出更加智能数据处理工具,来提升数据生产的质量和效率。
标贝科技深耕AI数据领域多年,结合过去丰富的实战经验,打磨了大批量多模态数据集,可以满足当前市场上大模型训练或调优需求。另外,标贝科技还用大模型技术支撑数据的生产,构建大模型数据处理技术解决方案能力,可以支持数据采标、管理、模型训练与优化、部署与应用,以及定制化方案,为企业提供更加高效卓越的数据处理服务。
对于数据自动化标注和人工标注的占比问题。李秀林博士认为,数据标注行业不是简单的劳动密集型产业,自动化标注和人工标注也不是对立关系,而是技术和人力协同。随着技术的发展,市场需求越来越复杂,需要大量专业知识的积累,两者将长期共存。
目前,标贝科技已经有了很成熟的人机协同标注工具平台。通过系统集成将大模型预标注能力与人工标注结合,集标注工具、预标注模型、项目管理为一体,智能化提升数据标注效率70%以上。
例如,在语义标注上的应用场景下,标贝科技2D图像标注平台可以支持对百兆级别的超大像素图片进行高精度标注,自动识别、标定和描述超大像素图像中的所有细节,并在几秒钟内生成完整的图像标注结果。
高质量、大规模、安全可信的语料资源是迈向AI时代的重要基石,这已成为行业的共识。为了推动大模型产业健康可持续发展,会上标贝科技携手50余家单位共同发起“语料生态服务大模型可持续发展倡议”。旨在建立模型训练、语料供给、学术研究、第三方服务等多方机构合作机制,打造一个资源共享、互利共赢、国际融通的“语料生态圈”,进一步强化语料生态全产业链的交流合作,有力支撑大模型科研攻关。
论坛期间,标贝科技还与库帕思公司签署《共建语料生态产业链合作协议》,双方将依托各自在语料资源、技术研发、市场推广等方面的优势,在语料生态产业链的各个环节上开展务实合作,实现资源共享、规则共建,推动全行业语料提质、增效、降本。
随着AI技术的不断进步和生态合作的深化,未来数据库将更加智能、灵活和强大,为人工赋能千行百业的实体经济发展提供坚实的基础。标贝科技将将依托丰富的数据资源和技术积累,持续布局前沿数据语料,致力于推进大模型语料数据的高质量供给,为AI大模型产业发展提供安全、可靠的数据支持。