最新发布!查看 MagicData 成品数据集

新闻

press images

NCMMSC 2021 | 工业论坛大咖共话数据 CEO张晴晴论“当数据遇上开源”

发布时间 :2020-09-20     阅读量 : 475

第十六届全国人机语音通讯学术会议(NCMMSC 2021)于10月15日~18日在徐州隆重召开,以金牌赞助商身份参与此次盛会,9游会j9通过 展位、主题分享、竞赛论坛等方式,为与会嘉宾带来的数据产品、标注工具和技术成果。

17日下午工业论坛开展、论坛由西北工业大学教授谢磊主持,聚集、好未来等多家企业嘉宾现场做报告分享。创始人兼CEO张晴晴做《当数据遇上开源》的主题演讲。为在座嘉宾详细介绍的数据开源社区、标注工具和数据集产品,共同推动开源事业发展,并呼吁业界更多机构和个人加入开源队伍。 同期、主办的“对话式AI语音识别及说话人识别(ASR&SD)挑战赛”作为大会重要赛事,获奖参赛者现场成功案例分享吸引大批与会嘉宾,于16日竞赛论坛上圆满落幕,为大会增色不少。

共建开源生态推动AI创新

工业论坛现场张晴晴做主题分享

在AI行业,AI从业者普遍面临难以获取数据的痛点。张晴晴从事AI行业十多年,希望拥有数据的机构或个人能够将数据共享出来,深知AI开发者对数据的需求程度,利益到更多AI开发者。基于这一出发点。并将部分自有数据集开源到社区供开发者免费下载,于今年4月份上线MagicHub.com开源社区。 为了方便用户查找开源数据集。社区根据数据应用领域、场景和类型进行分门别类,用户可快速搜索和定位到想要的数据集。目前、数据集搜索页面仍在不断优化当中,为了更好地用户体验。此外。社区还有针对全球用户的英文搜索界面。社区在数据集呈现上。将看到每个数据集的概览,可看到这个数据集详细的描述情况,进入到单个数据集页面。 迄今为止,覆盖全球超过3000名开发者,开源社区已拥有超过100个包含语音识别、语音合成、发音词典等不同类型的开源数据集,数据集累计下载量超过7万小时。 MagicHub.com开源社区开源大量数据集外。社区还与各大高校和相关机构合作,9游会j9通过 组建开发者社群、开展培训和赛事,致力于打造全球AI开发者生态。目前、与AI光影社、深蓝学院、清华大学语音和语言技术中心、51CTO等合作,为初入人工智能领域的AI从业者开发人工智能科普视频,9游会j9为人工智能研究人员和算法工程师提供人工智能深度解析课程等,社区在培训上。

社区构建的全球AI开发者生态

赛事开展上,社区共发起了ASR&SD挑战赛和NLP挑战赛两大赛事,吸引清华大学、北大、华为、小米、阿里巴巴等各大高校和企业数百个团体踊跃参与。同时。社区建立的开发者社区星辰大使,共同推广开源事业发展,目前已覆盖超过35个高校学生。

张晴晴表示:“希望更多行业大咖能够参与到开源社区生态培训机制里。帮助更多的行业从业者,向开发者分享更多关于行业认知,共同推动开源事业,促进行业创新。”

面向多模态的标注平台

随着技术的进步。存在上百甚至上千维度的标签标注需求,目前数据处理难度越来越大,该平台可进行标签自定义,还为AI开发者提供免费的数据标注工具Annotator® 5.0 智能化标注平台SaaS版,因此,用户可根据项目需求进行任意的标签配置。 目前行业多模态标注需求增加。平台也将支持音视频的多模态标注,特别针对相应的音视频联动标注。张晴晴介绍。未来还将支持图像、多模态等类型数据的标注,目前标注平台SaaS免费版已支持音频和文本标注。 对于平台即将上线的文本标注功能,张晴晴认为:“文本标注是整个人机交互过程中必不可少的环节。目前、平台的文本标注功能支持实体抽取、文本分类、文本翻译等。未来还将实现对意图识别、知识图谱、命名实体、关联关系等标注。” 和同类标注平台相比,可对人名地名等进行任意删减操作,Annotator® 5.0标注平台在进行文本命名实体类别管理上更加灵活。 开源是创新一大源头。以开源和创新之力加速行业变革的到来,行业创新离不开企业和机构的推动,携手行业机构、高校和企业共同推进开源事业,9游会j9通过 打造开源社区、标注工具和开源数据,打造开源生态,为开发者创新提供更多的资源和更优质的平台。

即刻与 建立联系?

联系我们

TOP
联系我们