谷歌发布AI文件识别工具Magika 1.0,性能提升显著
11月7日,据报道,谷歌于当地时间周四正式推出Magika 1.0,这是其基于人工智能的文件类型检测系统的首个稳定版本。自去年初开源以来,Magika已在开发者社区中获得广泛应用,月下载量超过100万次。本次1.0版本带来了全新的架构设计和显著的性能提升。全新的Rust命令行工具使得系统在单核处理器上每秒可识别数百个文件,而在多核CPU上更可扩展至每秒处理数千个文件。
技术实现上,Magika 1.0使用ONNX Runtime进行模型推理,并借助Tokio框架实现异步并行处理。性能测试数据显示,在MacBook Pro(M4)设备上,该系统每秒能够处理约1000个文件,展现出卓越的效率。
在功能覆盖面上,新版本将支持的文件类型扩展至200多种,是初始版本的两倍。新增类别涵盖了数据科学与机器学习、现代编程与网页开发、DevOps与配置文件以及数据库与图形格式等多个领域。特别值得关注的是,Magika 1.0增强了区分相似格式的能力,能够准确识别JSONL与JSON、TSV与CSV等容易混淆的文件类型。
开发团队在训练过程中面临了数据规模庞大和部分文件类型样本稀缺的双重挑战。未压缩的训练数据集超过3TB,谷歌通过自研的SedPack数据集库实现了高效训练。针对样本不足的问题,团队创新性地使用生成式AI工具Gemini创建合成训练数据,有效提升了模型的泛化能力。
为了方便开发者集成,新版Magika还同步更新了Python与TypeScript模块。用户可通过简单命令在主流操作系统上安装原生客户端,或通过pipx install magika安装Python包来使用Rust版命令行工具。