在AI智能中如何使用Catboost


这篇文章主要介绍了在AI智能中如何使用Catboost的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇在AI智能中如何使用Catboost文章都会有所收获,下面我们一起来看看吧。下面是我提出一种有趣的方法来使用,这个方法就是很少有人知道的梯度提升。在最近一项有关于卡格尔的比赛结束了,在那里展示了一个包含文本数据的小数据集。我决定将这些数据用于实验,因为比赛表明数据集标记得很好,而且我没有遇到任何令人不快的意外。列:id- 摘录的唯一 IDurl_legal- 来源网址license- 源材料许可excerpt- 预测阅读难易度的文本target- 更容易理解standard_error-测量每个摘录的多个评分员之间的分数分布作为数据集中的目标,它是一个数值变量,提出解决回归问题。但是,我决定用分类问题代替它。主要原因是我将使用的库不支持在回归问题中处理文本和嵌入。我希望开发者在未来能够消除这个不足。但无论如何,回归和分类的问题是密切相关的,对于分析来说,解决哪个问题没有区别。让我免费云主机域名们通过 Sturge 规则计算 bin 的数量:但是,首先,我清理数据。在一个小的自写函数的帮助下,我对文本进行了清理和词形还原。函数可能很复杂,但这对于我的实验来说已经足够了。我将清理后的文本另存为新功能。除了文本之外,我还可以选择 URL 中的单个单词并将这些数据转换为新的文本功能。我从文本中创建了几个新特征——这些是各种统计信息。同样,有很大的创造力空间,但这些数据对我们来说已经足够了。这些功能的主要目的是对基线模型有用。当数据稀缺时,很难检验假设,结果通常也不稳定。因此,为了对结果更有信心,我更喜欢在这种情况下使用 OOF(Out-of-Fold)预测。我选择Catboost作为模型的免费库。Catboost 是一个高性能的开源库,用于决策树上的梯度提升。从 0.19.1 版开始,它支持开箱即用的 GPU 分类文本功能。主要优点是 CatBoost 可以在您的数据中包含分类函数和文本函数,而无需额外的预处理。在非常规情绪分析:BERT 与 Catboost 中,我扩展了 Catboost 如何处理文本并将其与 BERT 进行了比较。这个库有一个杀手锏:它知道如何使用嵌入。不幸的是,目前,文档中对此一无所知,很少有人知道 Catboost 的这个优势。使用 Catboost 时,我建议使用 Pool。它是一个方便的包装器,结合了特征、标签和进一步的元数据,如分类和文本特征。为了比较实验,我创建了一个仅使用数值和分类特征的基线模型。我写了一个函数来初始化和训练模型。顺便说一下,我没有选择最佳参数。对于OOF的实现,我写了一个小而简单的函数。我将在下面写关于get_embeddings函数,但它现在不用于获取模型的基线。我使用以下参数训练了基线模型:训练模型的质量:现在我有了模型质量的基准。从数字来看,这个模型很弱,我不会在生产中实现它。您可以将多维向量转换为嵌入,这是一个相对低维的空间。因此,嵌入简化了大型输入的机器学习,例如表示单词的稀疏向量。理想情况下,嵌入通过在嵌入空间中将语义相似的输入彼此靠近放置来捕获一些输入语义。有很多方法可以获得这样的向量,我在本文中不考虑它们,因为这不是研究的目的。但是,以任何方式获得嵌入对我来说就足够了;最重要的是他们保存了必要的信息。在大多数情况下,我使用目前流行的方法——预训练的 Transformer。现在我有了开始测试不同版本模型的一切。我有几种拟合模型的选项:文字特征;嵌入特征;嵌入特征,如分离的数字特征列表。我一直在训练这些选项的各种组合,这使我能够得出嵌入可能有多有用的结论,或者,这可能只是一种过度设计。例如,我给出了一个使用所有三个选项的代码:关于“在AI智能中如何使用Catboost”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“在AI智能中如何使用Catboost”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注百云主机行业资讯频道。

相关推荐: 怎么使用Java的发射机制遍历所有字段的修改值

这篇文章主要为大家展示了“怎么使用Java的发射机制遍历所有字段的修改值”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家免费云主机域名一起研究并学习一下“怎么使用Java的发射机制遍历所有字段的修改值”这篇文章吧。java 通过反射遍历…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 09/10 16:36
Next 09/10 16:36

相关推荐