首页 后端开发 php教程 PHP 中的机器学习:使用 Rubix ML 构建新闻分类器

PHP 中的机器学习:使用 Rubix ML 构建新闻分类器

Nov 03, 2024 am 03:33 AM

Machine Learning in PHP: Build a News Classifier Using Rubix ML

介绍

机器学习无处不在——推荐电影、标记图像,现在甚至对新闻文章进行分类。想象一下如果您可以在 PHP 中做到这一点!借助 Rubix ML,您可以以简单易懂的方式将机器学习的强大功能引入 PHP。本指南将引导您构建一个简单的新闻分类器,将文章分类为“体育”或“技术”等类别。最后,您将拥有一个工作分类器,可以根据新文章的内容预测其类别。

这个项目非常适合想要使用 PHP 进行机器学习的初学者,您可以按照 GitHub 上的完整代码进行操作。

目录

  1. 什么是 Rubix ML?
  2. 设置项目
  3. 创建新闻分类类
  4. 训练模型
  5. 预测新样本
  6. 最后的想法

Rubix 机器学习是什么?

Rubix ML 是一个 PHP 机器学习库,它将 ML 工具和算法引入 PHP 友好的环境中。无论您从事分类、回归、聚类,甚至自然语言处理,Rubix ML 都能满足您的需求。它允许您加载和预处理数据、训练模型并评估性能——所有这些都在 PHP 中进行。

Rubix ML 支持广泛的机器学习任务,例如:

  • 分类:对数据进行分类,例如将电子邮件标记为垃圾邮件或非垃圾邮件。
  • 回归:预测连续值,例如房价。
  • 聚类:对没有标签的数据进行分组,就像寻找客户群一样。
  • 自然语言处理 (NLP):处理文本数据,例如标记并将其转换为 ML 可用的格式。

让我们深入了解如何使用 Rubix ML 在 PHP 中构建简单的新闻分类器!

设置项目

我们将首先使用 Rubix ML 设置一个新的 PHP 项目并配置自动加载。

第1步:初始化项目目录

创建一个新的项目目录并导航到其中:

mkdir NewsClassifier
cd NewsClassifier
登录后复制
登录后复制

第 2 步:安装 Rubix ML 和 Composer

确保您已安装 Composer,然后通过运行以下命令将 Rubix ML 添加到您的项目中:

composer require rubix/ml
登录后复制
登录后复制

步骤3:在composer.json中配置自动加载

要从项目的 src 目录自动加载类,请打开或创建一个composer.json 文件并添加以下配置:

{
    "autoload": {
        "psr-4": {
            "NewsClassifier\": "src/"
        }
    },
    "require": {
        "rubix/ml": "^2.5"
    }
}
登录后复制
登录后复制

这告诉 Composer 自动加载 NewsClassifier 命名空间下 src 文件夹中的任何类。

第 4 步:运行 Composer Autoload Dump

添加自动加载配置后,运行以下命令重新生成 Composer 的自动加载器:

mkdir NewsClassifier
cd NewsClassifier
登录后复制
登录后复制

第5步:目录结构

您的项目目录应如下所示:

composer require rubix/ml
登录后复制
登录后复制
  • src/:包含您的 PHP 脚本。
  • storage/:训练后的模型的保存位置。
  • vendor/:包含 Composer 安装的依赖项。

创建新闻分类类

在 src/ 中,创建一个名为 Classification.php 的文件。该文件将包含训练模型和预测新闻类别的方法。

{
    "autoload": {
        "psr-4": {
            "NewsClassifier\": "src/"
        }
    },
    "require": {
        "rubix/ml": "^2.5"
    }
}
登录后复制
登录后复制

此分类类包含以下方法:

  • 训练:创建并训练基于管道的模型。
  • 保存模型:将训练好的模型保存到指定路径
  • 预测:加载保存的模型并预测新样本的类别。

训练模型

在 src/ 中创建一个名为 train.php 的脚本来训练模型。

composer dump-autoload
登录后复制

运行此脚本来训练模型:

NewsClassifier/
├── src/
│   ├── Classification.php
│   └── train.php
├── storage/
├── vendor/
├── composer.json
└── composer.lock
登录后复制

如果成功,您将看到:

<?php

namespace NewsClassifier;

use Rubix\ML\Classifiers\KNearestNeighbors;
use Rubix\ML\Datasets\Labeled;
use Rubix\ML\Datasets\Unlabeled;
use Rubix\ML\PersistentModel;
use Rubix\ML\Pipeline;
use Rubix\ML\Tokenizers\Word;
use Rubix\ML\Transformers\TfIdfTransformer;
use Rubix\ML\Transformers\WordCountVectorizer;
use Rubix\ML\Persisters\Filesystem;

class Classification
{
    private $modelPath;

    public function __construct($modelPath)
    {
        $this->modelPath = $modelPath;
    }

    public function train()
    {
        // Sample data and corresponding labels
        $samples = [
            ['The team played an amazing game of soccer'],
            ['The new programming language has been released'],
            ['The match between the two teams was incredible'],
            ['The new tech gadget has been launched'],
        ];

        $labels = [
            'sports',
            'technology',
            'sports',
            'technology',
        ];

        // Create a labeled dataset
        $dataset = new Labeled($samples, $labels);

        // Set up the pipeline with a text transformer and K-Nearest Neighbors classifier
        $estimator = new Pipeline([
            new WordCountVectorizer(10000, 1, 1, new Word()),
            new TfIdfTransformer(),
        ], new KNearestNeighbors(4));

        // Train the model
        $estimator->train($dataset);

        // Save the model
        $this->saveModel($estimator);

        echo "Training completed and model saved.\n";
    }

    private function saveModel($estimator)
    {
        $persister = new Filesystem($this->modelPath);
        $model = new PersistentModel($estimator, $persister);
        $model->save();
    }

    public function predict(array $samples)
    {
        // Load the saved model
        $persister = new Filesystem($this->modelPath);
        $model = PersistentModel::load($persister);

        // Predict categories for new samples
        $dataset = new Unlabeled($samples);
        return $model->predict($dataset);
    }
}
登录后复制

预测新样本

在 src/ 中创建另一个脚本,predict.php,根据训练的模型对新文章进行分类。

<?php

require __DIR__ . '/../vendor/autoload.php';

use NewsClassifier\Classification;

// Define the model path
$modelPath = __DIR__ . '/../storage/model.rbx';

// Initialize the Classification object
$classifier = new Classification($modelPath);

// Train the model and save it
$classifier->train();
登录后复制

运行预测脚本对样本进行分类:

php src/train.php
登录后复制

输出应显示每个示例文本及其预测类别。

最后的想法

通过本指南,您已经使用 Rubix ML 在 PHP 中成功构建了一个简单的新闻分类器!这展示了 PHP 如何比您想象的更加通用,为文本分类、推荐系统等任务引入机器学习功能。该项目的完整代码可在 GitHub 上获取。

尝试不同的算法或数据来扩展分类器。谁知道 PHP 可以进行机器学习?现在你知道了。
快乐编码!

以上是PHP 中的机器学习:使用 Rubix ML 构建新闻分类器的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1655
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1252
29
C# 教程
1226
24
在PHP API中说明JSON Web令牌(JWT)及其用例。 在PHP API中说明JSON Web令牌(JWT)及其用例。 Apr 05, 2025 am 12:04 AM

JWT是一种基于JSON的开放标准,用于在各方之间安全地传输信息,主要用于身份验证和信息交换。1.JWT由Header、Payload和Signature三部分组成。2.JWT的工作原理包括生成JWT、验证JWT和解析Payload三个步骤。3.在PHP中使用JWT进行身份验证时,可以生成和验证JWT,并在高级用法中包含用户角色和权限信息。4.常见错误包括签名验证失败、令牌过期和Payload过大,调试技巧包括使用调试工具和日志记录。5.性能优化和最佳实践包括使用合适的签名算法、合理设置有效期、

会话如何劫持工作,如何在PHP中减轻它? 会话如何劫持工作,如何在PHP中减轻它? Apr 06, 2025 am 12:02 AM

会话劫持可以通过以下步骤实现:1.获取会话ID,2.使用会话ID,3.保持会话活跃。在PHP中防范会话劫持的方法包括:1.使用session_regenerate_id()函数重新生成会话ID,2.通过数据库存储会话数据,3.确保所有会话数据通过HTTPS传输。

什么是REST API设计原理? 什么是REST API设计原理? Apr 04, 2025 am 12:01 AM

RESTAPI设计原则包括资源定义、URI设计、HTTP方法使用、状态码使用、版本控制和HATEOAS。1.资源应使用名词表示并保持层次结构。2.HTTP方法应符合其语义,如GET用于获取资源。3.状态码应正确使用,如404表示资源不存在。4.版本控制可通过URI或头部实现。5.HATEOAS通过响应中的链接引导客户端操作。

PHP中的匿名类是什么?您何时可以使用它们? PHP中的匿名类是什么?您何时可以使用它们? Apr 04, 2025 am 12:02 AM

匿名类在PHP中的主要作用是创建一次性使用的对象。1.匿名类允许在代码中直接定义没有名字的类,适用于临时需求。2.它们可以继承类或实现接口,增加灵活性。3.使用时需注意性能和代码可读性,避免重复定义相同的匿名类。

您如何在PHP中有效处理异常(尝试,捕捉,最后,投掷)? 您如何在PHP中有效处理异常(尝试,捕捉,最后,投掷)? Apr 05, 2025 am 12:03 AM

在PHP中,异常处理通过try,catch,finally,和throw关键字实现。1)try块包围可能抛出异常的代码;2)catch块处理异常;3)finally块确保代码始终执行;4)throw用于手动抛出异常。这些机制帮助提升代码的健壮性和可维护性。

说明PHP中的不同错误类型(注意,警告,致命错误,解析错误)。 说明PHP中的不同错误类型(注意,警告,致命错误,解析错误)。 Apr 08, 2025 am 12:03 AM

PHP中有四种主要错误类型:1.Notice:最轻微,不会中断程序,如访问未定义变量;2.Warning:比Notice严重,不会终止程序,如包含不存在文件;3.FatalError:最严重,会终止程序,如调用不存在函数;4.ParseError:语法错误,会阻止程序执行,如忘记添加结束标签。

包括,require,incement_once,require_once之间有什么区别? 包括,require,incement_once,require_once之间有什么区别? Apr 05, 2025 am 12:07 AM

在PHP中,include,require,include_once,require_once的区别在于:1)include产生警告并继续执行,2)require产生致命错误并停止执行,3)include_once和require_once防止重复包含。这些函数的选择取决于文件的重要性和是否需要防止重复包含,合理使用可以提高代码的可读性和可维护性。

PHP和Python:比较两种流行的编程语言 PHP和Python:比较两种流行的编程语言 Apr 14, 2025 am 12:13 AM

PHP和Python各有优势,选择依据项目需求。1.PHP适合web开发,尤其快速开发和维护网站。2.Python适用于数据科学、机器学习和人工智能,语法简洁,适合初学者。

See all articles