How to Implement a PHP Chatbot AI System Using a Pure PHP Large Language Model Using the Package Modelo LLM PHP: Large language model to implement a chat bot

Recommend this page to a friend!

Download

Info

Example

Screenshots

Files

Install with Composer

Download

Reputation

Support forum

Blog

Links

Last Updated		Ratings				Unique User Downloads		Download Rankings
2025-02-11 (1 month ago)		Not yet rated by the users				Total: 35 This week: 35		All time: 11,039 This week: 1

Version		License		PHP version		Categories
`modelo-llm-php` 1.0.7		MIT/X Consortium ...		8		Chat, Artificial intelligence, PHP 7

Description

Author

Rodrigo Faustino

This package can implement a large language model to implement a chatbot.

It provides several classes to perform several actions necessary to implement a large language model.

Currently, it can:

- Extracting data

- Cleaning data

- Creating n-grams

- Vectorization of textual data

- Model training

- Model precision validation

- Chatbot implementation

Innovation Award

January 2025
Number 6

A Large Language Model is used to recognize patterns of a problem that can be solved using artificial intelligence methods.

This package provides a pure PHP implementation of a large language model to implement a chat bot.

Manuel Lemos

Rodrigo Faustino

Performance

Level

Name:	Rodrigo Faustino `<contact>`
Classes:	37 packages by Rodrigo Faustino
Country:	Brazil
Age:	41
All time rank:	2330	158 in Brazil
Week rank:	1

Level 1

Innovation award

Nominee: 23x

Winner: 4x

Example


<?php

ini_set('memory_limit', '14096M');

ini_set('max_execution_time', '300');

ini_set('display_errors', 1);

ini_set('log_errors', 1);

ini_set('error_log', __DIR__ . '/logs/php_errors.log');

error_reporting(E_ALL);

 

if (!file_exists(__DIR__ . '/logs')) {

   mkdir(__DIR__ . '/logs', 0755, true);

}



while (ob_get_level() > 0) {

    ob_end_flush();

}

ob_implicit_flush(true);

set_time_limit(0);



header('Content-Type: text/event-stream');

header('Cache-Control: no-cache');

header('Connection: keep-alive');

header('Access-Control-Allow-Origin: *'); 



require_once __DIR__ . '/vendor/autoload.php';



use Chat\X\Utils\NextWordPredictor;



$modelDir = __DIR__ . '/model';

$modelPath = $modelDir . '/naive_bayes_model.phpml';

$vectorizerPath = $modelDir . '/vectorizer.phpml';

$featureSelectorPath = $modelDir . '/feature_selector.phpml';

$ngramFile = __DIR__ . 'ngrams.json';



$nextWordPredictor = new NextWordPredictor($ngramFile);

$nextWordPredictor->loadModel($modelPath, $vectorizerPath, $featureSelectorPath);



$questao = isset($_GET['question']) ? trim($_GET['question']) : '';



if (empty($questao)) {

    sendSSEMessage('Erro: Pergunta vazia.');

    sendSSEMessage('[END]');

    exit();

}



function sendSSEMessage($message) {

    echo "data: {$message}\n\n";

}



function extractInitialContext($questao) {

    $palavrasQuestao = explode(' ', strtolower($questao));

    $initialpalavraContexto = array_slice($palavrasQuestao, -2, 2);

    $contextoInicial = implode(' ', $initialpalavraContexto);

    if (count($initialpalavraContexto) < 2) {

        $contextoInicial .= ' contexto';

    }

    return $contextoInicial;

}



$initialContext = extractInitialContext($question);

$tamanhoFrase = 20;

$frase = explode(' ', $initialContext);



foreach ($frase as $word) {

    sendSSEMessage($word);

    usleep(100000);

}



while (count($frase) < $tamanhoFrase) {

    $palavraContexto = array_slice($frase, -2, 2);

    $constexto = implode(' ', $palavraContexto);

    $proximaPalavra = $nextWordPredictor->predict($constexto);

    if ($proximaPalavra === null) {

        sendSSEMessage('[END]');

        break;

    }

    

    $frase[] = $proximaPalavra;

    sendSSEMessage($proximaPalavra);

    usleep(20000); // 200ms

}



sendSSEMessage('[END]');

?>

Details

LLM-PHP

Bem-vindo ao projeto Modelo de Linguagem B�sico com PHP! Este reposit�rio oferece uma abordagem fundamental para a constru��o de um Modelo de Linguagem (LLM) simples utilizando PHP. Embora n�o seja t�o avan�ado quanto modelos contempor�neos como o ChatGPT, este projeto serve como um excelente ponto de partida para entender os conceitos essenciais por tr�s do processamento de linguagem natural e do desenvolvimento de chatbots.

Pois o proposito desse reposit�rio � apenas para estudo de como um LLM funciona por baixo dos panos, aqui existem muitas limita��es de uso, uma delas foram os dados utilizados, baixei uma base (dataset) sobre fake news do site https://www.kaggle.com/. Mas fake news? � pelo motivo de uma pequisa que estou realizando para outra implementa��o usando python, e resolvi fazer em php por ser minha linguagem principal e pelo motivo da linguagem python esconder muitas coisas que eu queria ver acontecendo.

ouseja caso queira usar a propria fonte de dados precisa alterar o arquivo fakenews.csv para seu proprio dataset e executar na ordem, olhe dentro do csv e no json dados processados para ver sua estrutura:

php runClearData.php

php runNGramProcessor.php

php runTrainModel.php

Caracter�sticas

Extra��o de Dados: M�todos para coletar e compilar dados para treinamento, no caso desse projeto houve a extra��o de uma dataset pronto.
Limpeza de Dados: T�cnicas para pr�-processar e sanitizar o dataset, os dados que vieram no data set possuem titulos e links e outros caracteres que precisavam de uma transforma��o.
Cria��o de N-Grams: Constru��o de n-grams para entender sequ�ncias de palavras, aqui � contado a quantidade de palavras que aparecem no texto.
Vetoriza��o: Transforma��o de dados textuais em vetores num�ricos para treinamento do modelo.
Treinamento do Modelo: Treinamento de um classificador Naive Bayes para previs�o de palavras.
Testes de Previs�o: Valida��o da precis�o do modelo na previs�o da pr�xima palavra.
Implementa��o do Chatbot: Interface b�sica de chatbot com limita��es inerentes.

Pr�-requisitos

Antes de come�ar, certifique-se de ter atendido aos seguintes requisitos:

PHP 7.4 ou superior
Composer para gerenciamento de depend�ncias
Servidor Web: Apache, Nginx ou qualquer servidor capaz de executar scripts PHP
Conhecimentos B�sicos de PHP e Conceitos de Aprendizado de M�quina
computador com pelo menos 16gb de RAM

Instala��o

Clone o Reposit�rio:

git clone https://github.com/faustinopsy/modelo-llm-php.git
cd modelo-llm-php

Instale as Depend�ncias:

Assegure-se de ter o Composer instalado. Em seguida, execute:
```
composer install
```
Configure o Servidor Web:

na raiz do projeto pode iniciar o servidor.
```
php -S localhost:8080
```

Estrutura do Projeto

/new_Chat
?backend
? ??? /model (a pasta ir� vazia, precisa executar os passos acima, pois o arquivo naive_bayes_model tem 800mb)
? ???--- naive_bayes_model.phpml 
? ???--- vectorizer.phpml 
? ???--- feature_selector.phpml 
? ??? /utils 
? ???---- ClearData.php 
? ???---- NextWordPredictor.php 
? ???---- NGramProcessor.php 
? ??? vendor/
? ??? composer.json 
? ??? fakes.csv
? ??? ngrams.json
? ??? runClearData.php
? ??? runNGramProcessor.php
? ??? runPredict.php
? ??? runTrainModel.php
? ??? composer.json 
??? index.html

Pontos importantes sobre o aprendizado de m�quina

Limpeza dos Dados Objetivo: Pr�-processar o dataset para remover ru�dos e informa��es irrelevantes.

Passos:

Convers�o para Min�sculas: Converta todo o texto para min�sculas para manter a consist�ncia. Remo��o de Pontua��o: Elimine marcas de pontua��o que n�o contribuem para a previs�o de palavras. Remo��o de Stop Words: Opcionalmente, remova palavras comuns (ex.: "o", "e", "�") para focar em palavras significativas. (altamente recomendado quando esta criando o pr�prio modelo) Tokeniza��o: Divida o texto em palavras ou tokens individuais.

Cria��o de N-Grams Objetivo: Analisar sequ�ncias de palavras para entender o contexto e prever palavras subsequentes.

O que � um N-Gram? Um n-gram � uma sequ�ncia cont�nua de 'n' itens (geralmente palavras) de uma amostra de texto. No processamento de linguagem natural, n-grams s�o usados para prever a probabilidade de uma palavra com base nas (n-1) palavras precedentes.

Unigram: Uma �nica palavra (n=1) Bigram: Duas palavras consecutivas (n=2) Trigram: Tr�s palavras consecutivas (n=3) (o modelo atual esta aqui, pois o tamanho do modelo fica menor)

Exemplo:

Para a frase "Eu amo programar em PHP", os bigrams s�o:

"Eu amo" "amo programar" "programar em" "em PHP"

Embeddings e N-Grams Embeddings e n-grams s�o duas abordagens distintas para representar e analisar dados textuais em processamento de linguagem natural.

Embeddings Defini��o: Representa��es vetoriais densas de palavras que capturam rela��es sem�nticas e sint�ticas. Utiliza��o: Cada palavra � representada por um vetor de n�meros cont�nuos, permitindo c�lculos de similaridade e outras opera��es matem�ticas. Vantagens: Capturam rela��es sem�nticas complexas entre palavras (ex.: similaridade, analogias). Desvantagens: Requer mais recursos computacionais para treinamento e armazenamento. Compara��o:

Contexto: N-grams capturam sequ�ncias fixas de palavras, enquanto embeddings capturam rela��es sem�nticas independentes da ordem. Complexidade: N-grams s�o mais simples e menos intensivos em recursos, enquanto embeddings exigem treinamento mais complexo. Aplica��es: N-grams s�o �teis para tarefas como previs�o de palavras e an�lise de frequ�ncia, enquanto embeddings s�o essenciais para tarefas que requerem entendimento sem�ntico, como tradu��o autom�tica e resposta a perguntas. Medidas de Proximidade Medidas de proximidade determinam a similaridade ou dist�ncia entre dois vetores. Medidas comuns incluem:

Vetoriza��o Objetivo: converter dados textuais em vetores num�ricos que modelos de aprendizado de m�quina podem interpretar. Essa transforma��o captura o significado sem�ntico e as rela��es entre as palavras.

Passos:

Tokeniza��o: Dividir o texto em tokens (palavras). Cria��o de Vetores: Atribuir valores num�ricos aos tokens com base na frequ�ncia ou outras m�tricas. Sele��o de Features: Selecionar caracter�sticas relevantes para melhorar o desempenho do modelo.

Treinamento do Modelo Objetivo: Treinar um modelo de aprendizado de m�quina para prever a pr�xima palavra com base no contexto fornecido.

normalmente j� existem os algoritmos especializados para treinamento, cada algoritmo � utilizado para um fim especifico

Alguns. - Classificador NaiveBayes Classificador baseado na aplica��o do teorema de Bayes com fortes suposi��es de independ�ncia (ing�nuas) entre os recursos.

Classificador KNearestNeighbors Classificador que implementa o algoritmo k-vizinhos mais pr�ximos.
Agrupamento de K-means O algoritmo K-Means agrupa dados tentando separar amostras em n grupos de vari�ncia igual, minimizando um crit�rio conhecido como in�rcia ou soma dos quadrados dentro do cluster. Este algoritmo requer que o n�mero de clusters seja especificado.

Testes de Previs�o Objetivo: Validar a precis�o do modelo na previs�o da pr�xima palavra com base em diferentes contextos.

Normalmente testa o modelo criado com parte dos dados da extra��o

Limita��es

Compreens�o B�sica: O chatbot possui entendimento limitado do contexto.
Vocabul�rio Restrito: Limitado ao vocabul�rio presente no dataset.
Sem Mem�ria: N�o ret�m hist�rico de conversas.
Possibilidade de Alucina��es: Pode gerar palavras sem sentido ou irrelevantes.
Comprimento de Resposta Fixado: Limitado a um n�mero pr�-definido de palavras.

Aplica��es:

Previs�o de texto Reconhecimento de fala Tradu��o autom�tica Vetoriza��o A vetoriza��o transforma dados textuais em vetores num�ricos. Este processo � essencial para modelos de aprendizado de m�quina, que requerem entrada num�rica.

T�cnicas:

Bag of Words (BoW): Conta a frequ�ncia de cada palavra em um documento. Term Frequency-Inverse Document Frequency (TF-IDF): Pesa a import�ncia de uma palavra com base em sua frequ�ncia em um documento em rela��o � frequ�ncia em todos os documentos. Word Embeddings: Representa palavras em espa�o vetorial cont�nuo (ex.: Word2Vec, GloVe). Medidas de Proximidade Medidas de proximidade determinam a similaridade ou dist�ncia entre dois vetores. Medidas comuns incluem:

Similaridade Cosseno: Mede o cosseno do �ngulo entre dois vetores. Dist�ncia Euclidiana: Mede a dist�ncia em linha reta entre dois pontos no espa�o. Dist�ncia de Manhattan: Mede a dist�ncia entre dois pontos ao longo dos eixos em �ngulos retos. Aplica��es:

Similaridade de documentos Agrupamento Classifica��o Gera��o de Palavras A gera��o de palavras envolve prever ou criar a pr�xima palavra em uma sequ�ncia com base no contexto fornecido. Este processo � fundamental para modelos de linguagem e chatbots.

Desafios:

Compreens�o de Contexto: Entender o significado por tr�s das palavras. Coer�ncia: Garantir que as palavras geradas formem frases significativas. Evitar Repeti��o: Prevenir que o modelo repita palavras excessivamente. Limita��es Embora este LLM b�sico sirva como um projeto fundamental, possui v�rias limita��es:

Flutua��es e Alucina��es: O modelo pode gerar palavras irrelevantes ou sem sentido devido � limita��o de dados de treinamento e algoritmos simplistas. Falta de Compreens�o Profunda: O chatbot n�o compreende o contexto al�m das sequ�ncias de palavras. Vocabul�rio Fixado: Limitado �s palavras presentes no dataset de treinamento. Problemas de Escalabilidade: N�o otimizado para aplica��es em grande escala ou em tempo real. Por que PHP? A escolha do PHP para este projeto foi motivada por v�rios fatores:

Facilidade de Deploy:

PHP � amplamente suportado em plataformas de hospedagem compartilhada, facilitando a implanta��o e reduzindo custos. - Hospedagem Econ�mica:

Solu��es de hospedagem compartilhada para PHP s�o geralmente mais baratas em compara��o com ambientes necess�rios para linguagens mais complexas como Python. Familiaridade:

Aproveitar o conhecimento existente de PHP permite desenvolvimento e itera��o r�pida. Contribui��o para o Ecossistema PHP:

Objetivo de contribuir de volta para a comunidade PHP, aprimorando as classes PHP e demonstrando a versatilidade do PHP em aplica��es de aprendizado de m�quina. Contribuindo Contribui��es s�o bem-vindas! Seja melhorando a documenta��o, adicionando novas funcionalidades ou corrigindo bugs, sua ajuda � apreciada.

criador do mecanismo de busca especializado WolframAlph a ? resume o ChatGPT:

?O conceito b�sico do ChatGPT �, em algum n�vel, bastante simples. 
Comece com uma amostra enorme de texto criado por humanos da web, livros, etc. 
Ent�o treine uma rede neural para gerar texto que seja ?como este?. 
E, em particular, fa�a com que ela seja capaz de come�ar com um ?prompt? e ent�o continuar com texto que seja ?como o que foi treinado?.

Como vimos, a rede neural real no ChatGPT � composta de elementos muito simples ? embora bilh�es deles. 
E a opera��o b�sica da rede neural tamb�m � muito simples, consistindo essencialmente em passar a entrada derivada do texto que ela gerou at� agora ?uma vez por seus elementos? (sem nenhum loop, etc.) para cada nova palavra (ou parte de uma palavra) que ela gera.

Mas o not�vel ? e inesperado ? � que esse processo pode produzir texto que � com sucesso ?como? o que est� dispon�vel na web, em livros, etc. (...)

A engenharia espec�fica do ChatGPT o tornou bastante atraente. 
Mas, no final das contas (pelo menos at� que possa usar ferramentas externas), o ChatGPT est� ?meramente? extraindo algum ?fio coerente de texto? das ?estat�sticas da sabedoria convencional? que ele acumulou. 
Mas � incr�vel como os resultados s�o semelhantes aos humanos.?

Screenshots (2)

Files (15)

File	Role	Description
`backend` (8 files, 1 directory)
`index.html`	Doc.	Documentation
`readme.md`	Doc.	Documentation

Files (15)

backend

File	Role	Description
`Utils` (3 files)
`composer.json`	Data	Auxiliary data
`composer.lock`	Data	Auxiliary data
`index.php`	Example	Example script
`ngrams.json`	Data	Auxiliary data
`runClearData.php`	Example	Example script
`runNGramProcessor.php`	Example	Example script
`runPredict.php`	Example	Example script
`runTrainModel.php`	Example	Example script

Files (15)

backend

Utils

File	Role	Description
`ClearData.php`	Class	Class source
`NextWordPredictor.php`	Class	Class source
`NGramProcessor.php`	Class	Class source

The PHP Classes site has supported package installation using the Composer tool since 2013, as you may verify by reading this instructions page.

Install with Composer

	modelo-llm-php-2025-02-11.zip 338KB
	modelo-llm-php-2025-02-11.tar.gz 337KB
	Install with Composer

Version Control

Unique User Downloads

Download Rankings

86%

Total:	35
This week:	35

All time:	11,039
This week:	1

Applications that use this package

No pages of applications that use this class were specified.

If you know an application of this package, send a message to the author to add a link here.

About us

Advertise on this site

For more information send a message to info at phpclasses dot org.