Ollama: Como rodar LLMs locais com privacidade e controle

Filipe Santana de Oliveira

5 min de leitura

https://prod-files-secure.s3.us-west-2.amazonaws.com/08f749ff-d06d-49a8-a488-9846e081b224/34f457ea-1ef8-4a97-a855-f974a8a675f2/conhecendo-ollama-ia-local-privacidade.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB4663MCGAFOI%2F20260522%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260522T142144Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEFYaCXVzLXdlc3QtMiJHMEUCIDfYVr3SlgX2IXQrVnLlXv2p65KOEfCkHTgSHmt4zQuYAiEA1HQeHmxo695tDozgPkShC%2FDJr4CVIumMFLpjxKvZvCMq%2FwMIHxAAGgw2Mzc0MjMxODM4MDUiDN32Hx%2BQVZ06rUlxtCrcA2I%2Fl5ie%2Bv2OhtFebjcavuxQyvd7tPXTSsR3t0LmxqAZqA9FNTuGcxEMHXI57K3ktaUzFFrFm8jlRpn0KFo4LA0kkX0wLIkVZHa%2BSNuihA2C4fmMzEJuw1iCOdIie1W8aqgUj%2FAcYgHQIIBGBm2V%2FXYam748eHY4clgH1DiwcmG6WDCAvIo5xSJ1TyzhlJVFeCA30fg%2Fww5G0GXBPUWxp6%2B54zOGBnGyEY9IxKQ2sfbOOGn9Z5JrAy%2FvW0LZvIrGLLRx%2BgkD0KBzyFycDu1UUTJEGT%2BELDQFsh%2FrXNNoGK3JFGN9ZglcFHbekgL2i2Fgg0KNcDU6iemKAQ2gt7TKuUWZ%2Fc4RXsctf9QDSLimgFacUuxQKZU7LrlRYh2%2Bf3x%2B3%2F2LxCl8KKGEEoQuWI%2BeTdwjcut00fqBxiDg0N3NZ9aKX6INWuCLZG4Cgv%2B5A%2Biju5zuGX1TZU7xmF8YafUS3Z9llrwvt2hQZN65lYpWQLhVmZ7%2FHBQROyjZMksmSeREgBqIsQ%2Bbfs%2FIRdPR%2F5XM7NGRFiNbbRLUpdl766N%2BxexWjAwV28eIQJgsap7avKIWfaHipyc%2Bh%2BwIqpMkKWmrllaRLfYMzkvZmLKclSt1%2BmSp5cvFTzXUphA2nJWcMKDIwdAGOqUB8kn%2BIodD7mt9J0KLMRAZtgxG6mnjnZf60C8TfDSvASt4akeHpK6CVTw1YCwfHZ4eCAtIukHr2RIPmX%2BopVK%2Fx7dh36DOr6n4WBjvhQSYve76RLSRa6ydEZr2W47DPjI8JhH0FZSZDbaJHgT0C4dQ5mdEdbXI2Z9kXBx4yksNzJUoPYpj4iyoQvdAucILAoK1cwvxVAIp8dArRKqaM%2Bwctn8Gd%2Bg1&X-Amz-Signature=41268011760d794b38f4e313e57b2abcc332cde4fe8728f3c6f31c8b832e9eda&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject

Conheça o Rocketseat Para Empresas

Oferecemos soluções personalizadas para empresas de todos os portes.

Conhecendo o Ollama: Sua IA, suas regras

Fala, dev! Beleza?

Inteligência artificial é o assunto do momento faz um tempo. Ela trouxe ferramentas de LLM (Large Language Model) poderosas e que fazem parte do nosso cotidiano, como por exemplo, o ChatGPT, Gemini, Claude Code, etc. Todos eles são alternativas em nuvem que apresentam certos desafios, principalmente quando falamos de privacidade e segurança de dados.

Quando você envia informações para um desses serviços, seus dados são processados em servidores de terceiros. Se você trabalha com:

🔒 Código proprietário de empresas

📄 Documentos confidenciais

🏥 Dados de saúde

💰 Informações financeiras sensíveis

🤫 Segredos comerciais

...essa exposição pode ser bem arriscada.

E ainda temos a questão do controle dessas LLMs em nível de políticas de uso, controle de preços, mudanças em modelos, interrupções de serviços. Esses fatores podem gerar desafios e até problemas reais em alguns casos.

Com essas informações em mente, rodar alguma LLM localmente pode ser uma alternativa, onde você tem o controle total sobre a execução. É aqui que o Ollama entra.

O que é o Ollama?

O Ollama é uma plataforma de código aberto que permite executar, criar e compartilhar modelos de LLMs diretamente no seu PC Master Race.

Com ele você pode:

📥 Baixar modelos pré-estabelecidos de um repositório que o próprio site do Ollama fornece.

🖥️ Executar ele em um servidor local que hospeda os modelos.

🔌 Expor uma API para interação na qual é possível programar.

💬 Usar comandos via terminal para interagir com esses modelos.

Tudo de forma bem simples e fácil de configurar.

Com ele, é possível executar um assistente de IA privado rodando localmente, além de utilizá-lo para processamento de documentos confidenciais, chatbots internos e automação de tarefas. Basta usar o poder da imaginação.

Essa abordagem oferece maior privacidade, controle sobre os dados e possível economia de custos. Você pode conhecer o Ollama através deste link.

Casos de uso

Caso de Uso	Descrição
🤖 Assistente privado	Um ChatGPT particular, rodando 100% local
📂 Processamento de documentos	Análise de arquivos confidenciais sem expor dados
🏢 Chatbots internos	Integração em aplicações empresariais
⚙️ Automação	Scripts e pipelines com IA local

⚙️ Instalando e usando via terminal

Depois de entender a motivação do porquê usar o Ollama, vamos brincar um pouco.

Requisitos de Hardware

Rodar uma LLM localmente exige um hardware mínimo. Não precisa ser um computador da NASA, mas também não vai rodar em um notebook antigo com 4 GB de RAM.

Quanto maior o modelo, mais memória ele precisa para funcionar na sua máquina. A maioria dos modelos mais populares ficam na faixa dos 7B-8B parâmetros, então 16 GB de RAM é uma boa para uso. Mas é bem possível rodar modelos com 8GB de RAM, claro, modelos mais simples, como o phi3.

Sobre a GPU, ela não é obrigatória, mas muda o cenário de utilização. Com uma placa dedicada, a geração de texto fica muito mais rápida. Se você tem uma NVIDIA RTX 3060, já terá um bom rendimento. Para armazenamento, separe pelo menos 10 GB livres para começar — o Llama3.1, por exemplo, ocupa cerca de 4.9 GB. Os modelos não são leves, então se você planeja testar vários, um SSD com 124 GB já ajuda.

Componente	Recomendação
RAM	16 GB para uso confortável (8 GB para modelos simples como phi3)
GPU	Não obrigatória, mas acelera muito a geração de texto. NVIDIA RTX 3060 já tem bom rendimento
Armazenamento	Mínimo 10 GB livres para começar (ex: llama3.1 ocupa ~4.9 GB)

Instalação e primeiros passos

O Ollama funciona no Linux, macOS e Windows. E o processo é simples em todos eles. Para baixar o Ollama você pode acessar o site aqui ou seguir os comandos abaixo.

No Linux e no macOS

Nesse caso o mesmo comando funciona para ambos. Abra o terminal e rode o comando abaixo — ele instala o Ollama na sua máquina:


curl -fsSL https://ollama.com/install.sh | sh

O script cuida de tudo: baixa o binário, configura o serviço e já deixa o servidor rodando. Depois é só verificar:


ollama --version

No Windows

No caso do Windows o comando muda um pouco:


irm https://ollama.com/install.ps1 | iex

Caso deseje, você pode baixar o executável através desse link.

Primeiros comandos

O Ollama tem uma CLI bem intuitiva. Vamos aos comandos que você vai usar o tempo todo.


ollama run


ollama run llama3

Esse é o comando principal. Ele baixa o modelo caso você ainda não tenha, e já abre o chat interativo direto no terminal. Na primeira execução, o download é feito — dependendo do modelo pode demorar, já que estamos falando de GBs. Depois que tiver em cache, a inicialização é rápida. Assim que terminar, você já está conversando. É literalmente um ChatGPT rodando na sua máquina localmente.


ollama pull


ollama pull mistral

Esse comando você baixa o modelo sem abrir o chat. Útil quando você quer preparar o ambiente antes de usar, ou simplesmente baixar vários modelos de uma vez sem interagir com nenhum deles no momento.


ollama list

Lista todos os modelos que você já tem instalados na sua máquina. Mostra o nome, o ID, o tamanho e quando foi baixado. Bom pra não perder o controle do que tá ocupando espaço no seu SSD.


ollama rm


ollama rm mistral

Remove um modelo instalado. Se você testou um modelo e não gostou ou só quer liberar espaço, esse é o comando.

Modelos

O Ollama tem um repositório próprio em ollama.com/library onde você encontra todos os modelos disponíveis. Lá você filtra por categoria, vê o tamanho e já pega o comando pra baixar.

Alguns dos mais usados pra você testar:

Modelo	Uso ideal
`llama3`	Propósito geral, ótimo ponto de partida
`mistral`	Rápido e eficiente, boa escrita
`codellama`	Focado em programação
`phi3`	Compacto, bom pra hardware limitado
`llava`	Texto + análise de imagens

Pra baixar qualquer um deles, é só usar o ollama pull ou o ollama run com o nome do modelo.

Colocando em Prática

Agora que sabemos o mínimo, vamos do zero ao chat rodando em menos de 5 minutos.

1. Baixando e iniciando o modelo

ollama run llama3

Na primeira vez, ele vai baixar o modelo — são cerca de 4.7 GB, então vai depender da sua internet. Você vai ver algo assim:


pulling manifest
pulling 6a0746a1ec1a... 100% ▕████████████████▏ 4.7 GB
verifying sha256 digest
writing manifest
success
>>> Send a message (/? for help)

Pronto. Você já está dentro do chat. ✅

2. Conversando no terminal


>>> Olá! O que você consegue fazer?

Olá! Posso te ajudar com diversas tarefas: responder perguntas,
explicar conceitos, escrever textos, revisar código, fazer resumos,
traduzir conteúdo e muito mais. Como posso te ajudar hoje?

>>> /bye

Pra sair do chat, é só digitar /bye.

3. Fazendo uma pergunta rápida sem abrir o chat

Se você não quer entrar no modo interativo, dá pra passar a pergunta direto no comando:

ollama run llama3 "Me explica o que é uma API em uma frase"

Uma API é uma interface que permite que dois sistemas se comuniquem e troquem informações de forma padronizada.

Simples assim. Uma linha, uma resposta. ⚡

Isso é tudo que você precisa pra começar. Uma LLM rodando localmente, sem conta, sem assinatura, sem dados indo pra nenhum servidor. Só você e o modelo local, legal né?

A partir daqui, o limite é a sua criatividade. 🚀

Próximos passos: Integração com APIs

Você saiu do zero e já tem uma LLM rodando offline. Mas o Ollama brilha de verdade quando você usa a API local para automatizar tarefas em seus próprios sistemas.

Se você quer aprender a construir ferramentas reais em cima desses modelos, vale muito a pena conferir o nosso curso de FastAPI. Lá, temos um módulo dedicado a mostrar como integrar o Ollama via API, construindo aplicações inteligentes com código limpo e organizado.

Bora codar o futuro! Foguete não tem ré! 🚀💜

Conhecendo o Ollama: Sua IA, suas regras

Fala, dev! Beleza?

Quando você envia informações para um desses serviços, seus dados são processados em servidores de terceiros. Se você trabalha com:

🔒 Código proprietário de empresas

📄 Documentos confidenciais

🏥 Dados de saúde

💰 Informações financeiras sensíveis

🤫 Segredos comerciais

...essa exposição pode ser bem arriscada.

Com essas informações em mente, rodar alguma LLM localmente pode ser uma alternativa, onde você tem o controle total sobre a execução. É aqui que o Ollama entra.

O que é o Ollama?

O Ollama é uma plataforma de código aberto que permite executar, criar e compartilhar modelos de LLMs diretamente no seu PC Master Race.

Com ele você pode:

📥 Baixar modelos pré-estabelecidos de um repositório que o próprio site do Ollama fornece.

🖥️ Executar ele em um servidor local que hospeda os modelos.

🔌 Expor uma API para interação na qual é possível programar.

💬 Usar comandos via terminal para interagir com esses modelos.

Tudo de forma bem simples e fácil de configurar.

Essa abordagem oferece maior privacidade, controle sobre os dados e possível economia de custos. Você pode conhecer o Ollama através deste link.

Casos de uso

Caso de Uso	Descrição
🤖 Assistente privado	Um ChatGPT particular, rodando 100% local
📂 Processamento de documentos	Análise de arquivos confidenciais sem expor dados
🏢 Chatbots internos	Integração em aplicações empresariais
⚙️ Automação	Scripts e pipelines com IA local

⚙️ Instalando e usando via terminal

Depois de entender a motivação do porquê usar o Ollama, vamos brincar um pouco.

Requisitos de Hardware

Rodar uma LLM localmente exige um hardware mínimo. Não precisa ser um computador da NASA, mas também não vai rodar em um notebook antigo com 4 GB de RAM.

Componente	Recomendação
RAM	16 GB para uso confortável (8 GB para modelos simples como phi3)
GPU	Não obrigatória, mas acelera muito a geração de texto. NVIDIA RTX 3060 já tem bom rendimento
Armazenamento	Mínimo 10 GB livres para começar (ex: llama3.1 ocupa ~4.9 GB)

Instalação e primeiros passos

O Ollama funciona no Linux, macOS e Windows. E o processo é simples em todos eles. Para baixar o Ollama você pode acessar o site aqui ou seguir os comandos abaixo.

No Linux e no macOS

Nesse caso o mesmo comando funciona para ambos. Abra o terminal e rode o comando abaixo — ele instala o Ollama na sua máquina:


curl -fsSL https://ollama.com/install.sh | sh

O script cuida de tudo: baixa o binário, configura o serviço e já deixa o servidor rodando. Depois é só verificar:


ollama --version

No Windows

No caso do Windows o comando muda um pouco:


irm https://ollama.com/install.ps1 | iex

Caso deseje, você pode baixar o executável através desse link.

Primeiros comandos

O Ollama tem uma CLI bem intuitiva. Vamos aos comandos que você vai usar o tempo todo.


ollama run


ollama run llama3


ollama pull


ollama pull mistral


ollama list

Lista todos os modelos que você já tem instalados na sua máquina. Mostra o nome, o ID, o tamanho e quando foi baixado. Bom pra não perder o controle do que tá ocupando espaço no seu SSD.


ollama rm


ollama rm mistral

Remove um modelo instalado. Se você testou um modelo e não gostou ou só quer liberar espaço, esse é o comando.

Modelos

O Ollama tem um repositório próprio em ollama.com/library onde você encontra todos os modelos disponíveis. Lá você filtra por categoria, vê o tamanho e já pega o comando pra baixar.

Alguns dos mais usados pra você testar:

Modelo	Uso ideal
`llama3`	Propósito geral, ótimo ponto de partida
`mistral`	Rápido e eficiente, boa escrita
`codellama`	Focado em programação
`phi3`	Compacto, bom pra hardware limitado
`llava`	Texto + análise de imagens

Pra baixar qualquer um deles, é só usar o ollama pull ou o ollama run com o nome do modelo.

Colocando em Prática

Agora que sabemos o mínimo, vamos do zero ao chat rodando em menos de 5 minutos.

1. Baixando e iniciando o modelo

ollama run llama3

Na primeira vez, ele vai baixar o modelo — são cerca de 4.7 GB, então vai depender da sua internet. Você vai ver algo assim:


pulling manifest
pulling 6a0746a1ec1a... 100% ▕████████████████▏ 4.7 GB
verifying sha256 digest
writing manifest
success
>>> Send a message (/? for help)

Pronto. Você já está dentro do chat. ✅

2. Conversando no terminal


>>> Olá! O que você consegue fazer?

Olá! Posso te ajudar com diversas tarefas: responder perguntas,
explicar conceitos, escrever textos, revisar código, fazer resumos,
traduzir conteúdo e muito mais. Como posso te ajudar hoje?

>>> /bye

Pra sair do chat, é só digitar /bye.

3. Fazendo uma pergunta rápida sem abrir o chat

Se você não quer entrar no modo interativo, dá pra passar a pergunta direto no comando:

ollama run llama3 "Me explica o que é uma API em uma frase"

Uma API é uma interface que permite que dois sistemas se comuniquem e troquem informações de forma padronizada.

Simples assim. Uma linha, uma resposta. ⚡

Isso é tudo que você precisa pra começar. Uma LLM rodando localmente, sem conta, sem assinatura, sem dados indo pra nenhum servidor. Só você e o modelo local, legal né?

A partir daqui, o limite é a sua criatividade. 🚀

Próximos passos: Integração com APIs

Você saiu do zero e já tem uma LLM rodando offline. Mas o Ollama brilha de verdade quando você usa a API local para automatizar tarefas em seus próprios sistemas.

Bora codar o futuro! Foguete não tem ré! 🚀💜

Conhecendo o Ollama: Sua IA, suas regras

Fala, dev! Beleza?

Quando você envia informações para um desses serviços, seus dados são processados em servidores de terceiros. Se você trabalha com:

🔒 Código proprietário de empresas

📄 Documentos confidenciais

🏥 Dados de saúde

💰 Informações financeiras sensíveis

🤫 Segredos comerciais

...essa exposição pode ser bem arriscada.

Com essas informações em mente, rodar alguma LLM localmente pode ser uma alternativa, onde você tem o controle total sobre a execução. É aqui que o Ollama entra.

O que é o Ollama?

O Ollama é uma plataforma de código aberto que permite executar, criar e compartilhar modelos de LLMs diretamente no seu PC Master Race.

Com ele você pode:

📥 Baixar modelos pré-estabelecidos de um repositório que o próprio site do Ollama fornece.

🖥️ Executar ele em um servidor local que hospeda os modelos.

🔌 Expor uma API para interação na qual é possível programar.

💬 Usar comandos via terminal para interagir com esses modelos.

Tudo de forma bem simples e fácil de configurar.

Essa abordagem oferece maior privacidade, controle sobre os dados e possível economia de custos. Você pode conhecer o Ollama através deste link.

Casos de uso

Caso de Uso	Descrição
🤖 Assistente privado	Um ChatGPT particular, rodando 100% local
📂 Processamento de documentos	Análise de arquivos confidenciais sem expor dados
🏢 Chatbots internos	Integração em aplicações empresariais
⚙️ Automação	Scripts e pipelines com IA local

⚙️ Instalando e usando via terminal

Depois de entender a motivação do porquê usar o Ollama, vamos brincar um pouco.

Requisitos de Hardware

Rodar uma LLM localmente exige um hardware mínimo. Não precisa ser um computador da NASA, mas também não vai rodar em um notebook antigo com 4 GB de RAM.

Componente	Recomendação
RAM	16 GB para uso confortável (8 GB para modelos simples como phi3)
GPU	Não obrigatória, mas acelera muito a geração de texto. NVIDIA RTX 3060 já tem bom rendimento
Armazenamento	Mínimo 10 GB livres para começar (ex: llama3.1 ocupa ~4.9 GB)

Instalação e primeiros passos

O Ollama funciona no Linux, macOS e Windows. E o processo é simples em todos eles. Para baixar o Ollama você pode acessar o site aqui ou seguir os comandos abaixo.

No Linux e no macOS

Nesse caso o mesmo comando funciona para ambos. Abra o terminal e rode o comando abaixo — ele instala o Ollama na sua máquina:


curl -fsSL https://ollama.com/install.sh | sh

O script cuida de tudo: baixa o binário, configura o serviço e já deixa o servidor rodando. Depois é só verificar:


ollama --version

No Windows

No caso do Windows o comando muda um pouco:


irm https://ollama.com/install.ps1 | iex

Caso deseje, você pode baixar o executável através desse link.

Primeiros comandos

O Ollama tem uma CLI bem intuitiva. Vamos aos comandos que você vai usar o tempo todo.


ollama run


ollama run llama3


ollama pull


ollama pull mistral


ollama list

Lista todos os modelos que você já tem instalados na sua máquina. Mostra o nome, o ID, o tamanho e quando foi baixado. Bom pra não perder o controle do que tá ocupando espaço no seu SSD.


ollama rm


ollama rm mistral

Remove um modelo instalado. Se você testou um modelo e não gostou ou só quer liberar espaço, esse é o comando.

Modelos

O Ollama tem um repositório próprio em ollama.com/library onde você encontra todos os modelos disponíveis. Lá você filtra por categoria, vê o tamanho e já pega o comando pra baixar.

Alguns dos mais usados pra você testar:

Modelo	Uso ideal
`llama3`	Propósito geral, ótimo ponto de partida
`mistral`	Rápido e eficiente, boa escrita
`codellama`	Focado em programação
`phi3`	Compacto, bom pra hardware limitado
`llava`	Texto + análise de imagens

Pra baixar qualquer um deles, é só usar o ollama pull ou o ollama run com o nome do modelo.

Colocando em Prática

Agora que sabemos o mínimo, vamos do zero ao chat rodando em menos de 5 minutos.

1. Baixando e iniciando o modelo

ollama run llama3

Na primeira vez, ele vai baixar o modelo — são cerca de 4.7 GB, então vai depender da sua internet. Você vai ver algo assim:


pulling manifest
pulling 6a0746a1ec1a... 100% ▕████████████████▏ 4.7 GB
verifying sha256 digest
writing manifest
success
>>> Send a message (/? for help)

Pronto. Você já está dentro do chat. ✅

2. Conversando no terminal


>>> Olá! O que você consegue fazer?

Olá! Posso te ajudar com diversas tarefas: responder perguntas,
explicar conceitos, escrever textos, revisar código, fazer resumos,
traduzir conteúdo e muito mais. Como posso te ajudar hoje?

>>> /bye

Pra sair do chat, é só digitar /bye.

3. Fazendo uma pergunta rápida sem abrir o chat

Se você não quer entrar no modo interativo, dá pra passar a pergunta direto no comando:

ollama run llama3 "Me explica o que é uma API em uma frase"

Uma API é uma interface que permite que dois sistemas se comuniquem e troquem informações de forma padronizada.

Simples assim. Uma linha, uma resposta. ⚡

Isso é tudo que você precisa pra começar. Uma LLM rodando localmente, sem conta, sem assinatura, sem dados indo pra nenhum servidor. Só você e o modelo local, legal né?

A partir daqui, o limite é a sua criatividade. 🚀

Próximos passos: Integração com APIs

Você saiu do zero e já tem uma LLM rodando offline. Mas o Ollama brilha de verdade quando você usa a API local para automatizar tarefas em seus próprios sistemas.

Bora codar o futuro! Foguete não tem ré! 🚀💜

Conheça o Rocketseat Para Empresas

Oferecemos soluções personalizadas para empresas de todos os portes.

Filipe Santana de Oliveira

NewsletterReceba conteúdos inéditos e novidades gratuitamente

OFERTA