Ollama: Como rodar LLMs locais com privacidade e controle

Filipe Santana de Oliveira

Filipe Santana de Oliveira

5 min de leitura
https://prod-files-secure.s3.us-west-2.amazonaws.com/08f749ff-d06d-49a8-a488-9846e081b224/34f457ea-1ef8-4a97-a855-f974a8a675f2/conhecendo-ollama-ia-local-privacidade.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB4663PYH326R%2F20260407%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260407T071232Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEBcaCXVzLXdlc3QtMiJHMEUCIQDvlUKETJhdHyYFL3N7DtLKcOgQAnnLN2o0yfVqHI8LngIgJlCqA8%2FQ9gh3UqS5zzuyOAIplvrfaEbEb1D4ZMVpY6wqiAQI4P%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FARAAGgw2Mzc0MjMxODM4MDUiDKyB5RbqIkjZJkEfVyrcA%2BHm%2BGSln%2BkcwTtvVDVwuJrtk%2FLxTiqCfYnKpFbGDfbatJmJlpoEqTfVduXkylD7t9UEIBOQxTRPV%2BTOmmkwXZg%2FRCd4S85LRHFkF7synntO1RK9GcGUld1W9ibyRUDDpVJSmvNzSTn4nEruNm%2FJTSdAoA8pBJgVwFHdSmn4bnZQrq8SGi3B9EnTIe7RJolJcVpgD%2FamfNzRGbGc5FHRxmD498NOvujb8i%2FPzfV15EuOhH8qHMJRzHQi%2Fuhl8JC8VXH6Yc7CTWTjOeH%2F%2BH80C5cYKsUxj7s82WYIy9u5vznYTNVggs3SsOX9CP5CFUpee9oN66byBbjjhAvQEffJVf2DNfsaX2m7obu9kZFsrrXViN%2FDdFbtL0ZOHheWDYhUu8zlJVtU2x8VGQA9wpeobLdPj5R5TznLmM51evniRwidRUKqfdNcgOMXHys94L6go6hfIhSQqekDnR%2F1p8%2FffKOyfG3gKxaEDXtr3IB4d1UdpBM24inbIauu6TjyP9PJH2iwEcyQaAtM4WPxV19nu510d%2B13Vaa67HVQOH2Vvwo27b5qLCbTKq2LhYnwQfrkxHzPG3xfFEoqWyJl2PEAn%2Fn%2FP3xatC3QJj2pCenpQILQiY7Jt%2Bz0GFWyPvbkMIzX0s4GOqUBt925Uw8EE3eoVNueOvp9C5t%2Fbr8FkTt0l17XWTobv81FTVdIDPM7HXaTbMoU2r2FAe3gK%2Fv2F2aN%2B6TwS23RUDCXbtAt8iUWItotQEEVgXEC0UmEUMIw7h306SYKag7EvprjCdmbsUll9GtYx3%2FTJgTRay8EKD3wyO%2FCrF40spaArkVxDKGlbgEl1mUGmFUxlNs7M69FbJvvgo57naTz%2BejSfJKl&X-Amz-Signature=a4b4fe1780d1458b96ec08db4fd8da825a7444d9eb9329b0263194a15faf3a75&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject

Conhecendo o Ollama: Sua IA, suas regras

Fala, dev! Beleza?
Inteligência artificial é o assunto do momento faz um tempo. Ela trouxe ferramentas de LLM (Large Language Model) poderosas e que fazem parte do nosso cotidiano, como por exemplo, o ChatGPT, Gemini, Claude Code, etc. Todos eles são alternativas em nuvem que apresentam certos desafios, principalmente quando falamos de privacidade e segurança de dados.
Quando você envia informações para um desses serviços, seus dados são processados em servidores de terceiros. Se você trabalha com:
  • 🔒 Código proprietário de empresas
  • 📄 Documentos confidenciais
  • 🏥 Dados de saúde
  • 💰 Informações financeiras sensíveis
  • 🤫 Segredos comerciais
...essa exposição pode ser bem arriscada.
E ainda temos a questão do controle dessas LLMs em nível de políticas de uso, controle de preços, mudanças em modelos, interrupções de serviços. Esses fatores podem gerar desafios e até problemas reais em alguns casos.
Com essas informações em mente, rodar alguma LLM localmente pode ser uma alternativa, onde você tem o controle total sobre a execução. É aqui que o Ollama entra.

O que é o Ollama?

O Ollama é uma plataforma de código aberto que permite executar, criar e compartilhar modelos de LLMs diretamente no seu PC Master Race.
Com ele você pode:
  • 📥 Baixar modelos pré-estabelecidos de um repositório que o próprio site do Ollama fornece.
  • 🖥️ Executar ele em um servidor local que hospeda os modelos.
  • 🔌 Expor uma API para interação na qual é possível programar.
  • 💬 Usar comandos via terminal para interagir com esses modelos.
Tudo de forma bem simples e fácil de configurar.
Com ele, é possível executar um assistente de IA privado rodando localmente, além de utilizá-lo para processamento de documentos confidenciais, chatbots internos e automação de tarefas. Basta usar o poder da imaginação.
Essa abordagem oferece maior privacidadecontrole sobre os dados e possível economia de custos. Você pode conhecer o Ollama através deste link.
Casos de uso
Caso de Uso
Descrição
🤖 Assistente privado
Um ChatGPT particular, rodando 100% local
📂 Processamento de documentos
Análise de arquivos confidenciais sem expor dados
🏢 Chatbots internos
Integração em aplicações empresariais
⚙️ Automação
Scripts e pipelines com IA local

⚙️ Instalando e usando via terminal
Depois de entender a motivação do porquê usar o Ollama, vamos brincar um pouco.

Requisitos de Hardware

Rodar uma LLM localmente exige um hardware mínimo. Não precisa ser um computador da NASA, mas também não vai rodar em um notebook antigo com 4 GB de RAM.
Quanto maior o modelo, mais memória ele precisa para funcionar na sua máquina. A maioria dos modelos mais populares ficam na faixa dos 7B-8B parâmetros, então 16 GB de RAM é uma boa para uso. Mas é bem possível rodar modelos com 8GB de RAM, claro, modelos mais simples, como o phi3.
Sobre a GPU, ela não é obrigatória, mas muda o cenário de utilização. Com uma placa dedicada, a geração de texto fica muito mais rápida. Se você tem uma NVIDIA RTX 3060, já terá um bom rendimento. Para armazenamento, separe pelo menos 10 GB livres para começar — o Llama3.1, por exemplo, ocupa cerca de 4.9 GB. Os modelos não são leves, então se você planeja testar vários, um SSD com 124 GB já ajuda.
Componente
Recomendação
RAM
16 GB para uso confortável (8 GB para modelos simples como phi3)
GPU
Não obrigatória, mas acelera muito a geração de texto. NVIDIA RTX 3060 já tem bom rendimento
Armazenamento
Mínimo 10 GB livres para começar (ex: llama3.1 ocupa ~4.9 GB)

Instalação e primeiros passos

O Ollama funciona no LinuxmacOS e Windows. E o processo é simples em todos eles. Para baixar o Ollama você pode acessar o site aqui ou seguir os comandos abaixo.

No Linux e no macOS

Nesse caso o mesmo comando funciona para ambos. Abra o terminal e rode o comando abaixo — ele instala o Ollama na sua máquina:
curl -fsSL https://ollama.com/install.sh | sh
O script cuida de tudo: baixa o binário, configura o serviço e já deixa o servidor rodando. Depois é só verificar:
ollama --version

No Windows

No caso do Windows o comando muda um pouco:
irm https://ollama.com/install.ps1 | iex
Caso deseje, você pode baixar o executável através desse link.

Primeiros comandos

O Ollama tem uma CLI bem intuitiva. Vamos aos comandos que você vai usar o tempo todo.
ollama run
ollama run llama3
Esse é o comando principal. Ele baixa o modelo caso você ainda não tenha, e já abre o chat interativo direto no terminal. Na primeira execução, o download é feito — dependendo do modelo pode demorar, já que estamos falando de GBs. Depois que tiver em cache, a inicialização é rápida. Assim que terminar, você já está conversando. É literalmente um ChatGPT rodando na sua máquina localmente.
ollama pull
ollama pull mistral
Esse comando você baixa o modelo sem abrir o chat. Útil quando você quer preparar o ambiente antes de usar, ou simplesmente baixar vários modelos de uma vez sem interagir com nenhum deles no momento.
ollama list
Lista todos os modelos que você já tem instalados na sua máquina. Mostra o nome, o ID, o tamanho e quando foi baixado. Bom pra não perder o controle do que tá ocupando espaço no seu SSD.
ollama rm
ollama rm mistral
Remove um modelo instalado. Se você testou um modelo e não gostou ou só quer liberar espaço, esse é o comando.

Modelos

O Ollama tem um repositório próprio em ollama.com/library onde você encontra todos os modelos disponíveis. Lá você filtra por categoria, vê o tamanho e já pega o comando pra baixar.
Alguns dos mais usados pra você testar:
Modelo
Uso ideal
llama3
Propósito geral, ótimo ponto de partida
mistral
Rápido e eficiente, boa escrita
codellama
Focado em programação
phi3
Compacto, bom pra hardware limitado
llava
Texto + análise de imagens
Pra baixar qualquer um deles, é só usar o ollama pull ou o ollama run com o nome do modelo.

Colocando em Prática

Agora que sabemos o mínimo, vamos do zero ao chat rodando em menos de 5 minutos.

1. Baixando e iniciando o modelo

ollama run llama3
Na primeira vez, ele vai baixar o modelo — são cerca de 4.7 GB, então vai depender da sua internet. Você vai ver algo assim:
pulling manifest pulling 6a0746a1ec1a... 100% ▕████████████████▏ 4.7 GB verifying sha256 digest writing manifest success >>> Send a message (/? for help)
Pronto. Você já está dentro do chat. ✅

2. Conversando no terminal

>>> Olá! O que você consegue fazer? Olá! Posso te ajudar com diversas tarefas: responder perguntas, explicar conceitos, escrever textos, revisar código, fazer resumos, traduzir conteúdo e muito mais. Como posso te ajudar hoje? >>> /bye
Pra sair do chat, é só digitar /bye.
3. Fazendo uma pergunta rápida sem abrir o chat
Se você não quer entrar no modo interativo, dá pra passar a pergunta direto no comando:
ollama run llama3 "Me explica o que é uma API em uma frase"
Uma API é uma interface que permite que dois sistemas se comuniquem e troquem informações de forma padronizada.
Simples assim. Uma linha, uma resposta. ⚡

Isso é tudo que você precisa pra começar. Uma LLM rodando localmentesem contasem assinaturasem dados indo pra nenhum servidor. Só você e o modelo local, legal né?
A partir daqui, o limite é a sua criatividade. 🚀

Próximos passos: Integração com APIs

Você saiu do zero e já tem uma LLM rodando offline. Mas o Ollama brilha de verdade quando você usa a API local para automatizar tarefas em seus próprios sistemas.
Se você quer aprender a construir ferramentas reais em cima desses modelos, vale muito a pena conferir o nosso curso de FastAPI. Lá, temos um módulo dedicado a mostrar como integrar o Ollama via API, construindo aplicações inteligentes com código limpo e organizado.
Bora codar o futuro! Foguete não tem ré! 🚀💜

Conheça o Rocketseat Para Empresas

Oferecemos soluções personalizadas para empresas de todos os portes.

Filipe Santana de Oliveira

Filipe Santana de Oliveira

Imagem contendo uma carta e um símbolo de check
NewsletterReceba conteúdos inéditos e novidades gratuitamente