Data Mining para Noobs

segunda-feira, 1 de junho de 2015

Neuroevolução

Em posts anteriores vimos que uma rede neural é capaz de responder problemas onde se busca aprender uma resposta que é conhecida. Para isso, a rede é treinada com um algoritmo como o BackPropagation, por exemplo, comparando os resultados esperados com os resultados obtidos e assim fazendo um ajuste incremental. Mas e se a resposta não for conhecida? E se o desafio for descobrir uma forma de resolver um problema? Neste caso, para treinar a rede, ao invés do BP poderíamos usar um algoritmo genético. Algoritmos genéticos também foram discutidos em um post anterior, e neste vimos que eles buscam encontrar uma solução ótima para um problema, criando e aplicando um ambiente de seleção evolutiva. Considerando tudo isso: e se nós usássemos um algoritmo genético para encontrar o conjunto de pesos ideal da rede? É exatamente isso que a neuroevolução faz!

Neuroevolução é um método de aprendizado de máquina que treina redes neurais artificiais através de algoritmos evolutivos, como algoritmos genéticos, e que tem sido muito aplicado em jogos eletrônicos. Algoritmos evolutivos tratam o problema do aprendizado como uma tarefa de otimização, onde podemos definir uma medida de sucesso, chamada fitness, para ser maximizada ou minimizada, tentando alcançar o melhor resultado possível em um tempo experimental a se determinar. Desta forma, os conjuntos de pesos e símbolos que configuram a população de soluções são representados por genomas, onde cada gene pode representar um peso.

Os genomas passam pelo processo de seleção, cruzamento e mutação por diversas gerações, sendo selecionados pelo seu fitness. O fitness de cada genoma (genótipo) é calculado através da performance de sua rede neural (fenótipos) em resolver o problema proposto (se adaptar) usando os pesos de seu genoma.

A neuroevolução pode ser implementada do modo simples, evoluindo apenas os pesos das conexões, mas também pode ser implementada de forma completa, evoluindo a topologia da rede inteiramente (neurônios e conexões).
Existe um conceituado método de neuroevolução chamado Neuro Evolution of Augmenting Topologies (NEAT). NEAT aumenta o tamanho dos genomas de modo incremental. Quando uma rede neural sofre alguma mutação, esta tende a sobreviver apenas se essa mutação trouxer algum benefício significante para o fitness da rede (genoma do jogador), evitando dessa forma neurônios e conexões inapropriadas que não têm utilidade, assim evitando "trabalho manual" humano em experimentar diferentes topologias. Isso comumente permite encontrar soluções melhores que as dos algoritmos que evoluem somente os pesos.

Através da neuroevolução é possível não apenas resolver os mesmos problemas de antes (onde a resposta era conhecida), como ainda desenvolver controladores inteligentes que aprendem a interagir com um determinado ambiente de forma apropriada.

Abraços miningnoobs!

sábado, 16 de maio de 2015

Algoritmos Genéticos

Um algoritmo genético é um método evolutivo de aprendizado de máquina que se baseia nos princípios da seleção natural observados por Darwin, para descobrir soluções ótimas (ou que tentam se aproximar do ótimo) em problemas diversos.

As soluções (inicialmente aleatórias) são tratadas como uma população de indivíduos (genomas) que lutam para sobreviver e evoluem ao longo de muitas gerações. A solução buscada é tratada como um problema de otimização, onde a cada iteração do processo de evolução, a população de soluções se aproxima da solução ótima.
As soluções geralmente são representadas por um conjunto de variáveis (genes), normalmente um conjunto de números.

A primeira geração é formada por soluções aleatórias. Daí em diante, por N gerações repete-se o seguinte processo:

- cruzamento: as soluções são combinadas de alguma forma representando o processo de reprodução, recebendo assim uma porção das características (valores de variáveis) do pai, e uma outra porção da mãe.
- mutação: os valores das variáveis sofrem uma leve (ou média) perturbação, simulando o processo de "erro de cópia" genética e assim inserindo diversidade.
- seleção: uma parte das soluções é jogada fora, e a outra é selecionada para "viver" a partir de sua medida de performance (fitness), de modo que quanto maior o fitness, maior probabilidade de uma solução sobreviver, uma vez que significa que se adaptou melhor em cumprir seu objetivo (encontrar a solução ótima).

O fitness é a medida que define o conceito de sucesso da solução buscada. Representa o conceito máximo de sobrevivência, e considerando que a sobrevivência depende de um conjunto de fatores (correlacionados ou não) este deve ser medido por uma equação que leve em consideração todos os fatores de sucesso. Essa equação deve ser definida de acordo com o problema inerente à solução buscada. Por exemplo, se o algoritmo está sendo aplicado em um jogo onde tomar um tiro significa morrer, o fitness deve ser marcado com valor baixo neste tipo de situação onde se morre. No ambiente natural, muitas vezes os fatores determinantes estão associadas à obtenção de alimentos, condições de proteção e capacidade de ataque. Em jogos que simulam ambientes naturais os problemas podem ser os mesmos. Todavia, com a mesma lógica pode-se resolver problemas diversos como problemas de minimização de rotas, redução de custos, ou até mesmo modelagem preditiva (discutido em posts anteriores).

Ao final do processo, o melhor indivíduo (melhor fitness) de todas as gerações é selecionado como solução final, pois é o que mais se aproxima do ótimo, para o problema analisado.

Abraços mining noobs!

sexta-feira, 15 de maio de 2015

Aumentando o poder preditivo de variáveis

O processo de modelagem vai muito além de aplicar os algoritmos nos dados. Há transformações que podem ser importantes de serem feitas nas variáveis, que vão muito além do âmbito do ETL comum.
Estas transformações às vezes são chamadas de ETL de segundo nível.
Tais transformações são feitas baseando-se em análises estatísticas e ainda em regras de negócio.
No primeiro post, vimos que modelar pode ser comparado com o processo de aprendizado, onde é necessário abstrair características macro dos indivíduos alvo de análise. Esse processo de abstração, pode ser feito, em partes, através da transformação de variáveis antes da seleção de quais vão ou não vão para o modelo.

Quando estamos modelando, pegamos todos os dados que temos disponíveis e testamos (com testes estatísticos) se eles são significantes (discriminantes, correlacionados) para o evento que estamos medindo. Quando uma variável se mostra pouco ou nada importante, nós não mantemos ela no conjunto de dados que será avaliado pelo algoritmo.

O curioso é que: há variáveis que se mostram irrelevantes em sua forma natural, mas após determinados tratamentos (abstrações) podem passar a ser discriminantes.
Isso é importante, pois ajuda a aumentar cada vez mais o poder preditivo do modelo com os recursos (dados) que temos disponíveis (que mutias vezes não são muitos).

Vamos ver alguns exemplos de tratamento que podem aumentar o poder preditivo de uma variável:

Tratamento de missings

Este é um tratamento básico. Imaginemos uma variável que mede o peso de uma pessoa, e consideremos que há uma parte dos indivíduos da nossa amostra com essa variável sem preencher (vazio ou missing). Se essa proporção for pequena, por exemplo, 5%, podemos substituir o valor missing por um valor médio, ou até fazer um outro modelo unicamente para estimar esses valores. É importante pensar se, do ponto de vista do negócio (e quando eu digo negócio, não me refiro só a business, mas à área de conhecimento envolvida) é razoável tratar esse tipo de ocorrência de missing desta forma.
Agora, se o número de casos for muito grande, pode não valer a pena usar a variável, e já descartá-la de cara.
Quanto mais completos os dados estiverem, mais o modelo terá insumos para entender os perfis que se propõe a classificar.

Tratamento de outliers

Outliers são valores fora do comum. Exemplo: em uma variável que mede a altura de uma pessoa, o valor (em centímetros) 400 seria um outlier.
Esses valores podem ocorrer devido a erros nos dados, ou ainda simplesmente porque realmente existem casos raros. O problema é que mesmo esses casos raros existindo, é complicado para o modelo abrir esse tipo de "exceção". Para facilitar o trabalho, e não confundir o algoritmo, é interessante tratar esses valores com algo como, por exemplo, o valor da média mais o desvio padrão para máximo ou mínimo. desta forma, aquele indivíduo ainda será tratado com a mesma magnitude em termos do valor, mas não será um "desconhecido confuso" para o modelo.

Transformações diversas

Transformações como log de diversas bases, raiz, inverso etc, muitas vezes podem deixar as variáveis "melhores" por tentarem algum tipo de suavização da série de dados (em relação a sua distribuição).

Transformações referentes ao tema

Muitas vezes uma ou até mesmo um conjunto de variáveis não tem muito significado se referente a dados brutos em certas situações inerente ao tema que está sendo tratado. Ex: uma data pode não significar nada, e duas datas tão pouco, sendo três então pior. Porém algum cálculo de distância entre duas delas, sendo maior ou menor do que o dia da terceira data, pode resultar numa variável que tem muito poder explicativo. Isso porque traduz a observação de três eventos que antes não tinham significado, em algo que uma fonte externa já sabe a priori. Ex: em negócios, uma regra de negócio; em medicina, algo sobre o funcionamento do corpo humano.

Discretização

Alguns algoritmos dependem de que existam relações lineares entre as variáveis explicativas e a variável resposta de um modelo. Entretanto, isso muitas vezes não reflete a realidade, e somente porque uma relação não é linear, não significa que a correlaçõ não existe.
Uma forma de contornar isso é a discretização de variáveis. Neste caso, variáveis contínuas seriam quebradas em categorias. As quebras podem ser feitas usando testes estatísticos que mostram o ponto de corte ótimo, via análise visual ou até mesmo utilizando pontos clássicos como percentis. Ex.: a variável quantitativa idade poderia ser transformada em uma variável categórica com faixas de idade.

Mesclagem

Muitas vezes uma variável categórica pode ter seu poder preditivo aumentado através da junção de categorias das variável. Isso pode ocorrer porque considerando as categorias individuais não existem padrões, mas juntando algumas, é possível encontrar tendências que antes estavam distribuídas.
Para juntar categorias podemos observar as taxas de casos positivos relativa (odds) e mesclar em uma única categoria as categorias que tiverem taxas similares.

Abraços minning noobs!

segunda-feira, 4 de maio de 2015

Inteligência artificial

No primeiro post, "O que é data mining" vimos que data mining é um processo composto por diversas etapas (onde uma destas é aplicar algoritmos complexos em massas de dados) cuja matéria prima são dados e cujo propósito é criar algum tipo de inteligência que vá interagir com estes dados.

Quando falamos de inteligência, estamos dizendo que o "sujeito" deve ter condições de aprender, ou seja, passar por uma determinada experiência e ser capaz de em próximas situações similares, generalizar as mesmas conclusões (decisões) sobre o desfecho da situação. Se "isso" ocorre com A, e B é bastante parecido com B, logo isso deve ocorrer com B com certa probabilidade razoável.

Dito isso, vamos considerar: o processo de criação de inteligência pode ser feito de diversas formas.

A forma mais elementar e clássica é a estatística. A estatística se preocupa em "medir para poder estimar", sendo uma ferramenta que mede a realidade para perceber nesta padrões e significância, uma vez que aprender (que é o que buscamos) depende justamente de como percebemos os padrões de comportamento da realidade (quando esses existem). Diversos algoritmos estatísticos são aplicados para resolver problemas de inúmeras áreas do conhecimento a cada ano. Exemplos seriam: regressão logística para diagnosticar doenças ou séries temporais para prever vendas de uma marca etc. Modelos estatísticos estão ligados a testes de hipóteses. Testes de hipóteses tratam de situações do tipo: eu moro num bairro X e saio de casa apenas para comprar pão uma vez por dia às 6 da tarde, e eu tenho a impressão de que vejo mais pessoas de roupa social do que pessoas com roupa esporte...mas será que essa maioria que percebo de fato reflete a realidade? ou será que eu apenas tenho essa percepção porque eu saio de casa em horários de hush onde as pessoas estão voltando do trabalho? Para evitar este tipo de viés, é importante medir aleatoriamente parte (ou todos) dos casos, para poder concluir se esta "impressão" tem de fato algum significado.
Porém há outras formas de fazer inteligência. Há muitos algoritmos de aprendizado de máquina que revolvem os mesmos problemas que citamos acima resolvidos pela estatística. Os algoritmos de aprendizado de máquina tentam aplicar algum conjunto de regras que em geral se apoiam em conceitos matemáticos para aprender determinada coisa, seja esta descobrir um padrão, fazer uma previsão, tomar uma decisão etc.

Tudo o que faz o "indivíduo pensante" interagir com algum meio, e com ele perceber algo, é uma forma de inteligência, e isso se parece muito com o processo que faz de nós também algoritmos ambulantes. Embora sejamos como humanidade, o que há de melhor no "mercado de redes neurais", nosso cérebro enfrenta alguns problemas. As vezes tenta ser tão "espertinho" que na busca por novos padrões, ou na tentativa de economizar energia ele "deduz algumas coisas antes de analisar", como um auto complete que às eventualmente escreve coisas absurdas. O cérebro também quer economizar recursos e pegar atalhos, e no final das contas, ficamos sujeitos a muita subjetividade. Porém, quando aplicamos os mesmos conceitos num ambiente onde o erro é medido e controlado, resolvemos problemas que humanos não conseguem em geral com tanta assertividade. E isso tende a se estender para todos os tipos de conteúdos a serem processados, ou seja, todos os tipos de interações existentes atualmente. O que se faz com IA hoje ainda engatinha, mas não há porque pensar que existe qualquer tipo de "limite" pra isso, uma vez que o conceito de aprender em si está provado artificialmente. Por que seria possível aprender alguns padrões e outros não? Se é possível hoje, muito facilmente, um algoritmo aprender a identificar a emoção contida numa expressão facial, por que seria absurdo pensar que este mesmo algoritmo incrementadíssimo pudesse aprender o "inteligência" do processo neural que é o amor? Essa ilusão de que há "um QUE de especial na humanidade" só tende a cair cada vez mais por terra, a cada pesquisa que é publicada na comunidade de IA e áreas correlatas. Até que se prove o contrário, tudo que pensamos, lembramos e sentimos se resume a um conjunto complexo de conexões neurais, elementos químicos sendo estimulados por impulsos elétricos.

Opiniões à parte, a comunidade acadêmica têm feito sua cria à sua imagem e semelhança (pois nada faria mais sentido que isso a princípio!). Um dos modelos mais famosos de inteligência artificial são as Redes Neurais Artificiais (sobre as quais falamos em um post anterior). E estas, nada mais são do que um modelo matemático bastante simplificado referente ao que se conhece atualmente sobre a dinâmica de funcionamento do cérebro. Basicamente tenta-se simular o processo das sinapses, representando os neurônios e suas conexões como um grafo orientado onde os vértices são os neurônios e as arestas são as ligações entre eles, que permitem a sinapse cuja força se define pelo peso da aresta. Modelos de redes neurais são incríveis, pois são capazes de prever tanto variareis quantitativas quanto qualitativas, e ainda ter N saídas (N decisões a tomar) sendo analisadas simultaneamente.

Há ainda outras formas de inspiração que vem sendo aplicadas, como a bio inspiração, onde baseado em comportamentos da natureza, podemos abstrair um processo inteligente. Exemplos: o organização das formigas, dos pássaros, e até fungos!
Dentre os algoritmos bio inspirados estão os Algoritmos Genéticos, que se baseiam nas observações evolucionistas de Darwin, onde soluções (indivíduos compostos por um conjunto de valores numéricos que representam genes de um DNA) "lutam" pra sobreviver, onde a medida de sucesso é realizar uma determinada tarefa, como prever por exemplo, onde essa tarefa é decidida por esse conjunto de valores (DNA).
Desta forma, diversos artigos mostram empiricamente que a teoria da evolução de sustenta, em termos de método pelo menos. Ou seja, é possível do aleatório convergir para o sucesso, seja lá o que o sucesso for, somente pela seleção natural (ou artificial =D). O que importa é haver um ambiente de competição, onde há morte e reprodução. Onde houver morte e reprodução... comprtição haverá inteligência, mesmo que esta seja uma inteligência "codificada na composição" do indivíduo.

Ironias à parte, é importante termos em mente que não importa se estamos usando estatística, aprendizado de máquina ou qualquer coisa, o que importa é que data mining usa diversas ferramentas com o objetivo de criar algum tipo de inteligência (artificial) a partir dos dados, para interagir com estes de alguma forma que faça sentido, obtendo assim algum conhecimento.

Abraços miningnoobs!

segunda-feira, 21 de julho de 2014

Redes neurais artificiais

No post Tipos clássicos de modelos, comentamos sobre alguns tipos como: Modelo de propensão e Modelo de estimação.
Sendo o primeiro para classificar indivíduos/itens em categorias, atribuindo uma probabilidade para essa classificação; e o segundo para estimar um valor quantitativo de algo para o indivíduo/item.

Exemplos de modelo de propensão: classificar uma pessoa como portadora ou não de uma determinada doença; classificar uma pessoa como possível não pagadora de seu aluguel; classificar uma foto de um rosto em relação ao sentimento que o rosto expressa.

Exemplos de modelo de estimação: estimar a taxa de glicose de uma pessoa; estimar o valor de um imóvel; estimar o gasto de um cartão de crédito.

"Redes neurais artificiais" é um modelo computacional de aprendizado de máquina que pode ser usado tanto como modelo de propensão (para múltiplas categorias), quanto para modelo de estimação (fora outras inúmeras aplicações para criação de inteligência).

Uma rede neural tenta simular o processo de aprendizado feito pelo cérebro, que é formado por bilhões de células especiais, chamadas neurônios. A forma como esses neurônios se conectam entre si, caracteriza o pensamento e a memória, e o aprendizado é feito a través dessas conexões.
Como o processo de modelagem nada mais é do que aprender através de uma massa de dados, a ideia da rede neural artificial é simular essa dinâmica para chegar no mesmo tipo aprendizado.

A estrutura topológica clássica das Redes neurais artificias é a Multilayer Perceptron. Esse modelo de rede neural é representado por: entradas que representam as variáveis explicativas, neurônios de camadas intermediárias a fim de reproduzir níveis de relação complexos e a camada de neurônios de saída (que representa a variável resposta).

Essa rede pode ser treinada de várias formas, e o método mais comum é treiná-la através do algoritmo Backpropagation.
Neste, pesos aleatórios são inicialmente atribuídos a cada conexão entre neurônios (variáveis de entrada vs neurônios auxiliares intermediários e neurônios auxiliares intermediários vs variáveis de saída).

A partir dos pesos aleatórios, calculam-se multiplicações e somatórias, de moto que no final, tenha-se um valor próximo ou não de 1 para cada variável de saída. Esse valor, para cada indivíduo/item do conjunto de treinamento é comparado com o valor real. Quanto mais distante estes estiverem (real vs previsto), mais os pesos são ajustados.
Esse processo é feito de forma iterativa até que a diferença média entre o real e o previsto seja razoável.

Redes neurais é um ótimo método de aprendizado de máquina, e que tem sido aplicado a diversas áreas do conhecimento apresentando grande performance.

A desvantagem dele é que, quando há necessidade de interpretar os resultados (motivos) de uma determinada classificação, ele não atende. Isso porque a estrutura de ligações entre neurônios (variáveis) citada anteriormente, é muito complexa e "fechada" e não permite esse tipo de interpretação.

O que mais importa em um modelo de previsão, é o fato de ele prever com assertividade, mas há situações onde se deseja entender as relações entre as variáveis. Desta forma, tudo pode depender da finalidade da aplicação.

Abraços miningnoobs!

Ferramentas de Data Mining

Há muitas ferramentas que permitem fazer Data Mining por aí, incluindo ferramentas livres e proprietárias.

Eventualmente pode surgir a pergunta: qual delas é a melhor? E ainda: o que vale mais a pena...ferramenta livre ou proprietária?

Certamente as respostas para essas perguntas são bem relativas. Vai depender muito da natureza do projeto para o qual você utilizará a ferramenta, assim como o seu perfil como usuário.
Se você é do tipo que gosta mais de programar as coisas "manualmente" algumas ferramentas podem ser mais adequadas que outras, que fornecem apenas programacão visual.
Algumas são mais encapsuladas, não permitindo que você veja ou configure certos detalhes e parâmetros, mas outras são mais completas e totalmente abertas, pois são para usuários mais avançados.

Em relação a software livre, não se preocupe, pois há ferramentas de data mining livre que são tão boas quanto ou ainda melhores que algumas proprietárias.

Para usuários pessoa física, em geral vale mais a pena ficar com o software livre mesmo. As comunidades das ferramentas costumam ser bem fortes, há documentação oficial, e ainda sempre tem fóruns diversos de perguntas e respostas. É muito fácil achar a resposta pra sua pergunta, a ainda ver exemplos prontos daquilo que você quer fazer.

Já para empresas, às vezes é mais seguro comprar um software proprietário. Isso por causa do suporte oferecido pela desenvolvedora após a compra. Uma empresa não pode contar com a dúvida do: "talvez eu ache a solução disso na internet (mesmo sendo bem provável que ache mesmo)", pois há dinheiro e clientes envolvidos. Então, é necessário ter uma outra empresa de quem você possa cobrar uma solucão.
Por outro lado, a quantidade de materiais e informação disponível na internet para essas ferramentas já não é tão grande, afinal, pelo software ser proprietário, o público fica mais restrito.

Algumas ferramentas livres:

Python: linguagem de programação usada para diversas finalidades. Dentre suas inúmeras bibliotecas estão: Scikit Learn - com vários algoritmos de aprendizado de máquina e estatística, assim como outras funcionalidades para modelagem; Scipy - com várias funcionalidades matemáticas e estatísticas. Além dessas bibliotecas específicas, o Python tem várias funcionalidades que podem ser usadas para tratar os dados no processo de modelagem.

R: linguagem de programação para matemática e estatística. Possivelmente uma das mais completas, contando com muitíssimas bibliotecas. Permite também tratamento de dados.

Algumas ferramentas proprietárias:

SPSS Statistics: ferramenta com diversos algoritmos, testes estatísticos, gráficos de análise, tratamento de dados etc. Possui uma linguagem de programação própria, mas todas as funcionalidades podem ser aplicadas através de menus.

SPSS Modeler: ferramenta com diversos algoritmos, gráficos de análise, tratamento de dados etc. Funciona com programação visual, onde você clica e arrasta em nós que representam funcionalidades, conectando-os entre si, de modo a formar um fluxo de funcionalidades. Possui ainda uma série de automatizações, tanto na parte de tratamento de dados como na parte de aplicacão de algoritmos.

SAS: ferramenta com diversos algoritmos, testes estatístios, gráficos de análise, tratamento de dados etc. Possui uma linguagem de programacão própria, mas todas as funcionalidades podem ser aplicadas através de menus.

Há ainda outras ferramentas como MatLab, Estatística, K-nime, Weka etc.

Abraços miningnoobs!

sexta-feira, 20 de junho de 2014

Tutorial – criando um jogo de plataforma demo com Pygame e Tiled

Desviando só um pouquinho do tema deste blog, gostaria de compartilhar este tutorial que montei.

1 - Introdução

Pygame é uma biblioteca da linguagem Python para desenvolvimento de games.

O download desta pode ser feito em: http://www.pygame.org/download.shtml

Neste tutorial, vamos utilizá-la para criar um jogo de plataforma básico (demo).

Além disso, vamos utilizar para a criação do mapa da tela, o software Tiled, e uma lib para manipular o arquivo do mapa criado por este.

O download do Tiled pode ser feito em: http://www.mapeditor.org

O arquivo do mapa gerado pelo Tiled, é um xml com uma extensão chamada tmx.

Existem algumas bibliotecas que foram criadas para manipular este tipo arquivo, e neste caso, escolhemos trabalhar com a biblioteca do Richard Jones. Para isso podemos baixar o arquivo tmx.py do link: https://github.com/renfredxh/tmx

Baixe e instale o Pygame e o Tiled. Após isto, crie um diretório chamado “demo“ e coloque dentro dele o arquivo tmx.py.

2 – Criação do mapa da tela

Abra a linha de comando do Linux e digite tiled para abrir o Tiled. Crie um novo arquivo e salve-o no diretório “demo”.

O Tiled possui dois tipos de camadas:

Camadas de tiles

Onde é desenhado o cenário do mapa através de imagens.

Por padrão, o mapa já virá com uma camada de tiles criada. Para adicionar imagens nesta camada, clique no menu Mapa > Novo Tileset e selecione a imagem desejada. Isso deve ser feito para cada imagem.

As imagens carregadas ficarão disponíveis na lista de tilesets à direita da tela. Ao clicar em uma imagem após carregada, você vai perceber que se passar o mouse em cima do mapa, ela estará disponível para ser carimbada nele conforme seus cliques. Além disso, você não precisa carimbar a imagem inteira. Você pode escolher quais tiles (pedacinhos) da imagem você quer selecionar.

Carregue as imagens desejadas e desenhe todo o mapa da tela do seu jogo.

Camada de objetos

Onde são adicionados os objetos que ocupam espaço físico ou representam triggers no mapa. Esta camada normalmente deve ficar invisível (para isso, basta desmarcar o checkbox dela).

Para criar uma camada de objetos, clique no menu Camada > Adicionar camada de objetos, e renomeie a camada criada como “triggers”.

A camada de objetos é onde você define paredes, chão, teto, plataformas, indivíduos, itens etc.

Se você quer criar, por exemplo, uma parede lateral, você deve desenhá-la na camada de tiles, e na camada de abjetos adicionar um retângulo sobre ela.

Ou seja, o desenho em si não representará nada para o pygame a não ser uma imagem a ser renderizada, de modo que somente os objetos (alinhados com a imagem) poderão interagir com o código.

Os objetos dessa camada serão enxergados e manipulados pela biblioteca tmx.

Através do botão Inserir Objeto (O) no menu principal do topo, crie os objetos retangulares desejados que representem as paredes, teto, chão e plataformas do seu jogo. Clique com o botão direito em cada objeto, selecione Propriedades do objeto e insira uma nova propriedade com nome “blockers” e valor “tlrb”.

Além dos objetos retangulares, você pode inserir ainda objetos carregados a partir de imagens externas. Isso serve para representar os personagens e itens da tela.

Todavia, não vamos carregar ainda a imagem diretamente no mapa. Vamos carregar uma imagem auxiliar onde cada quadradinho da imagem seja aproximadamente do tamanho de um tile (32x32 px).

Ex.:

Esses quadradinhos, de quantidade a definir, devem representar cada tipo de item, personagem ou trigger da tela.

Crie uma imagem auxiliar que represente os itens do seu jogo em um editor qualquer e clique em Mapa > Novo Tileset para adicioná-la.
Clique com o botão direito em cada tile do tileset e adicione uma propriedade que nomeie o item representado por cada tile. Ex.: nome “player” e value “yes”.

Clique na flechinha rosa abaixo da caixa de tilesets e exporte esse tileset para o diretório “demo” como .tsx.
Através do botão Inserir Tile (T) no menu principal do topo, coloque no mapa os objetos auxiliares desejados que representem indivíduos, itens ou triggers do seu jogo.

3 - Codificação

Importe as bibliotecas pygame e tmx.
Inicialize o pygame e o joystick:

pygame.init()

pygame.joystick.init()

Crie o objeto que representa a tela (passando como parâmetro o tamanho desta): screen = pygame.display.set_mode((768, 576))

Defina um temporizador Para atualizar os frames da imagem a ser renderizada: clock = pygame.time.Clock()

Carregue o mapa criado no Tiled:

tilemap = tmx.load('map.tmx', screen.get_size())

Sprites são a representação de indivíduos, itens etc no jogo, e devem ser criados para manipular os mesmos.

Ex.1 – criação de um sprite que representa o jogador (como este é apenas um único, deve-se escolher o índice 0 do array):

sprites = tmx.SpriteLayer()

start_cell = tilemap.layers['triggers'].find('player')[0]

player = Player((start_cell.px, start_cell.py), sprites)

tilemap.layers.append(sprites)

Ex.2 – criação do grupo de sprites de inimigos (como são vários, é necessário inserir em um loop) :

enemies = tmx.SpriteLayer()

for enemy in self.tilemap.layers['triggers'].find('enemy'):

Enemy1((enemy.px, enemy.py), enemies)

tilemap.layers.append(enemies)

Podemos notar que: o nome “triggers” que é citado agora, é o mesmo que foi designado no mapa do Tiled para a camada de objetos; o nome passado como parâmetro para a função find, também foi designado no mapa do Tiled como propriedade de cada tile representando um item ou indivíduo; a função find retorna a posição do item no mapa em relação aos eixos x e y;

Crie grupos de sprites para todos os indivíduos e itens do seu jogo na tela do mapa criado. Ex.: player, enemies, bullets, guns, lifes etc.

O jogo precisa ter um loop principal que manterá o jogo rodando e sendo atualizado.

Neste loop, você deve:

- limitar os frames a serem atualizados por segundo: dt = clock.tick(30)

- capturar os eventos gerados no pygame com o sub loop:

for event in pygame.event.get():

# fecha o jogo caso haja clique no “x” da janela

if event.type == pygame.QUIT:

return

- preencher a tela com uma cor solida, de modo a evitar blurring dos itens renderizados:
screen.fill((250,250,250))

- atualizar o objeto do mapa conforme frames: tilemap.update(dt / 1000., self)

- desenhar os itens do objeto do mapa na tela: tilemap.draw(screen)

- atualizar a tela: pygame.display.flip()

- verificar a life do player de modo a tomar a ação adequada caso a life tenha acabado (como por exemplo sair do jogo ou apresentar uma mensagem de game over).

Crie um loop principal para o seu jogo.

Para todos os sprites criados anteriormente, é necessário ter uma classe com as definições dos mesmos.

O objeto tilemap deverá manipular os objetos das classes de cada sprite automaticamente, a partir de algumas funções e atributos padrão.

Ex.1 – Classe de indivíduos/itens

Crie a classe do sprite desejado passando a classe sprite como parâmetro: (pygame.sprite.Sprite).
Carregue a imagem do indivíduo/item no atributo image: image = pygame.image.load('...')

A função principal da classe deve ter o seguinte formato básico:

def __init__(self, location, *groups):

super(NOME, self).__init__(*groups)

O parâmetro “location” se refere à posição inicial do indivíduo/item e o parâmetro “*groups” faz referência ao objeto de sprites localizado na chamada da classe.

A posição do indivíduo deve ser marcada no atributo “rect”.

Para inicializar o atributo de localização do indivíduo/item use:

self.rect = pygame.rect.Rect(location, self.image.get_size())

É necessário ter uma função chamada “update” para atualizar os objetos da classe:

def update(self, dt, game):

Programe o incremento ou decremento do atributo “rect” para mover o indivíduo/item na horizontal, ex.: self.rect.x += 100 * dt

Neste caso o número 100 é o salto e dt é a ponderação pela velocidade de atualização de frames, configurada anteriormente.

Verifique uma possível colisão do objeto atual com outros objetos da seguinte forma:

for cell in game.tilemap.layers['triggers'].collide(self.rect, 'reverse'):

# aqui vão as ações cabíveis em caso de colisão.

No exemplo acima, estamos verificando a colisão do objeto atual com objetos do tipo 'reverse'. Lembrando que esses tipos são definidos nas propriedades do mapa criado no Tiled.

Verifique se o objeto atual colidiu com o player:

if self.rect.colliderect(game.player.rect):

# aqui vão as ações cabíveis em caso de colisão.

Ex.2 – Classe do player

A classe do player deve conter quase as mesmas coisas que a classe do exemplo anterior, pois ele também é um indivíduo/item.

Todavia, haverá provavelmente um conjunto maior de ações e verificações a serem feitas.

Exemplos:

Em descanso: self.resting = False

Velocidade: self.dy = 0

Marcação da life do player.

Leitura do joystick e teclado:

joystick = pygame.joystick.Joystick(0)

joystick.init()

key = pygame.key.get_pressed()

# anda para frente

if key[pygame.K_LEFT] or joystick.get_axis(0)<0:

self.rect.x -= 300 * dt

# anda para trás

if key[pygame.K_RIGHT] or joystick.get_axis(0)>0:

self.rect.x += 300 * dt

# pulo e queda

if self.resting and ( key[pygame.K_SPACE] or int(joystick.get_button(2)) == 1) :

self.dy = -500

self.dy = min(400, self.dy + 40)

self.rect.y += self.dy * dt

Verificação de colisão com “blockers” (chão, parede ou plataformas):

new = self.rect

self.resting = False

for cell in game.tilemap.layers['triggers'].collide(new, 'blockers'):

blockers = cell['blockers']

# limite à direita

if 'l' in blockers and last.right <= cell.left and new.right > cell.left:

new.right = cell.left

# limite à esquerda

if 'r' in blockers and last.left >= cell.right and new.left < cell.right:

new.left = cell.right

# limite do chão

if 't' in blockers and last.bottom <= cell.top and new.bottom > cell.top:

self.resting = True

new.bottom = cell.top

self.dy = 0

# limite do teto

if 'b' in blockers and last.top >= cell.bottom and new.top < cell.bottom:

new.top = cell.bottom

self.dy = 0

É importante forçar que a janela mantenha o foco no player como item central: game.tilemap.set_focus(new.x, new.y)

Crie as classes dos indivíduos e itens do seu jogo.

Um vídeo tutorial de Richard Jones (mais detalhado, porém em inglês) está disponível no link: http://pyvideo.org/video/2620/introduction-to-game-programming

Abraços miningnoobs !