Mineração de Data Sets Massivos | CURSO GRATUITO
A universidade de Stanford está oferecendo o curso Mining Massive Datasets através da eDX.
Sobre o curso
Este curso apresenta sistemas de arquivos distribuídos modernos e MapReduce, incluindo o que distingue bons algoritmos MapReduce de bons algoritmos em geral. O restante do curso é dedicado a algoritmos para extração de modelos e informações de grandes conjuntos de dados. Os participantes aprenderão como o algoritmo PageRank do Google modela a importância das páginas da Web e algumas das muitas extensões que têm sido usadas para diversos fins.
Abordaremos o hashing sensível à localidade, um pouco de mágica que permite encontrar itens semelhantes em um conjunto de itens tão grande que você não consegue comparar cada par. Quando os dados são armazenados como uma matriz muito grande e esparsa, a redução da dimensionalidade costuma ser uma boa maneira de modelar os dados, mas as abordagens padrão não são bem dimensionadas; falaremos sobre abordagens eficientes. Muitos outros algoritmos de grande escala também são abordados, conforme descrito no programa do curso.
O que você aprenderá
- MapReduce
- Análise de links – PageRank
- Hashing sensível à localidade – Noções básicas + aplicativos
- Medidas de distância
- Vizinhos mais próximos
- Conjuntos de itens frequentes
- Mineração de fluxo de dados
- Análise de Grandes Gráficos
- Recomendar Sistemas
- Redução de dimensionalidade
- Agrupamento
- Publicidade Computacional
- Máquinas de vetores de suporte
- Árvores de decisão
- Algoritmos MapReduce
- Mais sobre análise de links – PageRank específico do tópico, spam de links.
- Mais sobre hash sensível à localidade
- Algoritmos de grande escala
Essa foi uma dica da Wilson Sena