O segundo dia do DMC Latam 2014 começou com um dos dias mais frios em São Paulo. Mas dentro do Hotel o clima estava ótimo, e ainda tinha bastante café preto e bem quente. Percebi que o pessoal estava mais a vontade para trocar cartões e puxar assunto na área livre.
Sandy começou a palestra com muito bom humor, e dando uma introdução sobre o volume de dados e transações no McDonald’s, e como eles gerenciam dados, começando pelo MDM, Master Data Cleanup, Data Governance e como estes conceitos e metodologias são aplicados em processos. Sandy também comentou sobre a importância das pessoas para que todo o processo funcione bem.
Ela também mostrou que com automação conseguiram diminuir a margem de erros no processo deles de 18% para próximo de 1%, e que agora eles têm um cluster Hadoop, utilizado para processar transações que ocorrem no McDonald’s em escala mundial.
Explicou que agora estão começando a colocar dados de mídias sociais no cluster deles para experimentar novas análises, e o melhor: mostrou exemplos de queries que eles executam no cluster. Além de um modelo de dados do Hive deles.
“Automate fixes where possible”
Sandy também misturou slides com informações e curiosidades sobre o McDonald’s. Com certeza é uma empresa muito grande, e com casos únicos, e o uso da tecnologia corretamente é algo muito importante para eles.
Ah! A Sandy também trouxe aquelas lembrancinhas do McLanche Feliz :^)
Oliver começou explicando sobre a Serasa Experian, e sobre o time deles (muitos deles presentes no evento). Mostrou também as vantagens de padronizar processos, e como a governança de dados pode apoiar o negócio.
O que achei legal na palestra deles foi que mostraram que quando a área e os processos de governança de dados foram criados, todos estavam muito preocupados em não burocratizar demais nem tornar o processo de decisões na empresa muito devagar, o que contribuiu para o sucesso do projeto.
“O maior risco de errar é não começar”
A palestra gerou bastante perguntas sobre como as ferramentas eram utilizadas no processo e como as pessoas adotavam a metodologia e as ferramentas também.
O André Silveira apresentou sozinho porque a Carla teve um imprevisto. Ele mostrou o que é o Kit Arquitetura TI que eles utilizam na Petrobras. Começando pelo histórico da empresa e depois falando sobre o papel da área de TIC na empresa.
Na sua palestra o André comentou bastante sobre Arquitetura de TI e padrões para arquiteturas de TI e de dados, como TOGAF e o DAMA.
Gostei do Kit de Arquitetura que ele apresentou. Pelo que entendi, era realmente um Kit para explicar a arquitetura de TI para as pessoas, mostrando o que existe em TI em processos. Eles têm até uma ferramenta visualizadora, que mostra como as informações e como os processos se relacionam.
Algo que também não sabia é que a Petrobras é composta por várias empresas, e de vários tipos. Refinaria, transportes, exploração de campos de petróleo e venda de produtos. Há também vários tipos de sistemas, e integração entre estes sistemas. Ele mostrou como o Kit Arquitetura que eles fizeram auxilia pessoas a identificarem em que parte novos dados ou sistemas se encaixam no que já existe na companhia.
Outra palestra diferente. Ontem tivemos uma palestra de um bombeiro, e hoje tivemos um advogado. Recentemente o Marco Civil da Internet foi aprovado no Brasil, e o Doutor Vitor Morais começou sua palestra falando sobre privacidade, redes sociais, armazenamento e acesso a dados.
Em seguida ele listou pontos importantes sobre o Marco Civil e os impactos em negócios e na vida das pessoas. Palestra muito interessante, e com certeza não só para empresas. Eu mesmo aprendi muito sobre o Marco Civil, dados pessoais e como nossas leis foram implementadas e como funciona em alguns outros países. Muitas perguntas no final.
Paulo Oliveira começou a palestra dele falando sobre a Telefônica / Vivo, sua história, posição no Brasil, e o tamanho da empresa e número de usuários. Acho que no ano passado não teve nenhuma palestra de telcos. Esta foi a primeira palestra que vi sobre dados, dada por alguém da área.
Os cadastros da Vivo tinham 3.5 milhões de registros por mês quando começaram com o projeto de limpeza de dados. O case apresentado partiu do diagnóstico, levantamento do desafio do projeto, montagem e qualificação dos dados, garantia da realização do trabalho, segurança e sigilo dos clientes.
Um caso interessante que o Paulo apresentou é que há regiões no país onde novos CEPs ainda estão sendo mapeados pelos Correios. Assim, todos os meses a Vivo pode encontrar casos de clientes que o CEP mudou e correspondências são retornadas e os dados precisam ser atualizados para cobranças, comunicados e vendas.
Penúltima palestra do dia, Embarcadero mostrando que seu foco é mesmo dados. Dormevilly mostrou que agora a empresa está investindo em Big Data, Hive, MongoDB e também falou sobre a aquisição do Erwin pela Embarcadero.
O Paulo Rossi da COAMO mostrou um case com o produto da Embarcadero. A COAMO é uma cooperativa agroindustrial do Paraná, criada há cerca de 44 anos. Este ano o DMC Latam teve várias palestras diferentes, com um bombeiro, advogado e também este caso da COAMO.
Fiquei impressionado pelo tamanho da TI da COAMO, com um ERP com 230 módulos e 23000 programas. BI com 3000 visões, e areas bem estruturadas. Ótimo caso para quem está implementando AD, CDO e processos de dados em empresas.
Última palestra do evento. Mas fechou com chave de ouro! Depois de uma excelente palestra na quarta-feira Laila Moretto retornou pra falar sobre ciência de dados.
“What can we do to the data vs. what can the data do for us”
Novamente utilizando Gartner, Mckinsey, William S. Cleveland, Harvard Business Review e outros ótimos autores e publicações Laila se embasou muito bem para passar os conceitos de ciência de dados.
Dois outros palestrantes no DMC falaram sobre os 3V’s de Big Data (Volume, Velocity, Variety) mas Laila foi a única que usou os 5 Vs, incluindo Veracity e Value, e ainda falou que são todos muito relativos. Foi uma palestra muito interessante, passando por muitos tópicos e deixou todos atentos, mesmo sendo a última palestra.
Laila mostrou que a ciência de dados é um conjunto de diversas disciplinas, e até comparou com curry (sabia que o curry é uma mistura de diferentes temperos?), como data visualization, data computing, data journalism, matemática, estatística, entre outros.
Além de pessoas com qualidades técnicas, Laila reforçou que todos os autores recomendam incluir pessoas que entendem do negócio também. E ainda adicionou que também é importante que a ética seja levada em consideração, visto que alterações em dados podem manipular resultados. Esta última parte combinou muito com a palestra que tivemos hoje mais cedo do Doutor Vitor Morais.
Ela também recomendou muitos sites de projetos Open Source, sites de MOOC e muitos autores pros participantes aprenderem mais a respeito do tópico, como Jeffrey Stanton [PDF].
Este foi o segundo ano que participei do DMC Latam, e adorei o evento deste ano. A área livre foi mais animada, os expositores trouxeram mais brindes este ano também, e café e almoço estavam excelentes. E o mais importante, o conteúdo das palestras foi ótimo e teve profissionais de outras áreas, o que acredito que agregou muito a todos que participaram. Se pudesse gostaria de ter uma coisa apenas ano que vem: mais palestrantes e empresas comentando sobre como utilizam Open Source, e como contribuem com Open Source. Este ano falaram mais sobre Big Data, Data Science, Hadoop, R, etc. E nos Estados Unidos empresas como Cloudera, FaceBook, Twitter, Linkedin e outras investem muito em projetos Open Source com estas tecnologias, algo que não vejo acontecer por aqui.