Home Work Tutorials Blog Lab

Integrando Nutch 2.x, MySQL e Solr

Esse post é uma tradução do post: http://www.kinoshita.eti.br/2012/09/14/integrating-nutch-2-x-mysql-and-solr/

No momento estamos trabalhando em um projeto usando Apache Nutch 2.x, Apache Hadoop, Apache Solr 4 e um monte de outras ferramentas/módulos/API’s/etc legais. Depois de seguir as instruções encontradas em http://nlp.solutions.asia/?p=180, consegui conectar Apache Nutch, MySQL e Apache Solr.

mysql_hadoop_solr_nutch

Resumindo:

Criar um banco de dados para guardar seus dados
Usar SQLDataStore e adicionar a configuração para seu servidor MySQL
Atualizar a configuração do Apache Nutch
Atualizar o esquema Solr

Agora nosso Apache Nutch usa MySQL como data store (o local onde se armazena o resultados do processo de crawling, como a URL, conteúdo, texto, metadata, e assim por diante). Isso é ótimo, mas há mais um passo faltando no esquema Solr disponibilizado no post do blog.

Devido ao bug SOLR-3432, depois de seguir o tutorial e substituir o esquema original, você não conseguirá deletar todo o índice. Depois de seguir as instruções nos comentários do bug, e adicionar a seguinte entrada no arquivo schema.xml isso voltou a funcionar.

<field name="version" type="long" indexed="true" stored="true"/>

Reinicie o Apache Solr e execute o seguinte comando e o seu índice estará reiniciado.

curl http://localhost:8983/solr/collection1/update?commit=true -H "Content-Type: text/xml" --data-binary ":"

Espero que ajude se você estiver criando um ambiente semelhante.

Até mais! -B

About Contact Us

GitHub Twitter FaceBook YouTube

Before projects are incubated in TupiLabs, we implement small proof of concepts in our lab. You can check out what we are working on, and help us to make it better by telling us what you think.

Integrando Nutch 2.x, MySQL e Solr

Resources

Follow Us

Check out our lab!