セミナー情報
APPLICATION SEMINARS
申込受付中のセミナー
SEMINARS
当社主催のセミナー
開催予定のセミナー
現在開催予定のセミナーはありません
過去のセミナー
2021年
「NTTデータ テクノロジーカンファレンス2021」 ~ 未来を創る NTT DATA の確かな技術力 ~
2020年
「NTTデータ テクノロジーカンファレンス2020」 ~ 未来を創る NTT DATA の確かな技術力 ~
2019年
「NTTデータ テクノロジーカンファレンス2019」 ~ 未来を創る NTT DATA の確かな技術力 ~
2018年
「NTTデータ テクノロジーカンファレンス2018 」 DXを支える技術 ~ Hadoop, Spark, ブロックチェーン
2017年
「NTTデータ テクノロジーカンファレンス2017 」 デジタルトランスフォーメーション成功のカギ ~ Hadoop, Spark, ブロックチェーン
2016年
2015年
2012年
2011年
「オープンソース・ソリューションセミナー」
Hadoop の有効な利用方法や活用事例、NTTデータにおける Hadoop への技術開発についてご紹介いたします。
「Hadoopエンタープライズソリューションセミナー」
NTTデータやClouderaが培ったノウハウや事例をもとに企業システムにおけるHadoopの活用シーンや事例についてご紹介します。
SEMINARS
外部主催セミナー
企業システムにおけるHadoopエコシステムの活用シーンや事例、システムを運用・構築する際のテクニカルな話題などさまざまな情報発信を行っています。ユーザー会などコミュニティでの活動もご紹介します。
開催予定のセミナー
現在開催予定のセミナーはありません
過去のセミナー
2021年
「Open Developers Conference 2021 Online」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「Apache Bigtopによるオープンなビッグデータ処理基盤の構築」時 間 10:00-10:45
NTTデータ 岩崎 正剛、関 堅吾
Apache Hadoopによる大規模データ処理では、ScalaやJava,Python,R,SQLといった言語で柔軟かつ高度なデータ処理を可能にするSparkや、Hadoopの分散ファイルシステム上で動く分散KVSに相当するHBase、データローダやジョブスケジューラなど、様々な周辺ミドルウェアを組み合わせて利用します。本講演では、これらのHadoopエコシステムと呼ばれる製品群のパッケージングを提供するApache Bigtopの取り組みについて、近日リリース予定の最新バージョンであるBigtop 3.0でのアップデートを含めてご紹介します。
「Open Source Conference 2021 Online Kyoto」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「Java 17直前!オレ流OpenJDK「の」開発環境」時 間 14:00-14:45
NTTデータ 末永 恭正
Javaの製品ライフサイクルが変わり、数年が経ちました。今年の9月には本番環境導入への本命となる長期サポート(LTS)版に位置付けられるJDK 17のリリースが控えています。一方で、半年ごとにJavaのメジャーリリースが登場することに戸惑っていらっしゃる方も多いことでしょう。中には「もう自分でOpenJDKを作っちゃいたい!」と思われる方もいらっしゃるかもしれません。 そんな方に向けて、OpenJDKの開発コミュニティのReviewerがOpenJDKを作る際の環境構築やビルドのコツをお伝えします。これであなたもOpenJDKディストリビューターの仲間入りです!
「大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2021 Online/Kyotoエディション -」
時 間 15:00-15:45
NTTデータ 猿田 浩輔
Apache Sparkは、多数の計算リソースを用いることで大量のデータを高速に処理することを可能にするOSSです。ScalaやJavaだけでなく、データ分析で利用されることの多いPythonやSQLなどでロジックを組み立てることができ、汎用的なデータ処理から機械学習、ストリーム処理など様々な分野で活用されています。 本セッションでは、Apache Sparkの基本から昨今の動向をご紹介し、開発コミュニティへの参加の仕方についても触れます。
「日本ソフトウェア科学会 機械学習工学研究会(MLSE)夏合宿2021」
■開催概要
■討論・相談会の主旨(引用)
本番適用のためのインフラと運用に関して討論・相談会を開きます。 参加者各位の経験や考察に基づく意見を交わすことで当該領域の理解を深め、最終的に世の中共通的に利用できる知見を編み出すことを目指します。オーガナイザが事前抽出したトピックから参加者が選択する討論と、あらかじめ募集した「本番適用のためのインフラと運用に関係する相談事」について互いにアイデアを出し合って解決策を模索する相談の場を設けます。
■議事メモ
「Open Source Conference 2021 Online Hokkaido」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~」時 間 10:00-10:45
NTTデータ 吉田 貴哉
OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、ストレージレイヤSWの変遷とそれぞれの特徴についてお伝えします。
「押さえておきたい、PostgreSQL 13 の新機能!」
時 間 14:00-14:45
NTTデータ 藤井 雅雄
PostgreSQL の最新メジャーバージョン 13 は、約170個の新機能や変更点をサポートしており、 PostgreSQL の性能・機能・運用を着実に改善しているバージョンです。 本講演では、例えば以下のような、バージョン 13 でぜひ押さえておきたい新機能について PostgreSQL コミッタが解説します! ・継続的なパフォーマンス向上 (B-tree インデックスの重複エントリ排除機能など) ・アプリケーション開発の利便性 (文字列の正規化機能など) ・管理の最適化 (バックアップの整合性チェック機能など)
「第24回 PostgreSQLアンカンファレンス@オンライン」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「PostgreSQL 14 モニタリング新機能紹介」時 間 19:55-20:05
NTTデータ 鳥越 淳
「Open Source Conference 2021 Online Nagoya」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージSW入門~」時 間 13:00-13:45
NTTデータ 安河内 静
OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、ストレージSWの変遷とそれぞれの特徴についてお伝えします。
「GraalVM の多言語実行機能が凄そうだったので試しに Apache Spark に組み込んで動かしてみたけどちょっとまだ早かったかもしれない」
時 間 14:00-14:45
NTTデータ 刈谷 満
Java 仮想マシンである GraalVM には Polyglot と呼ばれる多言語実行機能があり、まだ実験的段階ではあるものの GraalPython という Python インタプリタも存在します。 一方、並列分散処理フレームワークである Apache Spark は Scala/Java で作られていますが、ユーザコードを Python で記述することができる PySpark と呼ばれる機能があります。 と言うことは、PySpark を GraalPython で動かしたらパフォーマンス良くなったりするのでは… 本セッションでは、GraalVM の多言語実行機能 Polyglot と GraalPython の概要について、Spark に GraalPython を組み込んでみた時の話を交えながら紹介します。
2020年
Open Source Summit Japan
■開催概要
NTTデータの土橋、福久、梅森がOpen Source Summit Japan。
■カンファレンスの主旨(引用)
Open Source Summit Japanは、オープンソースのエコシステムをひとつ屋根の下に集めます。 テクノロジーを牽引する開発者、システム管理者、DevOps、アーキテクトなどのクロスコラボレーションをめざすユニークなイベントです
■土橋、福久の講演
Thursday, December 3 • 10:45 - 11:35「History and Evolution of Data Lake Architecture - Post Lambda Architecture」
■土橋、梅森の講演
Thursday, December 3 • 13:10 - 14:00MLSE 「機械学習基盤 本番適用と運用の事例・知見共有会」
■開催概要
NTTデータの土橋がArm Treasure Dataの有賀氏と共同幹事を務めるワーキンググループ主催で、機械学習工学に関するカンファレンスを開催します。
■カンファレンスの主旨(引用)
機械学習システムを本番適用するためには、様々な自明ではない課題をクリアし各自工夫を凝らしてきているかと思います。 本カンファレンスでは、皆様が実際に関わってきたシステムの構築の中で得られた知見を共有し、 一つでも多くの機械学習システムの課題意識やベスト/ベタープラクティスを互いに取り入れることで、個々を超えた知見の創出を狙えたらと思い開催します。
■セッション一覧
「Open Source Conference 2020 Online/Hokkaido」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka入門~」時 間 11:00am-11:45am
NTTデータ 酒井 遼平
OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話しつつ、世の中における活用事例や、 大規模並列分散処理基盤を使いこなすためのポイントについてもご紹介します。
2019年
「Strata Data Conference New York 2019」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
【4日目】「Deep Learning Technologies for Giant Hogweed Eradication」時 間 4:35pm-5:15pm
NTTデータ OSSプロフェッショナルサービス 土橋 昌, 梅森 直人
Giant Hogweed is a highly toxic plant originating in the Western Caucasus. It has spread across Central and Western Europe and there are sightings of Giant Hogweed reported from North America, too. Landowners are obliged to eradicate it, due to its toxicity and invasive nature in Europe. However, it is difficult for landowners to find and remove Giant Hogweed across large areas of land since it is a very cumbersome manual process.
To automate the process of detecting the Giant Hogweed by exploiting technologies like drones and image recognition/detection using Machine Learning is an effective way to address this problem.
In this presentation, we show you how we designed the architecture, how we took advantage of both of Big Data and Machine / Deep Learning technologies and lessons learned through this project. For example, we integrated a drone, Apache Hadoop, Apache Spark and TensorFlow to achieve the usability, flexibility and scalability for both of data engineers and data analysts. We talk about why this integration was needed for us, technical challenges from the view point of enterprises and tips to leverage the above open source software.
「Data Engineering Meetup #1」
■開催概要
■NTTデータセッション 講演内容
「Spark Meetup Tokyo #1」
時 間 18:40-19:35
NTTデータ OSSプロフェッショナルサービス 猿田 浩輔, 都築 正宜, 田中 正浩
「USENIX OpML'19 登壇・参加報告会」
■開催概要
■NTTデータセッション 講演内容
「A Distributed Machine Learning For Giant Hogweed Eradication」
時 間 18:00-19:30
NTTデータ OSSプロフェッショナルサービス 梅森 直人
「USENIX OpML'19」
■開催概要
■NTTデータセッション 講演内容
「A Distributed Machine Learning For Giant Hogweed Eradication」
時 間 11:10am-11:30am
NTTデータ OSSプロフェッショナルサービス 土橋 昌, 梅森 直人
「Data Engineering Meetup #1」
■開催概要
■NTTデータセッション 講演内容
「Spark 2.4 & 3.0 - What's next -」
NTTデータ OSSプロフェッショナルサービス 猿田 浩輔
「Hadoop / Spark Conference Japan 2019」
■開催概要
■NTTデータセッション 講演内容
Keynote 10:00-12:00
「The upcoming Spark 3.0: What’s Next」Databricks Xiao Li 氏(Spark PMC member), NTTデータ 猿田 浩輔(Apache Sparkコミッタ)
会場B 16:05-16:40
「Apache Kafkaって本当に大丈夫?~実際にいじめてみたのでお伝えします~」NTTデータ 土橋 昌
2018年
「Strata Data Conference in New York」
■開催概要
■NTTデータセッション 講演内容
時 間 4:20pm-5:00pm
リクルートライフスタイル 林田 賢治氏
NTTデータ OSSプロフェッショナルサービス 佐々木 徹
Recruit Group is one of the largest web service providers in Japan. It has a lot of services covering diverse business fields such as travel and restaurant reservation, human resource services, POS systems, etc. Analyzing application logs collected from these various services enables us to provide more insightful services for individual/corporate customers. Our rough estimations showed the log size to be around 1TB per day and the number of servers/instances to collect logs from to be 1000+ in the future. We had to design a platform that can handle all these ever changing requirements. Therefore, we started a project to collect and analyze all the application logs generated by these services efficiently and easiliy. As the first step of this project, we developed a platform that handles extensive logs from upstream applications and transfer to downstream ones in an efficient and effective manner. This platform is based on the “Datahub” architecture and utilizes Apache Kafka in central for high performance and scalability. The Kafka cluster is developed on Google Compute Engine and some managed services in Google Cloud Platform such as Google BigQuery, Pub/Sub, etc, are also utilized for analysis. We faced with quite a few number of technical problems during developing this platform and successfully solved each one of them with smart solutions. In this session, we will introduce some of the critical problems that anyone could face when developing a similar platform and lessons, know-hows, and best practices we learned from this experience as below.
・How to collect application logs from a lot of services easily
・How to manage schema evolution of each log and adapt new schema to each analysis platform
・A reference network architecture for datahub to connect from a lot of existing services
2017年
「Strata Data Conference in Singapore」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
【3日目】「Fusing a deep learning platform with a big data platform」
時 間 1:45pm-2:25pm
StarHub YongLiang Xu氏
NTTデータ OSSプロフェッショナルサービス 岩崎 正剛
SmartHub, the analytics division of StarHub, and NTT DATA, a global IT innovator in Japan with committers to Hadoop and Spark, have embarked on a partnership to design next-generation architecture to power the data products that will help generate new insights. YongLiang Xu and Masatake Iwasaki explain how deep learning and other analytics models can coexist on the same platform to address opportunities and challenges in initiatives such as smart cities. Deep learning is the next key-enabler to transform data into actionable analytics products. However, big data platforms using technologies such as Hadoop and Spark remain the backbone for analytic applications. Therefore integrating big data platforms with deep learning technologies like TensorFlow is crucial to support the development of cutting-edge data analytics products. YongLiang and Masatake present a reference architecture that incorporates distributed deep learning with an existing big data platform through frameworks such as Intel BigDL and TensorFlowOnSpark. This architecture creates an environment in which deep learning workloads can coexist with other existing analytics workloads and continue to leverage the same real-time data pipeline and monitoring frameworks within the platform.
Topics include:
* An overview of the reference architecture that incorporates distributed deep learning with existing big data platforms
* Key considerations on why SmartHub and NTT DATA have chosen the above architecture
* Case studies on the integration and deployment of deep learning models on the integrated architecture
* Future works and plans
「Global Big Data Conference」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「5 Lessons learned from Big Data / IoT platform production case studies」
時 間 13:40-14:20
NTTデータ OSSプロフェッショナルサービス 下垣 徹
NTT DATA provides Big Data / IoT platform related services to various enterprise customers in different fields. Architecture of Big Data / IoT platform tend to be complex and complicated. It is important to come up with simple, efficient and easy enough solutions to manage such complicated platforms. In this session, I would like to present key takeaways based on production case studies.
「Kafka Summit 2017」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「Worldwide Scalable and Resilient Messaging Services with Kafka and Kafka Streams」
時 間 16:30-17:10
ChatWork株式会社 CTO室 大村 伸吾 氏
NTTデータ OSSプロフェッショナルサービス 土橋 昌
ChatWork is a worldwide communication service, which holds 110k+ of customer organizations. In 2016, we have developed a new scalable infrastructure based on the idea of CQRS and Event Sourcing using Kafka and Kafka Streams combined with Akka and HBase. In this session, we talk about the concept of this architecture and lessons learned in production use cases.
「第3回Kafka Meetup Japan」
■開催概要
■NTTデータセッション 講演内容
「案件の現場から贈る、Kafka利用の苦労話 ~"こんなとき" に気を付けることは?~」
NTTデータ OSSプロフェッショナルサービス 佐々木 徹
「DataWorks Summit 2017」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「Worldwide Scalable and Resilient Messaging Services by CQRS and Event Sourcing using Akka, Kafka Streams and HBase」
【3日目】時 間 16:10-17:50
ChatWork株式会社 CTO室 大村 伸吾 氏
NTTデータ OSSプロフェッショナルサービス 土橋 昌
ChatWork is one of major business communication platforms in Japan. We keep growing up for 5+ years since our service inception. Now, we hold 110k+ of customer organizations which includes large organizations like telecom companies and the service is widely used across 200+ countries and regions.
Nowadays we have faced drastic increase of message traffic. But, unfortunately, our conventional backend was based on traditional LAMP architecture. Transforming traditional backend into highly available, scalable and resilient backend was imperative.
To achieve this, we have applied “Command Query Responsibility Segregation (CQRS) and Event Sourcing” as a heart of its architecture. The simple idea of segregation brings us independent command-side and query-side system components and it can subsequently achieve highly available, scalable and resilient systems. It is desirable property for messaging services because, for example, even if command-side was down, user can keep reading messages unless query-side was down. Event Sourcing is another key technique to enable us to build optimized systems to handle heterogeneous write/read load. This means that we can choose optimized storage platform for each side. Moreover, the event data can be the rich source for real-time analysis of user’s communication behavior. We have chosen Kafka as a command-side event storage, HBase as a query-side storage, Kafka Streams as a core library to give eventual consistency between the two sides. In application layer, Akka has been chosen as a core framework. Akka can be a good choice as an abstraction layer to build highly concurrent, distributed, resilient and message-driven application effectively. Backpressure introduced by Akka Stream can be important technology to prevent from overflow of data flows in our backend, which contributes system stability very well.
In this session, we talk about how above architecture works, how we concluded above architectural decisions on many trade-offs, what was achieved by this architecture, what was the pain points (e.g. how to guarantee eventual consistency, how to migrate systems in the real project, etc.) and several TIPS we learned for realizing our highly distributed and resilient messaging systems.
ChatWork is a business communication platform for global teams. Our four main features are enterprise-grade group chat, file sharing, task management and video chat. NTT DATA is one of biggest solution provider in Japan and providing technical support about Open Source Software and distributed computing. The project has been conducted with cooperation of ChatWork and NTT DATA.
「Apache Big Data North America」
■開催概要
■NTTデータセッション 講演内容
「Java9 Support in Apache Hadoop」
【3日目】時 間 9:00-9:50
NTTデータ OSSプロフェッショナルサービス 鯵坂 明
Java 9 is the next major version and will be GA in July 2017, and it's very important for Apache Hadoop to support Java 9 earlier. Hadoop has many downstream projects and it makes the projects to support Java 9 easily. Java 9 has more incompatible changes than any earlier releases. For example, Project Coin (JEP 213) banned '_' as an identifier and Hadoop Web UI is affected. In this session, Akira will introduce what are the incompatible changes and what we need to do to support Java 9 in Hadoop. Classpath isolation is also an important issue for Hadoop. Hadoop has many dependencies, and the developers who write applications running on Hadoop need to be careful not to conflict the classpath. Java 9 Jigsaw feature is expected to solve this 'jar hell' problem but Hadoop does not use the feature for now. Akira will also introduce how Hadoop community solves the problem without Jigsaw.
「ApacheCon North America 2017」
■開催概要
■NTTデータセッション 講演内容
「10 Things to Consider When Using Apache Kafka: Utilization Points of Apache Kafka Obtained From IoT Use Case」
【2日目】時 間 15:30 - 16:20
NTTデータ OSSプロフェッショナルサービス 梅森 直人, 萩原 悠二
We've been working on IoT for around 3 years, and are recently targeting a use case of connected car that the scale is as follows:* Concurrent connections over a million* Throughput over 100 GbpsWe thought that Apache Kafka would be effective as a means of data collection function of IoT platform which satisfies these requirements. We built and tested the platform however we faced various issues below:
* Performance saturation of Kafka Producer NOT caused by depletion of computer resources* Performance deterioration of Kafka Broker due to sudden disk IO* Crash of Kafka Consumer due to sizing mistake between the Broker and ConsumerTo solve the above issues and make full use of capabilities of the Kafka, it is necessary to clarify mechanism of the Kafka and its surroundings. This presentation will introduce pitfalls, solutions and best practices based on our experiences.
2016年
「Strata + Hadoop World Singapore 2016」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
【2日目】「IoT and Spark MLlib applications for improving products, services, and manufacturing technologies」
時 間 11:15-11:55
株式会社IHI 鈴木 由宇 氏
NTTデータ OSSプロフェッショナルサービス 土橋 昌
Using ILIPS, a common platform for remote monitoring and maintenance developed in house, IHI has collected data from several kinds of products, including aircraft engines and industrial machineries. To utilize the data for preventive maintenance and operation optimization, IHI started evaluating Spark as a potential scalable and flexible analytics platform in 2014, in collaboration with NTT DATA, an active contributor to Spark. Yoshitaka Suzuki and Masaru Dobashi explain how IHI used PySpark and MLlib to improve its services and share best practices for application development and lessons for operating Spark on YARN.
As a first step, IHI evaluated Spark’s characteristics and processing capabilities for time series data through the prediction of a port congestion problem using dummy GIS data. As of this year, IHI has started analyzing real data including sensor data, real GIS data, and system logs. Additionally, IHI has started developing an in-house analytics infrastructure utilizing Spark and leveraging Spark MLlib to get up speed in developing applications for process improvement, product fault diagnosis, and the formalization of highly skilled expert knowledge. Highly skilled experts using MLlib can now analyze the relationships among a large amount of sensor data, enabling IHI to reduce operating costs by automating processes and improve the transmission of knowledge between workers.
【2日目】「Integrated data analytics for consumer electronics using Hadoop and Spark MLlib」
時 間 17:05-17:45
パナソニック株式会社 西川 敬之 氏
NTTデータ OSSプロフェッショナルサービス 山口 永
Panasonic, one of the largest home electronics product manufactures in the world, has launched a number of IoT home appliances connected to the cloud (air conditioners, rice cookers, microwave ovens, etc.). Along with providing cloud services to these products, Panasonic collects operation and state logs from the connected home appliances.
Takayuki Nishikawa and Ei Yamaguhi offer an overview of Panasonic’s recently developed integrated data analytics platform, which uses Hadoop and Hive as core components with NTT DATA (one of the largest system integrators in Japan, which is widely contributing to Hadoop and Spark community with several committers) in order to analyze the ever-increasing log data from these IoT home appliances. The platform makes the complicated data analytics process simple and has achieved scalability for millions of households and yielded an over 10x improvement in processing time. The platform also analyzes and extracts valuable information from multiappliance log data using machine learning with Spark MLlib, enabling Panasonic to get more reliable knowledge about users’ lifestyles.
Takayuki and Ei discuss the technical know-how obtained from the use case, designing and building the platform architecture, migrating existing processes, and constructing an analysis model with Spark MLlib.
「db tech showcase Tokyo 2016」
■開催概要
■NTTデータセッション 講演内容
「Apache Spark 2.0がリリースされるって噂だけど何が変わるの?教えて!コミッタさん」
NTTデータ OSSプロフェッショナルサービス 猿田 浩輔
「進化を続けるイマドキのHive ~現場での利用シーンを交えながら~」
NTTデータ OSSプロフェッショナルサービス 吉田 耕陽
「オープンソースカンファレンス2016 Okinawa」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
時 間 13:00 - 13:45
NTTデータ OSSプロフェッショナルサービス 吉田 耕陽
OSSベースの分散処理基盤として、Apache Hadoopは欠かせない技術となりました。
Hadoopと連携する技術も進化を加速しています。特に、Apache Sparkの登場により機械学習や分析などのシーンでもより利用が広がっています。本セッションでは、これまでのHadoop/Sparkの利用を踏まえたうえで、HadoopやSparkが現在どのような開発状況なのか、また今後どのように発展していくかを発表します。さらに、NTTデータのHadoop/Sparkに関する取り組みについてもご紹介します。
「オープンソースカンファレンス2016 Hokkaido」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
時 間 14:00 - 14:45
NTTデータ OSSプロフェッショナルサービス 佐々木 徹
「OSSユーザーのための勉強会 < OSS X Users Meeting > #14 HadoopとSpark」
■開催概要
■NTTデータセッション 講演内容
「Sparkのキホンとはじめ方」
NTTデータ OSSプロフェッショナルサービス 土橋 昌
「オープンソースカンファレンス2016 Nagoya」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
時 間 13:00 - 13:45
NTTデータ OSSプロフェッショナルサービス 田中 正浩
「Apache Big Data North America」
■開催概要
■NTTデータセッション 講演内容
「Apache Hadoop 3 Current Status」
【1日目】時 間 10:40-11:30
NTTデータ OSSプロフェッショナルサービス 鯵坂 明
Do you want Hadoop 3 release? It is over 4 years since Hadoop 3 and Hadoop 2 were diverged, and there are a lot of great improvements in Hadoop 3, such as Shell Script Rewrite and MapReduce Native Optimization.
Therefore if Hadoop 3 is released, users can enjoy the benefits of the new features.In this session, we will introduce the new features and incompatible changes in Hadoop 3,and how the release is discussed in Apache Hadoop community. In addition, Akira Ajisaka would like to discuss releasing Hadoop 3 with the participants here if possible.
「Developers Summit 2016」
■開催概要
■NTTデータセッション 講演内容
「Apache Sparkに手を出してヤケドしないための基本~「Apache Spark入門より」~ 」
時 間 13:05-13:50
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌, 吉田 耕陽
「Hadoop / Spark Conference Japan 2016」
■開催概要
■NTTデータセッション 講演内容
Keynote 10:00-12:00
「ご挨拶、Hadoopを取り巻く環境2016 」 濱野 賢一朗
「Hadoopの現在と未来」鯵坂 明(Hadoopコミッタ、NTTデータ)、小沢 健史(Hadoopコミッタ、NTT)
「Spark Conference Japanの開催にあたって 」 猿田 浩輔(Apache Sparkコミッタ)
会場C 12:00-12:40
「Apache Spark 超入門」
猿田 浩輔
会場C 13:45-:14:20
「リクルートライフスタイルの考えるストリームデータの活かし方 ~AWS + Kafka + Spark Streaming~」
車田 篤史(リクルートライフスタイル), 堤 崇行(NTTデータ)
会場B 14:30-15:05
「今あらためて考えるHive ~ユースケースの広がりにより顕在化した課題と対応~」
吉田 耕陽
会場D 15:15-:15:50
「SparkによるGISデータを題材とした時系列データ処理 」
鈴木 由宇(IHI), 土橋 昌(NTTデータ)
LT-ランチタイムA
「サポートメンバは見た! Hadoopバグワースト10 」
鯵坂 明
LT-ランチタイムA
「本当にあったHadoopの恐い話~Blockはどこへきえた?」
山下 真一
LT-懇親会
「5分で身に付く! Apache Hadoop開発」
鯵坂 明
「CROSS 2016」
■開催概要
■NTTデータパネルディスカッション 内容
「コラコラ、Hadoop や Spark よ!君たちそれでよいのかい!?星降る夜空で象に寄り添いたい…そう願うオレ達は何処にたどり着くのか」
時 間 15:50-17:10
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 下垣 徹, 鯵坂 明, 岩崎 正剛, 猿田 浩輔
HadoopやSparkは様々な企業で大規模データ処理に使われていますが、実際に動作しているソースコードの中身を見ると、なぜこんなコードが本番環境で動いているんだろうか?と、思うことがよくあります。
そんな、日頃開発していて「なんじゃこりゃ?」と感じる、ソースコードレベルのお話を持ち出しつつ、いったい Hadoop や Spark はどうなっていくんだろう、なんてことを、Hadoop/Spark のコミッタ陣がただひたすら語ります。
2015年
「data tech 2015 Winter」
■開催概要
■NTTデータセッション 講演内容
「進化するデータ活用基盤 ~ 並列分散処理基盤、Hadoop、Spark、機械学習をめぐって」
時 間 10:50-11:30
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 濱野 賢一朗
「Strata + Hadoop World」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
【2日目】「Application of Spark on analyzing massive GIS data for a large number of mobile objects」
時 間 14:20-15:00
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌
株式会社IHI 鈴木 由宇 氏
We are developing a platform to process massive sensor data obtained from social infrastructures and industrial machinery all over the world, in order to achieve advanced safety management. To provide service for mobile objects, we are implementing into this platform algorithms and software to analyze large-scale GIS data.We first focused on the analysis of time-series using over 100,000 mobile objects.Since the number of observations exceeds 1.5 billion records per year, the algorithm requires both scalability and flexibility.To address this issue, we evaluated Spark on YARN as a scalable and flexible platform.In this session, we’ll talk about the capability of Spark to realize numerical data processing,the best practices for application development, and realistic lessons on operating Spark on YARN.IHI is a leading manufacturer in Japan that provides a wide variety of products including energy plants and aircraft engines.IHI is addressing this project, and NTT Data is providing technical support for Spark on YARN infrastructure building.
「一般社団法人データサイエンティスト協会 2ndシンポジウム~実務者が集うデータサイエンスの最前線~」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
【トラックB】「HadoopとSparkがデータ分析にもたらす未来 ~並列分散処理をデータサイエンティストの力に~」
時 間 15:20-16:00
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 濱野 賢一朗
Hadoopに代表される並列分散処理技術はデータ分析の世界を大きく進化させ、「全件」データに基づく個の特徴・特性を把握できるようになりました。全件データを現実的に扱うために並列分散処理技術を使い熟すことが欠かせないともいえます。本セッションでは、HadoopやApache Sparkを中心に並列分散処理技術の現状と未来についてご紹介します。
「Cloudera World Tokyo 2015」
■開催概要
■セッション詳細
「みんなSpark!Spark!と騒いでるけど、ボクが本当のトコロをこっそりお教えします 2015 」
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 下垣 徹
先進的なユーザーを中心として日本でも Apache Spark への注目が集まっています。本講演では、これまで培ってきた経験をもとに、みなさんがお持ちの印象などにお答えしながら、NTTデータならではの観点でApache Spark の現状について知っておくと嬉しいかなと思えることを「こっそり」お伝えします。
「Apache: Big Data Europe」
■開催概要
■NTTデータセッション 講演内容
【3日目】「HDFS 2015: Past, present, and future」
時 間 15:30-16:20
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 鯵坂 明
Hadoop Distributed File System (HDFS) has plenty of functions for collecting and processing big data and therefore used by a lot of companies. As they have been using Hadoop and HDFS, some heavy users become to have new demands such as scalability, resource efficiency, and security. To satisfy these demands, heterogeneous storages, object storage, data encryption, and many features have been developed.
This presentation will introduce these new features developed in 2015 from developer's and vendor-neutral view. This talk will cover the main purpose (What is the problem to solve?), the architecture (How to solve the problem?), and the development progress (When users will be able to use the feature?) for each new feature.
「「初めてのSpark」刊行記念 Spark Meetup 2015」
■開催概要
■セッション詳細
dummmmmmmmm
■NTTデータセッション 講演内容
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田浩輔
Apache Sparkはビックデータ活用を支えるプラットフォームとして注目されているオープンソースの並列分散処理基盤です。
今回はSparkコミュニティと双方向での関わりあい方についてご紹介いたします。
「オープンソースカンファレンス2015 Kansai@Kyoto」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向」
時 間 15:15 - 16:00
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 鯵坂 明
大量データに対する処理基盤として、Apache Hadoopはすでに幅広く広く利用されています。
Hadoopエコシステムは開発は、非常に活発です。データ処理の高速化や、より簡単にHadoop環境を運用するための仕組みの開発など、さまざまな機能が追加され続けています。本セッションではHadoopの概要、最新動向についてお話しします。
「オープンソースカンファレンス2015 Okinawa」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
「分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向」
時 間 13:00 - 13:45
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 吉田 耕陽
大量データに対する処理基盤として、Apache Hadoopはすでに幅広く広く利用されています。Hadoopエコシステムは開発は、非常に活発です。データ処理の高速化や、より簡単にHadoop環境を運用するための仕組みの開発など、さまざまな機能が追加され続けています。本セッションではHadoopの概要、最新動向についてお話しします。
「Spark Casual Talk #1」
■開催概要
■NTTデータセッション 講演内容
「メキメキ開発の進む Apache Sparkのいまとこれから 」
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田浩輔・土橋昌
Apache Sparkは日々進化を遂げています。本発表では、1.0リリース以降の新機能や取り組みを解説するとともに、今後開発がどう進んでいくのか紹介します。また、Zeppelinを使いながらSparkの動かし方をご紹介します。
「オープンソースカンファレンス2015 Hokkaido」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
【2日目】「分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向」
時 間 16:10 - 16:55
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 佐々木 徹
大量データに対する処理基盤として、Apache Hadoopはすでに幅広く広く利用されています。Hadoopエコシステムは開発は、非常に活発です。データ処理の高速化や、より簡単にHadoop環境を運用するための仕組みの開発など、さまざまな機能が追加され続けています。本セッションではHadoopの概要、最新動向についてお話しします。
「db tech showcase」
■開催概要
■NTTデータセッション 講演内容
「DBユーザーのためのHadoop徹底入門」
【1日目】12:30 - 13:20
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 金子 崇之
Hadoop という単語はよく耳にするものの、実際にHadoopがどのようなものかをご存知ない方もいらっしゃいます。本セッションではそのような方むけに「ここだけ押さえておけば大丈夫」というHadoopの基本的な概念や動作について、分かりやすく解説します。
「わかった気になる Apache Sparkのいまとこれから」
【1日目】17:30 - 18:20
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔
Apache Sparkは日々著しい進化を遂げています。本セッションではこれまでのSparkの進化をキャッチアップするとともに、6月にリリース予定のバージョン1.4.0のアップデートをご紹介します。
「電子情報通信学会 NS研究会」
■開催概要
「低レイテンシ性を重視した大規模データ分析のための分散ストリーム処理システムの設計と実装」
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌
株式会社NTTドコモと実施したApache Stormを活用したストリーム処理のシステムに関するフィージビリティ評価について当チームの土橋が講演しました。実機を用いた構成例や取り組み中に確認された課題などが紹介されました。
「Hadoopソースコードリーディング第19回」
■開催概要
「わかった気になる Apache Spark のいまとこれから」
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田浩輔
「Spark / MLlib と MapReduce / Mahout の比較検証」
リクルートテクノロジーズ 堀越 保徳, NTTデータ 濱口 智大
「Sparkをノートブックにまとめちゃおう!Zeppelinでね 」
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌
「オープンソースカンファレンス2015 Nagoya」
■開催概要
■セッション詳細
■NTTデータセッション 講演内容
【2日目】「分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向」
時 間 12:00-12:45
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 佐々木 徹
大量データに対する処理基盤として、Apache Hadoopはすでに幅広く広く利用されています。Hadoopエコシステムは開発は、非常に活発です。データ処理の高速化や、より簡単にHadoop環境を運用するための仕組みの開発など、さまざまな機能が追加され続けています。本セッションではHadoopの概要、最新動向についてお話しします。
2014年
「Spark Summit 2014」
■開催概要
■NTTデータセッション 講演内容
【Day2】TRACK A - Applications「Spark on large Hadoop cluster and evaluation from the view point of enterprise Hadoop user and developer」
時 間 15:30-16:00
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌
We launched on-premises Hadoop cluster consisting of 1000 nodes with NTT DOCOMO, the leading mobile carrier company in Japan, and have used it for 5 years without any data loss. Our particular emphasis was on the fault tolerance and the scalability to compute vast amount of data in the mobile carrier.
Though Hadoop made it possible to deal with petabytes of data, we need more speed and flexibility these days. Demand for the parallel distributed processing frameworks based on the computational model other than MapReduce was steadily increasing. In response to these demands, we launched feasibility study of Spark, because we considered Spark as a promising candidate which works along with Hadoop, provides us fast multi-stage computation, and simplifies the application development. NTT DOCOMO gave us the opportunity to evaluate the scalability and the operability of Spark on the 1000 nodes cluster.
In this talk, we will show you the result of the evaluation, as well as challenges and observations from the view point of the enterprise Hadoop user and developer.
「Hadoop Conference Japan 2014」
■開催概要
■NTTデータHadoopセッション 講演内容
Keynote 10:00-12:00(内、15分前後)
濱野 賢一朗
会場C 13:50-14:40 「Twitterデータ提供サービスにおけるHadoopの活用事例」
佐藤 勇一郎、関 堅吾
会場B 15:40-16:30 「Spark on large Hadoop cluster and evaluation from the view point of enterprise Hadoop user and developer」
土橋 昌
「Hadoopソースコードリーディング第16回」
■開催概要
「Apache Sparkのご紹介 - sparkのキホン」 資料はこちら(slideshare)
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌
「Apache Sparkのご紹介 - 技術トピック」 資料はこちら(slideshare)
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田浩輔
2013年
「Jubatus Casual Talks #2」
「A use case of using online machine learning Jubatus」 資料はこちら(slideshare) (※Goto Berlin 2013 Conferenceの資料と同様です)
Jubatusを商用案件に適用した事例のご紹介。
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 下垣 徹
「Sqoop User Meetup」
「Complex stories about Sqooping PostgreSQL data」
開催日:2013年10月28日(月)
Hadoop World 2013に合わせて開催されるユーザグループのMeetupにおいて、開発コミュニティに提供したApache SqoopのPostgreSQL関連パッチの内容や、技術的な課題について紹介する。
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 岩崎 正剛
「Goto Berlin 2013 Conference (INTERNATIONAL SOFTWARE DEVELOPMENT CONFERENCE 2013)」
「A use case of online machine learningusing Jubatus」 資料はこちら(slideshare)
開催日:2013年10月18日(金)
Jubatusを商用案件に適用した事例のご紹介。
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 課長代理 下垣 徹
※「The realtime processing for web services」(株)リクルートテクノロジーズ 中野猛さまとの共同発表
「Oracle Big Data Forum」
「先駆者が語る!Hadoop活用とデータベース連携の勘所」
開催日:2013年3月14日(木)
Hadoopの適用領域およびその使いどころと、Hadoopとオラクルのデータ連携方式の検証結果についてのご紹介。
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 近藤賢司
「Hadoop Conference Japan 2013 Winter」
「Hadoop上の多種多様な処理でPigの活きる道 - かわいい?ブタさんの扱い方 - 」
開催日:2013年1月21日(月)
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 山下真一
2012年
「Japan IT Week 春 内 第21回ソフトウェア開発環境展(SODEC)」
【SD-1】ビッグデータ活用最新事例 「Hadoop 活用の勘所」
開催日:2012年5月9日(水)
システムのアーキテクチャや、具体的な導入・運用を検討されている方々を対象に、Hadoopならではの適用事例、導入・活用の勘所、システム設計・構築上の基本的なノウハウを紹介する。
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアスペシャリスト 政谷 好伸
2011年
「Hadoopソースコードリーディング第7回」
HadoopWorld 参加報告レポート
開催日:2011年11月28日(月)
主催:Hadoopユーザー会
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 課長代理 下垣 徹
「Hadoop World NYC 2011 - November 8 & 9 - Sheraton New York Hotel & Towers」
■開催概要
■NTTデータHadoopセッション 講演内容
Hadoop’s Life in Enterprise Systems
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアスペシャリスト 政谷 好伸
NTT DATA has been providing Hadoop professional services for enterprise customers for years. In this talk we will categorize Hadoop integration cases based on our experience and illustrate archetypal design practices how Hadoop clusters are deployed into existing infrastructure and services. We will also present enhancement cases motivated by customer’s demand including GPU for big math, HDFS capable storage system, etc.
「Hadoop Conference Japan 2011 Fall」
NTTデータ流 Hadoop活用のすすめ - インフラ構築・運用の勘所 -
開催日:2011年9月26日(月)
主催:Hadoopユーザー会
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔
「Cloud Computing World Tokyo 2011 苦難の先にある新しい世界で飛躍するために」
Big Data時代を支える大量データ処理基盤 Hadoop への取り組み
開催日:9月1日(木)【A2-6】16時00分-16時40分
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗
「Information On Demand Conference Japan 2011 情報活用がひらく、新しい未来」
Big dataを支えるHadoopの特徴と企業システムにおける可能性
開催日:2011年7月29日
Eトラック:スマートな社会インフラBig data
【2E-1】13時-13時50分
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアエキスパート 濱野
「Hadoop FORUM 2011 -'情報爆発'時代,新しい情報システム基盤のひとつとしていかに活用するか-」
Hadoop活用のすすめ
開催日:2011年7月6日(水)13:00-18:05
NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアスペシャリスト 政谷 好伸