Find Jobs
Hire Freelancers

Reading and Writing Parquet file with nested datatype using Pyspark

$2-8 USD / hour

Finalizat
Data postării: aproape 3 ani în urmă

$2-8 USD / hour

Please find the images attached Read the parquet file line by line , column by column, each and every column value will be passed to another function will return some value, with that new value the string has to be replaced in the current column value and and write the records ( with changed values) to new parquet file......while writing we have to make sure that order of the records, schema structure everything should be same ( apart from changed values) For ex: in the Sample [login to view URL] ,we see [login to view URL] for all old names James, Michael,Robert , Washington... for old_name --> James , create a function by name transformer() and if we pass [login to view URL] ---> brown should replace with black, for old_name --> Michael if we pass [login to view URL] ---> null should replace with black the changes should be appear in the new new parquet file by name [login to view URL] with same schema structure , order of columns,order of records Note:- sample data is just for input data, logic should be dynamic , parquet file schema will not be the same all the time.....our code should read the parquet file schema dynamically and and create the parquet file with changed data ( xxx) ....the rows, schema and columns should be same Code Snippet for sample data dataDictionary = [ ('James',{'hair':'black','eye':'brown'}, ("James","","Smith")), ('Michael',{'hair':'brown','eye': None}, ("Michael","Rose","")), ('Robert',{'hair':'red','eye':'black'}, ("Robert","","Williams")), ('Washington',{'hair':'grey','eye':'grey'}, ("Maria","Anne","Jones")) ] schema = StructType([ StructField('old_name', StringType(), True), StructField('properties', MapType(StringType(),StringType()),True), StructField('name', StructType([ StructField('firstname', StringType(), True), StructField('middlename', StringType(), True), StructField('lastname', StringType(), True) ])) ]) Sample data screen shot has the sample data Sample schema screen shot has the schema details
ID-ul proiectului: 31183672

Despre proiect

2 propuneri
Proiect la distanță
Activ: 3 ani în urmă

Vrei să câștigi bani?

Avantajele de a licita pe platforma Freelancer

Stabilește bugetul și intervalul temporal
Îți primești plata pentru serviciile prestate
Evidențiază-ți propunerea
Te înregistrezi și licitezi gratuit pentru proiecte
Acordat utilizatorului:
Avatarul utilizatorului
Hello, When viewing you job details, it really hooked me because 've so much experience in this area. With solid experience in data analysis and Microsft certifications in Data managment and analysis, Sql Server and business intelligence, python programming, pyspark, airflow and AWS Services i could be valuable for your project. let's have 10 mn to discuss more details and get started right away Best Regards Hosni Mrizek
$7 USD în 20 zile
0,0 (0 recenzii)
0,0
0,0
2 freelanceri plasează o ofertă medie de $8 USD/oră pentru proiect
Avatarul utilizatorului
Hi, I am an experienced Data Engineer with a solid background in Spark. I have worked on many projects with Spark, Scala, Python, Cassandra, Snowflake, AWS,... Let's have a call for more details about the project. Regards
$8 USD în 25 zile
5,0 (1 recenzie)
1,8
1,8

Despre client

Steagul UNITED STATES
Mountain House, United States
5,0
2
Metoda de plată a fost confirmată
Membru din feb. 22, 2021

Verificarea clientului

Mulțumim! Ți-am trimis prin e-mail linkul pe care trebuie să-l accesezi pentru a revendica creditul gratuit.
A apărut o eroare la trimiterea e-mailului. Încearcă din nou.
Utilizatori înregistrați Totalul proiectelor postate
Freelancer ® is a registered Trademark of Freelancer Technology Pty Limited (ACN 142 189 759)
Copyright © 2024 Freelancer Technology Pty Limited (ACN 142 189 759)
Se încarcă previzualizarea
S-a oferit permisiunea de depistare a locației.
Ți-a expirat sesiunea pentru conectare sau te-ai deconectat. Conectează-te din nou.